Arquivo da Categoria: Tecnologia

95. Estrelas fiscais

O número «1» aparece três vezes mais como primeiro dígito em muitos  fenómenos naturais e numéricos do que os outros dígitos e como isso liga as estrelas à fraude fiscal através da Matemática.

   Um astrónomo observava o movimento dos planetas com a sua fiel tabela de logaritmos a seu lado para poder fazer multiplicações e divisões complicadas de forma fácil. Enquanto a consultava, reparou que a página referente aos números começados por «1» estava mais gasta e usada do que as começadas por outros dígitos. Verificou que, entre as páginas mais usadas e gastas, cerca de 1 página em cada 3 começava por «1», 1 em cada 6 começava por «2», 1 em 8 começava por «3», 1 em 10 por «4», 1 em 13 por «5», 1 em 15 por «6», 1 em 17 por «7», 1 em 19 por «8» e 1 em 23 por «9». Entusiasmado, recolheu mais listas de números gerados naturalmente e notou novamente que o «1» era o primeiro dígito significativo mais frequente, cerca de 30 números em cada 100. E notou também que o segundo dígito já estava distribuído uniformemente, com cada dígito na segunda posição a surgir cerca de 11,1% (como se esperava que acontecesse com o primeiro dígito). Também que este padrão era independente da unidade de medida usada, surgindo quer os dados fossem recolhidos em quilómetros ou milhas ou centímetros; em dólares ou em francos ou em libras; em quilómetros quadrados ou acres ou hectares. Publicou este padrão que tinha encontrado numa revista matemática, chamando ao artigo «Nota sobre a Frequência do Uso de Diferentes Dígitos em Números Naturais». Não apresentou uma explicação da causa desse padrão nem que dados tinha recolhido para o determinar, mencionado que estas frequências tinham uma distribuição logarítmica (em que o dígito d surge como primeiro dígito significativo com uma frequência de log(d + 1) − log(d)) e uma tabela de frequências. O artigo gerou pouco interesse e foi esquecido. O seu nome era Simon Newcomb (1835-1909) e a lei que descobriu viria mais tarde a receber o nome de outra pessoa que a descobriu independentemente, a Lei de Benford.

   Foi a vez de, 57 anos depois da publicação de Newcomb, o físico Frank Benford (1883-1948) descobrir o mesmo padrão numa grande gama de listas numéricas, e publicar a mesma descoberta. Notou o padrão na sua tabela de logaritmos e depois analisou contas de eletricidade, cotações de ações de empresas, preços de casas, população de países e cidades, taxas de mortalidade, comprimentos de rios, áreas de lagos, constantes físicas e matemáticas, pesos atómicos e processos descritos por funções exponenciais, entre outros. Reuniu cerca de 21 mil registos em 20 listas numéricas e publicou as suas descobertas em 1938 numa revista de Filosofia com o título A Lei dos números anómalos. Também Benford apresentou a fórmula para determinar a frequência com que o primeiro dígito significativo (isto é, diferente de zero) de um número seja d como sendo log (1 + 1/d).

   Os logaritmos a que a fórmula de refere (e que estiveram na base da sua descoberta) são uma ferramenta matemática, criada no século 17 por John Napier (como visto no artigo Escalas e ossos) como meio de facilitar cálculos complexos (usando tabelas de logaritmos e réguas de cálculo como a da imagem). Os logaritmos respondem à pergunta de saber a quanto é preciso elevar um número para obter outro. Por exemplo, 10¹ = 10; 10² = 10×10 = 100; 10³ = 10×10×10 = 1000. Então o logaritmo (de base 10) de 1000 = 3; log (100) = 2; log (10) = 1; log (1) = 0 (qualquer número, exceto 0, elevado a zero é igual a um). Tanto Newcomb como Benford usaram logaritmos de base 10 (a quanto é preciso elevar 10 para obter um determinado número) mas há logaritmos referentes a bases diferentes. Por exemplo, 2³ = 2×2×2 = 8 logo log₂ (8) = 3. Devido ao seu uso recorrente, log ₁₀ escreve-se apenas log sem menção da base. Uma das propriedades mais importantes dos logaritmos é transformar multiplicações em adições (e divisões em subtrações) através da fórmula log (x×y) = log (x) + log (y). Assim, log (3×7) = log (3) + log (7) ≅ 0,477 + 0,845 = 1,322. Usando uma régua de cálculo ou uma tabela de logaritmos, sabemos que 10¹’³²² = 21 e podemos concluir assim que 3×7 = 21 (porque o logaritmo é a operação inversa da exponenciação como a subtração é a operação inversa da soma). Ou log (21 ÷ 75) = log (21) – log (75) ≅ 1,32 – 1,87 = -0,55. Logo 21 ÷ 75 = 10⁻⁰’⁵⁵ = 0,28.

   Foi nas suas listas de valores de diferentes logaritmos de base 10 que Newcomb e Benford notaram que os números cujo primeiro dígito significativo (ou seja, o primeiro diferente de zero depois da vírgula) era «1» eram mais frequente do que os começados por outros dígitos. Newcomb também notou que a probabilidade do segundo dígito se aproximava do valor 0,11 (11,1%) e que o terceiro dígito mais ainda se aproximava, que a do quarto dígito mais ainda. Mas as suas conclusões não foram muito divulgadas porque não tinham aplicações práticas nem critérios  para saber se uma determinado coleção numérica seria parte deste padrão ou uma demonstração de como ele surgia.

   Até 1992, quando o Economista Mark Negrini defendou a tese, no Departamento de Contabilidade da Universidade de Cincinnati (EUA) que a Lei de Benford podia ser aplicada na deteção de tentativas de fraude fiscal. Valores em que a distribuição do primeiro (e restantes) dígitos se afastasse significativamente da prevista pela lei de Benford seriam provavelmente falsificados e deveriam ser analisados com mais rigor. Este sistema já é aplicado, com algumas limitações legislativas, nos EUA, desde que o ex-presidente Bill Clinton soube desta proposta.

   Também na década de 90 do século XX, o matemático Theodore Hill deu à Lei de Benford a sua demonstração e das características que uma lista numérica tem de apresentar para se enquadrar neste padrão e encontrou outras (a lista seria não só independente das unidades de medida mas também da base usada).

   As características que uma lista  numérica deve apresentar para seguir a Lei de Benford incluem serem usadas as mesmas unidades de medida em todos os valores referentes à mesma avaliação (todas em quilómetros ou em acres ou em decibéis), não terem máximos ou mínimos à partida estabelecidos (como as alturas das pessoas), não serem sequencialmente atribuídos (como os números de telefone), terem uma distribuição contínua e sem grandes intervalos entre os valores (como o número de filhos de uma população), terem bastantes valores em várias ordens de grandeza (como a população de estados ou distritos), do muito pequeno ou muito grande e terem mais de 500 valores por cada amostra (para se aproximarem da Lei de Benford).

   Esta Lei referente à distribuição dos diferentes dígitos tem impacto apenas no primeiro (e segundo) dígitos, já que, à medida que  aumenta a posição do dígito a considerar, mais a distribuição de dígitos se aproxima  de uma Distribuição Uniforme. Uma vez que a função matemática utilizada nesta lei (os logaritmos) realça a ordem de grandeza de um número e não o seu valor concreto, surgem facilmente a invariância quanto às unidades de medida usadas, a invariância quanto à base nos cálculos e a invariância quanto às escalas de medida consideradas. Uma sequência geométrica {aⁿ} segue a Lei de Benford apenas se log (a) for irracional (ver o artigo Naturalmente complexo sobre os conjuntos numéricos). Também sequências como {n!} têm esta distribuição de dígitos, assim como aparentemente a Sequência de Fibonaci (ver o artigo Coelhos matemáticos). Na verdade, a Sequência de Fibonacci não segue a Lei de Benford completamente, ainda que «1» surja como primeiro dígito 3 vezes mais do que os outros dígitos. Calculando os primeiros 5 mil números da Sequência de Fibonacci, «1» é o primeiro dígito em 38% deles mas os outros surjam mais uniformemente com 13%, à estranha exceção de «4», «6» e «7» que nunca surgem como primeiro dígito!

   É possível aplicar a Lei de Benford para determinar a frequência com que um número maior do que 9 surge numa lista numérica gerada naturalmente e com este padrão. Para saber qual a probabilidade específica de um dígito surgir numa dada posição, basta somar todas as probabilidades que tenham esse dígito nessa posição. Por exemplo, a frequência/probabilidade de um número começar por 23 é dada por log (1 + 1/23) ≅ 0,018.  A frequência/probabilidade de um número ter o dígito 4 na segunda posição é dada por p(14) + p(24) + p(34) + p(44) + p(54) + p(64) + p(74) + p(84) + p(94) = 0,030 + 0,018 + 0,013 + 0,010 + 0,008 + 0,007 + 0,006 + 0,005 + 0,005 = 0,100