99. Sinédoques amostrais

  O que são as fichas técnicas apresentadas sempre que há uma sondagem, o que são e como se calculam os intervalos de confiança referidos e como se determina o tamanho da amostra a recolher.

   Esta sondagem, realizada pelo Centro de Sondagens e Estudos de Opinião, tem uma margem de erro de 2,2 por cento e um grau de confiança de 95 por cento. Para a sua elaboração, foram feitos 2 023 inquéritos telefónicos, entre 07 e 10 de Julho, a eleitores recenseados, escolhidos em 21 freguesias selecionadas aleatoriamente.

   Sempre que são mostradas sondagens aparece, no final, sempre uma ficha técnica semelhante a esta. Fala-se em «margem de erro» e «grau de confiança». Mas ao certo o que significa isto? É compreensível que não se possa perguntar a todos os eleitores de um país em quem tencionam votar (pelo menos não a tempo das eleições) ou, de forma semelhante, numa fábrica não se pode experimentar todas as bolachas produzidas para ver se estão boas (ficava-se sem ter o que vender) Por isso, o procedimento usual é tirar uma amostra, analisar uma pequena quantidade da população que se quer estudar e verificar aí aquilo que se pretende estudar na população total.

   Para se ter a certeza que uma parte (amostra) pode representar o todo (população), o equivalente matemático da figura de estilo sinédoque, que toma a parte pelo todo, do grego «synekdoche», necessário usar alguma ferramentas estatísticas sob o nome de Inferência estatística. Suponha-se que se quer saber a percentagem de pessoas do sexo feminino que moram numa cidade de 1 milhão de habitantes. Pode-se tirar uma amostra de 100 pessoas para averiguar a percentagem do sexo feminino presente. Mas o que impede que a amostra tenha valores bem diferentes da população total? Pode ter 67 mulheres (67% da amostra) mas a população ter 532 mil (53,2%), por exemplo. A amostra recolhida pode não representar adequadamente o parâmetro que queremos estudar da população…

   Termos como «amostra», «população», «margem de erro», «grau de confiança», «parâmetros» fazem parte da linguagem da Inferência Estatística mas esta não se esgota neles. A Inferência Estatística surge como uma forma de se poder tirar conclusões válidas para uma população que se quer estudar mas apenas analisando uma amostra, uma parte dela. Infere-se, i.e., deduz-se por meio de raciocínio; tira-se por conclusão os valores que se pretende estudar de uma população grande de mais ou sensível de mais para uma recolha sistemática e exaustiva dos elementos em estudo.

   Dois valores surgem, como traves-mestras, para este ramo matemático: a média e o desvio-padrão. Já antes se falou neles, no artigo Curva previdente, quando se abordou a Curva de Gauss. Esta simples relação estatística, que desenha um elegante gráfico em forma de sino, é a ligação entre variados e díspares fenómenos naturais. O que há, citando Fernando Pessoa, é poucas pessoas a saberem-no. A média (valor esperado) é o valor que se situa a meio de todos os outros, uma espécie de representante de todos os outros; o desvio-padrão indica qual a diferença entre os valores e a média, a dispersão dos dados. É diferente, por exemplo, que, na altura de um grupo de pessoas, a média das alturas seja 1,70 m e haja alturas como 1,50 m e 1,80 m e outro grupo em que a média seja também 1,80 m mas haja valores como 1,45 m e 2,11 m. A média é a mesma mas a dispersão das alturas é maior, o seu desvio-padrão é maior. Há várias medidas de dispersão que se podem usar, além do desvio-padrão, como a amplitude, mas esta tem apenas em consideração o valor mais alto e o valor mais baixo, enquanto o desvio-padrão, que é usado a generalidade das fórmulas estatísticas, tem em consideração a totalidade dos valores e a sua diferença à média.

   Os valores da média populacional e da média amostral; do desvio-padrão populacional e do desvio-padrão amostral; da proporção populacional e da proporção amostral nem sempre são, de forma directa, iguais. Por exemplo, num grupo de 5 pessoas, perguntou-se, após o almoço, quantos cafés tinham tomado até àquela hora, nesse dia. Para facilitar as contas, suponha-se que a primeira pessoa inquirida tomou 1, a segunda pessoa 2, a terceira 3, a quarta 4 e a quinta 5. Para os ordinais para diferentes números, ver o artigo Termos ordinais. Obtemos a seguinte população de cafés tomados {1; 2; 3; 4; 5}, cuja média (populacional) é (1+2+3+4+5)/5 = 15/5 = 3. A média populacional é de 3 cafés tomados.

   Mas, se não for possível calcular diretamente a média populacional, é necessário recolher amostras. Recolha-se amostras de tamanho dois da população, podendo-se então obter qualquer uma das seguintes dez amostras: {1; 2} → média 1,5; {1; 3} → média 2; {1; 4} → média 2,5; {1; 5} → média 3; {2; 3} → média 2,5; {2; 4} → média 3; {2; 5} → média 3,5; {3; 4} → média 3,5; {3; 5} → média 4; {4; 5} → média 4,5. Conforme a amostra recolhida, a média obtida é diferente e é diferente da média populacional. Os valores situam-se entre os 1,5 e os 4,5 (a dispersão, a diferença entre os valores e a média pretendida é muito grande). Se se fizer agora a média das média: (1,5+2+2,5+3+2,5+3+3,5+3,5+4+4,5)/10 = 30/10 = 3, que corresponde à média populacional.

   Mas se se recolherem amostras de tamanho 3, podem obter-se as seguintes possíveis dez amostras: {1; 2; 3} → média 2; {1; 2; 4} → média 2,33; {1; 2; 5} → média 2,66; {1; 3; 4} → média 2,66; {1; 3; 5} → média 3; {1; 4; 5} → média 3,33; {2; 3; 4} → média 3; {2; 3; 5} → média 3,33; {2; 4; 5} → média 3,66; {3; 4; 5} → média 4; Os valores situam-se entre os 2 e os 4, a dispersão é já menor, os valores possíveis aproximam-se mais da média populacional. A média das médias é novamente 3. Amostras de quatro elementos, recolhem-se 5 amostras: {1; 2; 3; 4} → média 2,5; {1; 2; 3; 5} → média 2,75; {1; 2; 4; 5} → média 2,66; {1; 3; 4; 5} → média 3,25; {2; 3; 4; 5} → média 3,5. Aqui, os valores situam-se entre os 2,5 e os 3,5 e a dispersão é ainda menor, estando os valores cada vez mais próximos da média populacional, que é de 3.

   Portanto, aumentando o tamanho da amostra recolhida, obtemos valores mais próximos da média populacional. A exata média populacional só é atingida com uma amostra do tamanho da população em si. Isto, como se viu anteriormente, nem sempre é praticável ou desejável. Então como saber qual o tamanho da amostra que devemos tirar para que seja praticável (quanto menor melhor) e o mais aproximada da correta possível (quanto maior melhor)? Aqui entra em cena a Curva Normal, de que já se falou no artigo Curva previdente. Devido às suas características, providencia uma forma de encontrar percentagens e a valores correctos para uma enorme variedade de situações. Se todas as amostras seguissem uma distribuição normal, muitas questões seriam facilmente respondidas. Mas nem todas são… Nomeadamente, partindo da média amostral e do desvio-padrão amostral, seria possível saber se os valores que obtivemos são ou não próximos dos da população em estudo pois quanto menor o desvio-padrão mais a média amostral se aproxima da média populacional.

   Mas há um teorema matemático que nos permite trabalhar com a média e desvio-padrão amostrais como uma distribuição normal. É o Teorema do Limite Central que nos diz que «para amostras de dimensão grande (tipicamente superior a 30), a distribuição das médias é aproximadamente normal”. Este Teorema, importantíssimo na Estatística (e na Inferência Estatística), foi primeiro cogitado pelo matemático francês Abraham de Moivre, num artigo datado de 1733 (situe-se historicamente tendo em conta que o Grande Terremoto de Lisboa, de que se falou no artigo Escalas tremidas, era o Marquês de Pombal primeiro-ministro do Reino, ocorreu em 1755, 22 anos depois). Desse teorema obtemos que a média populacional, para amostras suficientemente grandes, é igual à média populacional e o desvio padrão populacional é igual ao desvio-padrão amostral a dividir pela raíz quadrada do tamanho da amostra considerada. Por exemplo, com uma amostra de tamanho 50 de uma população de que se desconhece a dimensão ou quaisquer valores, a média amostral é de 20 e o desvio-padrão é 5. Então, a média populacional é 20 é o desvio-padrão populacional é 5/√50 ≅ 0,7071.

   Em muitas situações, não é possível obter um valor exato para o parâmetro que queremos estudar da população. Para obter esse valor exato seria necessário uma amostra tão grande e próxima do tamanho da população que é impraticável fazê-lo. É preciso reduzir o grau de certeza no valor que se está a estimar, de forma a tornar as amostras necessárias de tamanho mais manejável. Assim, pode-se baixar a fasquia dos 100% de certeza para os 90%, 95% ou 99% (percentagens suficientemente elevadas para serem úteis). Desta forma, garante-se que 90%, 95% ou 99% das amostras recolhidas têm o valor correto que se quer estimar. Por exemplo, querendo estudar a altura média de uma população, pode-se retirar uma amostra (idealmente de mais de 30 pessoas) e afirmar que «a altura média da população se situa entre ]1,62; 1,66[, com um grau de confiança de 95%».

   Numa situação concreta, a determinação desses intervalos depende do grau de confiança pretendido (tendo em conta que quanto maior o grau de confiança maior terá de ser a amostra). Para construir o intervalo usa-se x̅ (x com a barra por cima) indica a média amostral, σ o desvio-padrão, N o tamanho da amostra, o que está acima da barra da fração é a margem de erro admitida e o Z o grau de confiança pretendido. Assim, para um grau de confiança de 68,3% → Z=1; grau de confiança de 90% → Z=1,65; grau de confiança de 95% → Z=1,96; grau de confiança de 99% → Z=2,58. Quanto maior o grau de confiança que se pretende, maior será o intervalo dos valores possíveis. Estes valores para Z surgem de uma forma natural a partir das propriedades da Distribuição Normal e da sua tabela de percentagens tendo em conta os valores pretendidos. Mas são estes os valores para os intervalos de confiança mais usados.

   Um caso concreto: Numa empresa, trabalham duzentas pessoas. Pretende-se saber a média das alturas dos empregados, de forma a ajustar a farda de trabalho. Para isso, recolheu-se uma amostra de 40 pessoas e mediu-se a sua altura, obtendo-se a seguinte tabela. Colocando estes dados numa folha de cálculo, é possível, utilizando as fórmulas já contidas no programa, calcular a média e o desvio-padrão da amostra. Neste caso, a média é de 1,80 e o desvio-padrão 0,256145. Usando a fórmula, podem-se então ser determinados os intervalos de confiança apropriados.

   Caso o que se pretende estimar seja a proporção populacional (como no caso das sondagens para as eleições), a forma de o fazer é a mesma, apenas mudando alguns aspetos na fórmula para a determinação do intervalo de confiança.  Assim, se numa eleição para a qual há um milhão de potenciais eleitores, se perguntar a cem em que partido irão votar, obtemos a proporção amostral. Tendo em conta o tamanho da amostra e colocando depois na fórmula indicada, obtemos os intervalos de confiança pretendidos.

   Para determinar a dimensão da amostra (n) a recolher, é preciso ajustá-la ao grau de confiança pretendido, usando a tabela anterior. Se se pretender um intervalo de confiança de 95%, Z = 1,96. Se o erro amostral for E=0,02 então E = 0,02 = 1,96 × 0,5 / √n . Logo √n = 1,96 × 0,5 / 0,02. Assim n (dimensão das amostra) será 49² = 2401. Caso se pretenda um maior grau de confiança, pode-se fazer Z=2,58 para um intervalo de confiança de 99% e com um erro amostral de 1%. E = 0,01 = 2,58 × 0,5 / √n . Então √n = 2,58 × 0,5 / 0,01. Logo n (dimensão das amostra) será 129² = 16641. É necessário ponderar se o ganho de precisão compensa os custos adicionais de recolha de uma bem maior amostra (tempo, dinheiro, quantidade de pessoas para realizar o inquérito).

   É claro que isto é visão muito simplificada tanto do processo como na quantidade de fórmulas usadas, servindo apenas como forma de mostrar que nada há de fora do normal naquela ficha técnica.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *