Arquivo da Categoria: Grego

99. Sinédoques amostrais

  O que são as fichas técnicas apresentadas sempre que há uma sondagem, o que são e como se calculam os intervalos de confiança referidos e como se determina o tamanho da amostra a recolher.

   Esta sondagem, realizada pelo Centro de Sondagens e Estudos de Opinião, tem uma margem de erro de 2,2 por cento e um grau de confiança de 95 por cento. Para a sua elaboração, foram feitos 2 023 inquéritos telefónicos, entre 07 e 10 de Julho, a eleitores recenseados, escolhidos em 21 freguesias selecionadas aleatoriamente.

   Sempre que são mostradas sondagens aparece, no final, sempre uma ficha técnica semelhante a esta. Fala-se em «margem de erro» e «grau de confiança». Mas ao certo o que significa isto? É compreensível que não se possa perguntar a todos os eleitores de um país em quem tencionam votar (pelo menos não a tempo das eleições) ou, de forma semelhante, numa fábrica não se pode experimentar todas as bolachas produzidas para ver se estão boas (ficava-se sem ter o que vender) Por isso, o procedimento usual é tirar uma amostra, analisar uma pequena quantidade da população que se quer estudar e verificar aí aquilo que se pretende estudar na população total.

   Para se ter a certeza que uma parte (amostra) pode representar o todo (população), o equivalente matemático da figura de estilo sinédoque, que toma a parte pelo todo, do grego «synekdoche», necessário usar alguma ferramentas estatísticas sob o nome de Inferência estatística. Suponha-se que se quer saber a percentagem de pessoas do sexo feminino que moram numa cidade de 1 milhão de habitantes. Pode-se tirar uma amostra de 100 pessoas para averiguar a percentagem do sexo feminino presente. Mas o que impede que a amostra tenha valores bem diferentes da população total? Pode ter 67 mulheres (67% da amostra) mas a população ter 532 mil (53,2%), por exemplo. A amostra recolhida pode não representar adequadamente o parâmetro que queremos estudar da população…

   Termos como «amostra», «população», «margem de erro», «grau de confiança», «parâmetros» fazem parte da linguagem da Inferência Estatística mas esta não se esgota neles. A Inferência Estatística surge como uma forma de se poder tirar conclusões válidas para uma população que se quer estudar mas apenas analisando uma amostra, uma parte dela. Infere-se, i.e., deduz-se por meio de raciocínio; tira-se por conclusão os valores que se pretende estudar de uma população grande de mais ou sensível de mais para uma recolha sistemática e exaustiva dos elementos em estudo.

   Dois valores surgem, como traves-mestras, para este ramo matemático: a média e o desvio-padrão. Já antes se falou neles, no artigo Curva previdente, quando se abordou a Curva de Gauss. Esta simples relação estatística, que desenha um elegante gráfico em forma de sino, é a ligação entre variados e díspares fenómenos naturais. O que há, citando Fernando Pessoa, é poucas pessoas a saberem-no. A média (valor esperado) é o valor que se situa a meio de todos os outros, uma espécie de representante de todos os outros; o desvio-padrão indica qual a diferença entre os valores e a média, a dispersão dos dados. É diferente, por exemplo, que, na altura de um grupo de pessoas, a média das alturas seja 1,70 m e haja alturas como 1,50 m e 1,80 m e outro grupo em que a média seja também 1,80 m mas haja valores como 1,45 m e 2,11 m. A média é a mesma mas a dispersão das alturas é maior, o seu desvio-padrão é maior. Há várias medidas de dispersão que se podem usar, além do desvio-padrão, como a amplitude, mas esta tem apenas em consideração o valor mais alto e o valor mais baixo, enquanto o desvio-padrão, que é usado a generalidade das fórmulas estatísticas, tem em consideração a totalidade dos valores e a sua diferença à média.

   Os valores da média populacional e da média amostral; do desvio-padrão populacional e do desvio-padrão amostral; da proporção populacional e da proporção amostral nem sempre são, de forma directa, iguais. Por exemplo, num grupo de 5 pessoas, perguntou-se, após o almoço, quantos cafés tinham tomado até àquela hora, nesse dia. Para facilitar as contas, suponha-se que a primeira pessoa inquirida tomou 1, a segunda pessoa 2, a terceira 3, a quarta 4 e a quinta 5. Para os ordinais para diferentes números, ver o artigo Termos ordinais. Obtemos a seguinte população de cafés tomados {1; 2; 3; 4; 5}, cuja média (populacional) é (1+2+3+4+5)/5 = 15/5 = 3. A média populacional é de 3 cafés tomados.

   Mas, se não for possível calcular diretamente a média populacional, é necessário recolher amostras. Recolha-se amostras de tamanho dois da população, podendo-se então obter qualquer uma das seguintes dez amostras: {1; 2} → média 1,5; {1; 3} → média 2; {1; 4} → média 2,5; {1; 5} → média 3; {2; 3} → média 2,5; {2; 4} → média 3; {2; 5} → média 3,5; {3; 4} → média 3,5; {3; 5} → média 4; {4; 5} → média 4,5. Conforme a amostra recolhida, a média obtida é diferente e é diferente da média populacional. Os valores situam-se entre os 1,5 e os 4,5 (a dispersão, a diferença entre os valores e a média pretendida é muito grande). Se se fizer agora a média das média: (1,5+2+2,5+3+2,5+3+3,5+3,5+4+4,5)/10 = 30/10 = 3, que corresponde à média populacional.

   Mas se se recolherem amostras de tamanho 3, podem obter-se as seguintes possíveis dez amostras: {1; 2; 3} → média 2; {1; 2; 4} → média 2,33; {1; 2; 5} → média 2,66; {1; 3; 4} → média 2,66; {1; 3; 5} → média 3; {1; 4; 5} → média 3,33; {2; 3; 4} → média 3; {2; 3; 5} → média 3,33; {2; 4; 5} → média 3,66; {3; 4; 5} → média 4; Os valores situam-se entre os 2 e os 4, a dispersão é já menor, os valores possíveis aproximam-se mais da média populacional. A média das médias é novamente 3. Amostras de quatro elementos, recolhem-se 5 amostras: {1; 2; 3; 4} → média 2,5; {1; 2; 3; 5} → média 2,75; {1; 2; 4; 5} → média 2,66; {1; 3; 4; 5} → média 3,25; {2; 3; 4; 5} → média 3,5. Aqui, os valores situam-se entre os 2,5 e os 3,5 e a dispersão é ainda menor, estando os valores cada vez mais próximos da média populacional, que é de 3.

   Portanto, aumentando o tamanho da amostra recolhida, obtemos valores mais próximos da média populacional. A exata média populacional só é atingida com uma amostra do tamanho da população em si. Isto, como se viu anteriormente, nem sempre é praticável ou desejável. Então como saber qual o tamanho da amostra que devemos tirar para que seja praticável (quanto menor melhor) e o mais aproximada da correta possível (quanto maior melhor)? Aqui entra em cena a Curva Normal, de que já se falou no artigo Curva previdente. Devido às suas características, providencia uma forma de encontrar percentagens e a valores correctos para uma enorme variedade de situações. Se todas as amostras seguissem uma distribuição normal, muitas questões seriam facilmente respondidas. Mas nem todas são… Nomeadamente, partindo da média amostral e do desvio-padrão amostral, seria possível saber se os valores que obtivemos são ou não próximos dos da população em estudo pois quanto menor o desvio-padrão mais a média amostral se aproxima da média populacional.

   Mas há um teorema matemático que nos permite trabalhar com a média e desvio-padrão amostrais como uma distribuição normal. É o Teorema do Limite Central que nos diz que «para amostras de dimensão grande (tipicamente superior a 30), a distribuição das médias é aproximadamente normal”. Este Teorema, importantíssimo na Estatística (e na Inferência Estatística), foi primeiro cogitado pelo matemático francês Abraham de Moivre, num artigo datado de 1733 (situe-se historicamente tendo em conta que o Grande Terremoto de Lisboa, de que se falou no artigo Escalas tremidas, era o Marquês de Pombal primeiro-ministro do Reino, ocorreu em 1755, 22 anos depois). Desse teorema obtemos que a média populacional, para amostras suficientemente grandes, é igual à média populacional e o desvio padrão populacional é igual ao desvio-padrão amostral a dividir pela raíz quadrada do tamanho da amostra considerada. Por exemplo, com uma amostra de tamanho 50 de uma população de que se desconhece a dimensão ou quaisquer valores, a média amostral é de 20 e o desvio-padrão é 5. Então, a média populacional é 20 é o desvio-padrão populacional é 5/√50 ≅ 0,7071.

   Em muitas situações, não é possível obter um valor exato para o parâmetro que queremos estudar da população. Para obter esse valor exato seria necessário uma amostra tão grande e próxima do tamanho da população que é impraticável fazê-lo. É preciso reduzir o grau de certeza no valor que se está a estimar, de forma a tornar as amostras necessárias de tamanho mais manejável. Assim, pode-se baixar a fasquia dos 100% de certeza para os 90%, 95% ou 99% (percentagens suficientemente elevadas para serem úteis). Desta forma, garante-se que 90%, 95% ou 99% das amostras recolhidas têm o valor correto que se quer estimar. Por exemplo, querendo estudar a altura média de uma população, pode-se retirar uma amostra (idealmente de mais de 30 pessoas) e afirmar que «a altura média da população se situa entre ]1,62; 1,66[, com um grau de confiança de 95%».

   Numa situação concreta, a determinação desses intervalos depende do grau de confiança pretendido (tendo em conta que quanto maior o grau de confiança maior terá de ser a amostra). Para construir o intervalo usa-se x̅ (x com a barra por cima) indica a média amostral, σ o desvio-padrão, N o tamanho da amostra, o que está acima da barra da fração é a margem de erro admitida e o Z o grau de confiança pretendido. Assim, para um grau de confiança de 68,3% → Z=1; grau de confiança de 90% → Z=1,65; grau de confiança de 95% → Z=1,96; grau de confiança de 99% → Z=2,58. Quanto maior o grau de confiança que se pretende, maior será o intervalo dos valores possíveis. Estes valores para Z surgem de uma forma natural a partir das propriedades da Distribuição Normal e da sua tabela de percentagens tendo em conta os valores pretendidos. Mas são estes os valores para os intervalos de confiança mais usados.

   Um caso concreto: Numa empresa, trabalham duzentas pessoas. Pretende-se saber a média das alturas dos empregados, de forma a ajustar a farda de trabalho. Para isso, recolheu-se uma amostra de 40 pessoas e mediu-se a sua altura, obtendo-se a seguinte tabela. Colocando estes dados numa folha de cálculo, é possível, utilizando as fórmulas já contidas no programa, calcular a média e o desvio-padrão da amostra. Neste caso, a média é de 1,80 e o desvio-padrão 0,256145. Usando a fórmula, podem-se então ser determinados os intervalos de confiança apropriados.

   Caso o que se pretende estimar seja a proporção populacional (como no caso das sondagens para as eleições), a forma de o fazer é a mesma, apenas mudando alguns aspetos na fórmula para a determinação do intervalo de confiança.  Assim, se numa eleição para a qual há um milhão de potenciais eleitores, se perguntar a cem em que partido irão votar, obtemos a proporção amostral. Tendo em conta o tamanho da amostra e colocando depois na fórmula indicada, obtemos os intervalos de confiança pretendidos.

   Para determinar a dimensão da amostra (n) a recolher, é preciso ajustá-la ao grau de confiança pretendido, usando a tabela anterior. Se se pretender um intervalo de confiança de 95%, Z = 1,96. Se o erro amostral for E=0,02 então E = 0,02 = 1,96 × 0,5 / √n . Logo √n = 1,96 × 0,5 / 0,02. Assim n (dimensão das amostra) será 49² = 2401. Caso se pretenda um maior grau de confiança, pode-se fazer Z=2,58 para um intervalo de confiança de 99% e com um erro amostral de 1%. E = 0,01 = 2,58 × 0,5 / √n . Então √n = 2,58 × 0,5 / 0,01. Logo n (dimensão das amostra) será 129² = 16641. É necessário ponderar se o ganho de precisão compensa os custos adicionais de recolha de uma bem maior amostra (tempo, dinheiro, quantidade de pessoas para realizar o inquérito).

   É claro que isto é visão muito simplificada tanto do processo como na quantidade de fórmulas usadas, servindo apenas como forma de mostrar que nada há de fora do normal naquela ficha técnica.