Problema estatístico, população e amostra; dados univariados
Hoje, ninguém consegue dizer que não vê a Estatística. Ela está em toda a parte, desde a primeira página dos jornais até às discussões desportivas, passando pelas informações oficiais ou a publicidade. Estamos perante uma enorme vantagem da Era Moderna, pois todos temos muito mais acesso a informação detalhada do que em algum outro período da História da Humanidade.
Mas os números não falam sozinhos, temos de os interpretar. E temos de ver se as interpretações que os outros fizeram estão correctas ou se são realmente conclusões do estudo em causa em vez de opiniões avulsas dos autores do estudo ou dos responsáveis pela divulgação do mesmo.
Em 1835 o médico suíço H. C. Lombard publicou os resultados de um estudo sobre a longevidade de 8488 indivíduos de profissões variadas. A sua pesquisa baseou-se nos atestados de morte passados durante mais de 50 anos na cidade de Geneva, Suíça. Cada atestado tinha o nome do falecido, a profissão e a idade da morte. Lombard usou estes dados para calcular a longevidade média associada a cada profissão. Os resultados de Lombard foram surpreendentes: a profissão mais perigosa – aquela com menor longevidade era a de “estudante” com uma idade média de morte de 20,7 anos!
Profissão | Longevidade |
Farmacêuticos | 69.2 |
Arquitectos | 68.5 |
Padeiros | 55.3 |
Barbeiros | 49.3 |
Carpinteiros | 55.7 |
Ferreiros | 68.8 |
Limpa chaminés | 45.3 |
Soldados | 46.6 |
Pedreiros | 36.3 |
Estudantes | 20.7 |
Explica qual é o erro do estudo do médico suíço Lombard.
Não podemos simplesmente ler um estudo e aceitar passivamente o que ele nos diz. Temos de ser leitores críticos e, para isso, precisamos de saber alguma coisa de Estatística.
Não é fácil definir Estatística. Esta ciência existe, sob uma ou outra forma, há muito tempo: contar, enumerar e recensear há muito que são preocupações dos governantes.
Na antiga Grécia, no Império Romano, no Egipto, na Índia, no Japão, na China, etc., o Estado tinha necessidade de conhecer a sua população, tanto a nível económico como a nível social. Não nos esqueçamos que, segundo a Bíblia, Jesus Cristo nasceu num lugar menos habitual porque os seus pais se deslocavam por via de um recenseamento da população ordenado pelos romanos, que então dominavam essa área do mundo. Os imperadores, reis, etc., como governavam áreas muito vastas de território, ordenavam os recenseamentos da população para melhor conhecer cada região e assim melhor poder cobrar impostos e proceder ao recrutamento militar, tantos eram os gastos do Estado e tantas eram as guerras em que se envolviam. Nas civilizações antigas, quem não respondesse aos censos era muitas vezes punido com a própria morte. Claro que estes recenseamentos não podem ser comparados com os da actualidade, mas pode dizer-se que a Estatística se começou a desenvolver com estas sociedades, de uma maneira simples, mas, mesmo assim, útil para quem a utilizava.
Podemos dizer que a Estatística é um ramo da matemática que, partindo de observações particulares, tenta tirar conclusões gerais sobre o objecto em estudo — a população.
Uma população pode ser um conjunto de qualquer tipo de “objetos”: pode ser “pessoas”, medições de “temperatura” ou de qualquer outra grandeza física, conjuntos de “preços”, etc. Em suma, população é tudo o que se pode traduzir numericamente. Não podem, por isso, ser estudados pela Estatística conceitos não quantificáveis, como o amor, o ódio ou a felicidade.
A Estatística é uma ciência indutiva, pois estuda a melhor forma de recolher e analisar dados numéricos sobre uma determinada “qualidade”, tomando alguns elementos da população, para depois estabelecer conclusões – generalizações – para a totalidade da população em estudo. A análise da totalidade da população é normalmente pouco viável.
A Estatística trata de recolher amostras da população para, a partir dessas amostras (devidamente escolhidas), poder tirar conclusões sobre toda a população.
Como objectivos principais da Estatística destacamos:
escolher a melhor amostra, de modo a tornar a informação o mais fiável possível;
tirar conclusões acerca da população e saber se estas conclusões são fiáveis.
A Estatística é, assim, a ferramenta ideal para trabalhar grandes quantidades de dados. Se pretendermos conhecer a estrutura de um país ou de uma região, no que diz respeito a peso, altura, idade, sexo, tipo de habitação, tipo de trabalho e remuneração dos seus habitantes, a Estatística permitirá compreender o significado de toda a massa de dados disponíveis. Assim, transformando os dados em bruto numa série de números, poderemos conhecer melhor o país ou região em estudo. Além disso, com os números podemos elaborar tabelas e gráficos que nos permitirão, através de uma simples análise, tirar conclusões.
É importante definir bem qual é a população em estudo, assim como qual deve ser o tipo de amostra a recolher. Vamos usar a seguinte definição:
População é uma colecção de unidades individuais (podem ser pessoas, animais, resultados experimentais, etc.), com uma ou mais características em comum que se pretendem analisar.
Nas sondagens eleitorais, a população é constituída por todos os eleitores de uma região ou de um país, mas se pretendemos, por exemplo, conhecer a opinião dos estudantes do Ensino Secundário, a população já será constituída por todos os alunos matriculados nos 10.º , 11 .º e 12.º anos, em determinado momento.
Ao estudar uma população o que se pretende é analisar algumas características numéricas que se designam por parâmetros. Por exemplo, para estudar a população constituída por todos os potenciais eleitores para umas eleições, podemos procurar resultados sobre os seguintes dois parâmetros:
– idade média dos potenciais eleitores que estão decididos a votar;
– percentagem de eleitores que estão decididos a votar.
Para conhecer aqueles parâmetros, teria de se perguntar a cada eleitor a sua idade, assim como a sua intenção no que diz respeito a ir votar ou não. Esta tarefa seria claramente impraticável, nomeadamente por dispêndio de tempo e de dinheiro.
Outra razão que pode levar a que não se possa observar exaustivamente todos os elementos de uma população, prende-se com o facto de algumas populações terem dimensão infinita – por exemplo, a população constituída pelas temperaturas em todos os pontos de uma cidade. Outra razão ainda tem a ver com a possibilidade de a própria observação levar à destruição da população. Por exemplo, o departamento de controlo de qualidade de uma fábrica de baterias de carros que pretenda fazer testes para verificar se as baterias estão em perfeitas condições, sendo necessário o desmantelamento da bateria; não se podem verificar todas as baterias, pois tal destruiria toda a população!
O que foi dito leva-nos a concluir que, em geral, não podemos determinar de forma exacta os parâmetros desconhecidos da população a estudar. Podemos, sim, estimá-los utilizando estatísticas, que são quantidades calculadas a partir da observação de uma amostra recolhida da população. Temos assim a definição.
Amostra é um subconjunto da população que se observa com o objectivo de tirar conclusões para a população de onde foi recolhida.
O objecto de estudo não é a amostra, é toda a população. Assim, a escolha da amostra é muito importante para que seja, tanto quanto possível, representativa da população. Logo, a característica numérica que se está a estudar aparece sempre sob duas formas: como característica da população (chama-se parâmetro) e como característica da amostra (chama-se estatística). Um parâmetro (característica da população) é um valor exacto, embora desconhecido, mas a estatística (característica da amostra) é conhecida, embora contendo um certo erro.
Contudo, a estatística é interessante, pois é uma estimativa útil do parâmetro respectivo (se efectivamente a amostra utilizada for representativa da população subjacente). Quando uma amostra não é representativa da população, diz-se que é enviesada. A sua utilização para estimar características da população pode ter consequências graves, na medida em que a amostra tem propriedades que não reflectem as propriedades da população.
População e amostra
Identifica se cada um dos seguintes casos se refere à população ou a uma amostra.
Salários mensais auferidos pelos empregados de uma empresa.
Notas obtidas a Matemática pelos alunos do 10º ano de uma Escola Secundária.
Idades de 45 alunos do 10º ano de uma Escola Secundária.
Quantidades de vinho obtidas por 10 agricultores da região do Alentejo.
Salários mensais auferidos por 250 empregados da indústria têxtil.
Notas obtidas a Português na 1ª chamada dos exames nacionais de 2024.
Quantidade de batata consumida mensalmente em 100 lares portugueses.
Um grupo de 20 doentes seleccionados para tomarem um medicamento novo.
Número de carros vendidos por cada um dos cinco empregados de um stand de vendas de automóveis.
Número de leitores dos seis jornais diários de maior circulação em Portugal.
Adaptado de: Introdução às Probabilidades e à Estatística, Maria Eugénia Graça Martins, DEIO, 2000
Sondagem da SIC sobre a pena de morte
Comenta este acontecimento ocorrido há alguns anos em Portugal. “Numa determinada sexta-feira, em que se debateu o aumento de criminalidade, a SIC apelou aos telespectadores que respondessem se, sim ou não, estavam de acordo com a implementação da pena de morte em Portugal para determinado tipo de crimes. Uma percentagem substancialmente superior a 50% disse que sim. No sábado seguinte o jornal Expresso publicou o resultado de uma sondagem realizada por determinada empresa de sondagens, onde a percentagem de pessoas que eram a favor da pena de morte era consideravelmente pequena, inferior a 10%.”
Elvis Presley está vivo?
No vigésimo aniversário da alegada morte de Elvis Presley, uma empresa de Dallas patrocinou uma sondagem a nível nacional.
Os ouvintes de mais de 1000 estações de rádio eram convidados a telefonarem para um determinado número (pago) para emitirem a opinião sobre se achavam que Elvis tinha ou não morrido.
56% dos ouvintes disseram que Elvis estava vivo!
Pensas que aquele resultado exprime a opinião da população americana? Identifica alguma fonte de enviesamento na amostra considerada.
Este é um problema que se pode tornar muito complicado mas que, como vimos, é essencial para que se possam obter resultados fiáveis.
Mas existe um princípio que deve ser sempre respeitado: a amostra tem de ser aleatória, ou seja, qualquer outra amostra possível, da mesma dimensão, tem de ter igual possibilidade de ser seleccionada para o estudo.
Vejamos uma maneira simples de, com a ajuda da calculadora, escolher uma amostra aleatória.
Suponhamos que, numa Escola Secundária, há 153 alunos do 12º ano e que se pretende fazer um estudo sobre quais serão os cursos a que os alunos se pretendem candidatar no Ensino Superior, em primeira prioridade.
Resolveu-se que se iria seleccionar uma amostra de 30 alunos (a amostra nem deve ser demasiado pequena, para que o estudo possa ser feito com segurança, nem demasiado grande, para que o estudo não seja muito demorado).
As calculadoras e os computadores têm uma função que nos permite resolver rapidamente o problema (também podemos usar a Internet para obter tais valores). A função RAND está presente nas linguagens de programação de todas as calculadoras e computadores.
Tipicamente, a função RAND gera um número aleatório (na realidade, o número não é totalmente aleatório por ser gerado pela calculadora ou computador, mas é uma aproximação muito boa e é chamado número pseudo aleatório) no intervalo
Repetindo o processo 30 vezes temos os 30 números aleatórios que pretendíamos. Se voltarmos a repetir o processo, obtemos uma nova lista de 30 números e ambas são igualmente prováveis. Logo, obtivemos uma amostra aleatória. Podes obter listas de números aleatórios em várias páginas na Internet.
Este processo hoje em dia está muito simplificado, pois a generalidade das calculadoras gráficas possibilitam gerar os números inteiros, dentro de um intervalo dado e de uma só vez, que quisermos.
Na figura 1 usámos a instrução randInt(1,153,30), numa calculadora Texas Instruments TI-Nspire CX II-T, e de uma só vez obtivemos uma amostra nas condições pretendidas.
Amostra aleatória
Indica em quais das seguintes situações as amostras escolhidas são aleatórias.
Para investigar as preferências musicais dos alunos do Ensino Secundário, entregou-se um questionário aos alunos desse nível de ensino que frequentavam o Conservatório.
Uma empresa de publicidade pretendia perceber quais os anúncios da televisão que mais facilmente eram recordados pelas pessoas, tendo inquirido uma amostra de pessoas à saída de um supermercado num determinado dia.
A direcção de uma Escola Secundária pretendia saber se os alunos estavam satisfeitos com a alimentação fornecida pela cantina da escola. Inquiriu todos os alunos da escola que têm número ímpar.
Adaptado de: Brochura de Estatística, 10º ano, ME
A sondagem de 1936 do Literary Digest
Nas eleições presidenciais de 1936 nos EUA, defrontaram-se Alfred Landon, o governador republicano do Kansas, e o presidente em exercício, Franklin D. Roosevelt. Na altura da eleição, a Nação não tinha ainda recuperado da Grande Depressão.
O Literary Digest, um dos jornais mais respeitados da época, conduziu uma sondagem durante duas semanas antes da eleição. Baseado nesta sondagem, o jornal previu que Landon obteria 57% dos votos, contra 43% de Roosevelt. Os resultados da eleição foram 62% para Roosevelt contra 38% para Landon. Como foi possível uma discrepância destas? Na realidade, a sondagem levada a cabo pelo Literary Digest foi uma das maiores e mais caras jamais conduzidas, baseada numa amostra de aproximadamente 2,4 milhões de pessoas. Para a mesma eleição, a Gallup (Gallup Organization), baseada numa amostra muito mais pequena, de aproximadamente 50 000 pessoas, conseguiu prever a vitória de Roosevelt.
Como foi isto possível?
Comentário: A amostra do Literary Digest foi extraída de uma lista enorme, constituída a partir do ficheiro de utentes de telefones, da listagem dos subscritores de jornais e revistas e dos membros das associações profissionais. A partir daí foi criada uma lista de 10 milhões de nomes, tendo sido enviado a cada pessoa um boletim de voto que deveria ser enviado para o jornal depois de preenchido.
Na sua edição de 22 de Agosto de 1936, o Literary Digest apregoava:
“Mais uma vez, estamos a pedir a mais de 10 milhões de eleitores – um em cada quatro, representando todos os condados dos Estados Unidos – para decidir a eleição de Novembro em Outubro. Na próxima semana, as primeiras respostas destes dez milhões iniciarão a maré de entrada de boletins de votos preenchidos; estes serão verificados três vezes, classificados em grupos cinco vezes e feito o respectivo total. Quando o último número for somado e verificado, se a experiência passada for um critério, o país saberá, a menos de 1%, o voto popular real de 40 milhões de eleitores.”
A realidade foi bem mais dura! Após a eleição, com a credibilidade completamente desfeita e as vendas em baixo, o Literary Digest foi obrigado a fechar as portas, vítima de um passo estatístico em falso. O primeiro erro nesta sondagem foi o processo de selecção para os nomes da lista, a quem foi posta a questão, já que esta lista ficou constituída sobretudo por nomes de pessoas das classes média e alta. Em 1936, o telefone ainda era um luxo, assim como também o era ser assinante de um jornal ou membro de uma associação profissional, numa altura em que havia 9 milhões de desempregados. Assim, a amostra era grandemente enviesada e não era de modo nenhum representativa da população. Outro problema a considerar foi o facto de 10 milhões de pessoas terem sido contactadas e só cerca de 2,4 milhões terem respondido. Este problema da não resposta provoca um novo enviesamento, que é muito difícil de corrigir, já que num país livre não se pode obrigar as pessoas a responder (mesmo pagando, o que não melhoraria a situação, pois introduziria outras fontes de enviesamento).
Moral: É preferível utilizar uma amostra boa, ainda que de dimensão pequena, do que uma amostra grande, mas má.
TANNENBAUM, P. et al. (1998) – Excursions in Modern Mathematics. Prentice-Hall, Inc., adaptado por M. E. Graça Martins et al., DES-ME, 2003
Consideremos a tabela apresentada abaixo, onde estão registados alguns dados relativos à equipa de basquetebol do Sport Lisboa e Benfica (Época 2023-24), no que diz respeito a idade, altura, tempo médio jogado por jogo e total de pontos marcados – variáveis estatísticas – de vinte e cinco jogadores que participaram no play-off.
Jogador | Idade | Altura | Min. Jogo | Pontos |
Aaron Broussard | 34 | 1,96 | 24 | 391 |
Bernardo Lisboa | 22 | 1,83 | 30 | 336 |
Daniel Relvão | 27 | 2,08 | 12 | 109 |
Daniel Tuck | 20 | 1,92 | 17 | 82 |
Danilo Horta | 20 | 1,88 | 13 | 60 |
Diogo Gameiro | 29 | 1,83 | 12 | 126 |
Eduardo Francisco | 21 | 2,00 | 32 | 282 |
Filipe Santos | 19 | 8 | 35 | |
Hugo Silva | 22 | 2,03 | 22 | 162 |
Ivan Almeida | 35 | 1,98 | 20 | 243 |
Ivan Pavicevic | 25 | 1,97 | 27 | 201 |
João Mendes | 19 | 1,84 | 5 | 5 |
Betinho Gomes | 39 | 2,00 | 19 | 273 |
José Silva | 35 | 1,94 | 18 | 348 |
José Barbosa | 34 | 1,78 | 14 | 82 |
Makram Romdhane | 35 | 2,06 | 22 | 279 |
Mor Diop | 21 | 2,06 | 20 | 100 |
Pedro Lopes | 19 | 1,96 | 15 | 45 |
Rodrigo Cristo | 23 | 1,98 | 20 | 168 |
Sérgio Silva | 28 | 1,93 | 12 | 71 |
Sérgio Sousa | 19 | 1,96 | 10 | 39 |
Terrel Carter | 28 | 2,08 | 24 | 441 |
Thomas Drechsel | 28 | 1,98 | 22 | 342 |
Tiago Filipe | 19 | 2,02 | 13 | 65 |
Toney Douglas | 38 | 1,88 | 23 | 386 |
As variáveis estatísticas são classificadas em qualitativas e quantitativas.
As variáveis qualitativas representam informação identificada por alguma qualidade, categoria ou característica, não susceptível de medida, mas de classificação, assumindo várias modalidades. Por exemplo, se estivéssemos interessados no estado civil dos jogadores, estas assumiam as categorias solteiro, casado, divorciado ou viúvo.
As variáveis quantitativas representam a informação resultante de características susceptíveis de serem medidas, apresentando-se com diferentes intensidades, que podem ser de natureza discreta (dados discretos) ou contínua (dados contínuos).
Uma variável é discreta quando toma apenas um número finito de valores distintos. É o caso, por exemplo, do número de pontos marcados por cada jogador. No caso de uma variável contínua, esta pode tomar todos os valores numéricos, compreendidos no seu intervalo de variação. É o caso, por exemplo, da altura, dos minutos jogados e da idade de cada jogador.
Classifica cada uma das variáveis indicadas em qualitativa ou quantitativa e, neste último caso, diz se é de tipo discreto ou contínuo.
a. Número de calorias de uma sanduíche.
b. Cor dos olhos de uma pessoa.
c. Tempo que uma pessoa demora, de manhã, a ir de casa até ao trabalho.
d. Sexo de um indivíduo.
e. Se um estudante vive ou não em casa dos pais.
f. Número de filhos de um casal.
g. Comprimento do salto de um atleta.
h. Estado civil de um indivíduo.
i. Conta de telefone paga mensalmente por uma família.
j. Número de impulsos telefónicos gastos mensalmente por uma família.
k. Classificação de um automóvel em pequeno, médio ou grande.
l. Mês de nascimento de cada estudante de uma dada turma.
Adaptado de: Introdução às Probabilidades e à Estatística, Maria Eugénia Graça Martins, DEIO, 2000
Das medidas ou estatísticas que iremos definir para caracterizar os dados, destacam-se as medidas de localização, nomeadamente as que localizam o centro da amostra, e as medidas de dispersão, que medem a variabilidade dos dados.
Antes disso, vamos ver algumas maneiras que temos de representar os dados da Tabela 2.
Já conheces do 3º Ciclo a representação de dados mais simples através de pictogramas, gráficos de barras, etc.
Se quiseres, por exemplo, representar os dados relativos a um inquérito realizado a um grupo de alunos sobre as suas atividades de lazer, podes usar um gráfico de barras, em que a altura de cada barra é proporcional à frequência absoluta da atividade respectiva. Por exemplo, se uma atividade tiver o dobro da frequência absoluta de outra atividade, a barra que representa a primeira atividade deve ter o dobro da altura da barra que representa a segunda atividade.
Para os dados apresentados na tabela 2 tal não se revela prático, visto que mesmo os dados discretos são praticamente todos diferentes.
No nosso caso, o que se deve fazer é agrupar os dados em classes, ou seja, os dados são considerados em pequenos grupos. De um modo geral, as classes são intervalos fechados à esquerda e abertos à direita, todos com a mesma amplitude, mas podem-se fazer adaptações em função de cada situação concreta.
No caso da altura, vamos considerar os seguintes intervalos:
[1,75; 1,80[; [1,80; 1,85[; [1,85; 1,90[; [1,90; 1,95[; [1,95; 2,00[; [2,00; 2,05[; [2,05; 2,10[
Com esta divisão em sete classes, a tabela das frequências absolutas é:
Classe | Frequência absoluta |
[1,70; 1,75[ | 1 |
[1,75; 1,80[ | 3 |
[1,80; 1,85[ | 2 |
[1,85; 1,90[ | 3 |
[1,90; 1,95[ | 7 |
[1,95; 2,00[ | 4 |
[2,00; 2,05[ | 5 |
O respectivo gráfico de barras é:
Observamos que a distribuição das alturas na equipa de basquetebol do SLB é razoavelmente equilibrada.
Na realidade, obtivemos um gráfico de barras especial, em que a área de cada barra é igual à frequência absoluta. Se, além do mais, juntarmos todas as barras, obtemos o que se designa por um histograma, em que a área total da figura obtida é igual ao tamanho da população. Também podemos fazer o mesmo tipo de gráfico com as frequências relativas, obtendo, neste caso, um gráfico em que a área total é igual a 1 (100%), como mostra a figura.
Dada uma amostra, o aspecto do histograma reflete de alguma forma a estrutura da população. Não conhecemos os dados de toda a população, mas podemos ficar a saber algumas das suas características. Por exemplo, se o histograma for simétrico, a distribuição das frequências também será simétrica em relação a uma classe média, tal como mostram as imagens da Figura 5.
Outra situação que podemos observar é a de enviesamento para um dos lados, se as frequências forem muito maiores para um lado do que para o outro, como se observa nas imagens da Figura 6.
Considera os dados contidos na Tabela 2, quanto aos minutos de jogo dos atletas da equipa do SLB. Para estudar essa distribuição de dados, como os valores são quase todos diferentes, convém agrupar os dados em classes. Que classes podem ser consideradas aqui? Tem em conta que um jogo de basquetebol tem normalmente a duração de 40 min. (se não houver prolongamento, pois não pode haver empates) e que o jogo está dividido em 4 períodos de 10 min.
Constrói a tabela de frequências absolutas e o respectivo histograma referente aos minutos de jogo dos atletas da equipa do SLB, de acordo com a divisão em classes feita no exercício anterior.
Em cada uma das seguintes situações existe uma distribuição de dados que convém estudar, dados esses agrupados em classes. Em cada caso foi decidido considerar, para a definição das classes e respectiva amplitude de classe, o indicado. Diz se concordas ou discordas com o critério usado em cada situação.
Tempo de reacção muscular a um impulso medido em milésimas de segundo (classes de amplitude 0,005):
0,206 0,225 0,209 0,219 0,218 0,218 0,226 0,245 0,239 0,220 0,224 0,237 0,207 0,207 0,215 0,245 0,219 0,207 0,222 0,222
Pontuações de um teste de Matemática numa escala de 0 a 100, onde houve classificações entre 24 e 65 (amplitude 3).
Idades dos professores de uma escola portuguesa do 1º Ciclo, com idades compreendidas entre 24 e 65 anos (amplitude 3).
Adaptado de: Brochura de Estatística, 10. o ano, ME
O histograma seguinte mostra a distribuição das notas finais de Matemática de uma determinada turma.
Algum aluno teve nota inferior a 4?
Sabe-se que 10% dos alunos da turma tiveram nota entre 4 e 8. Qual é a percentagem de alunos com nota entre 8 e 12?
Qual é a percentagem de alunos com nota superior a 12?
Adaptado de: Introdução às Probabilidades e à Estatística, Maria Eugénia Graça Martins, DEIO, 2000
Este é um tipo de representação de dados que tem características tanto de tabela como de gráfico, pois inclui tanto os dados reais como uma espécie de representação gráfica com algumas semelhanças com um histograma horizontal. Aplica-se quando temos uma lista de dados numéricos inteiros com 2 ou mais algarismos; escrevemos o dígito (ou dígitos) das dezenas, centenas, etc. do lado esquerdo de uma linha vertical e os restantes dígitos do lado direito da linha.
Vamos colocar os pontos marcados em cada um dos 20 jogos da fase regular da de uma equipa basquetebol feminino, num diagrama de caule-e folhas. Os pontos são:
59, 73, 68, 74, 56, 82, 60, 71, 82, 123, 76, 81, 100, 68, 69, 66, 67, 69, 57, 85
Em função destes dados vamos, considerar linhas desde as 5 dezenas até às 12 dezenas, construindo o caule:
Colocamos o primeiro dado, 59, junto do 5 que define a linha das dezenas e começamos a construir a primeira folha:
Colocamos, em seguida, os restantes dados, completando as folhas:
Por fim, ordenamos os dados em cada folha, para ser mais fácil a leitura:
Esta representação também é útil quando queremos confrontar duas distribuições de dados. Aos dados anteriores vamos agora adicionar os pontos marcados pelas equipas adversárias da equipa considerada acima na mesma fase do Campeonato. Os dados são:
53, 41, 57, 58, 34, 58, 66, 74, 60, 64, 24, 50, 50, 64, 67, 41, 69, 45, 38, 44
Precisamos de aumentar o caule, pois, desta vez, os pontos começam nas 2 dezenas. Colocamos os novos dados em folhas do outro lado do caule e ordenamos logo todos os dados:
Observamos, neste último diagrama, que a equipa considerada como de referência (da direita do caule) marcou muitos mais pontos do que os seu adversários; não admira, por isso, que tivesse vencido 18 dos 20 jogos da fase regular do Campeonato da Liga Feminina e, mais tarde, viesse a sagrar-se campeã (que equipa seria?).
Um professor de Estatística procura o método mais eficaz para ensinar esta disciplina aos seus alunos. Assim, resolveu pôr em prática dois métodos diferentes, um em cada uma das duas turmas que leccionava. Na turma A usava o método expositivo tradicional; na turma B promovia a discussão dos assuntos na aula e a resolução de alguns problemas em grupo. Os resultados foram:
Representa estes dados num diagrama de caule-e-folhas. Em função do diagrama obtido, compara os resultados das duas turmas.
Adaptado de: Brochura de Estatística, 10º ano, ME.
A média amostral, ou simplesmente média, é a medida de localização do centro da amostra e a mais vulgarmente utilizada. Representa-se por
– somam-se todos os elementos da amostra;
– divide-se o resultado da soma pelo número de elementos da amostra.
Consideremos o seguinte conjunto de idades de atletas de patinagem de velocidade:
Vamos aplicar o algoritmo descrito acima para calcular a média das idades:
Em média, cada atleta tem 24 anos e 4 meses (aproximadamente).
Se os dados se encontram agrupados em classes temos de proceder de maneira diferente. Primeiro, temos de encontrar um modo de efectuar cálculos com as classes; sendo intervalos, tal nunca pode ser feito directamente. Para isso, vamos usar representantes das classes, as chamadas marcas das classes: no caso dos intervalos, vamos tomar o ponto médio da classe. Então, para calcular a média multiplicamos cada marca da classe pela sua frequência absoluta e depois dividimos tudo pelo número de dados. Assim, para a média teremos um valor aproximado.
Se usarmos directamente os dados das alturas dos patinadores:
Classe | Frequência Absoluta |
3 | |
[1,70;1,80[ | 2 |
[1,80;1,90[ | 4 |
Obtemos o seguinte:
Obtivemos um valor diferente, porque este é apenas um valor aproximado (mas é mais rápido).
A mediana é uma medida de localização do centro da distribuição dos dados, definida do seguinte modo: ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana.
Para a determinação da mediana, utiliza-se a seguinte regra, depois de ordenada a amostra de
– se
– se
Uma forma simples de aplicar a regra anterior é considerar o quociente
– se este quociente for um número inteiro, considera-se para mediana o elemento nessa posição;
– se este quociente terminar em 0,5, considera-se a sua parte inteira e faz-se a semi-soma do elemento a que corresponde essa ordem, com o elemento seguinte.
Posição | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Idade | 18 | 19 | 23 | 24 | 25 | 25 | 27 | 28 | 30 |
No caso das idades das atletas da tabela acima vamos ordená-las e localizar a idade que fica na posição
A idade mediana é de 25 anos.
Se os dados se encontram agrupados em classes, precisamos primeiro de determinar a classe mediana. Esta é a classe onde se encontra a frequência relativa acumulada de 50% dos dados. Para depois obtermos um valor aproximado para a mediana partimos do princípio que a frequência correspondente à classe mediana se distribui uniformemente (se não tivermos acesso aos dados originais é a única hipótese simples que podemos fazer) e dividimos a classe mediana proporcionalmente ao que falta antes e depois, para perfazer 50% dos dados.
Retomemos o exemplo das alturas dos patinadores:
Classe | Frequência Relativa | Frequência relativa acumulada |
0,33 | 0,33 | |
0,22 | 0.56 | |
0,44 | 1 |
A classe mediana é a classe [1,70 ; 1,80[. Então, usando a proporcionalidade, a amplitude da classe que é 0,1 está para 0,22 (que é a frequência relativa que corresponde a essa classe), assim como o valor pretendido
Por que razão usamos as médias e as medianas (e outras medidas que mais adiante aparecerão) e não apenas uma delas?
Porque nenhuma delas traduz por si só tudo o que se passa com os dados. Por exemplo, se o maior valor for alterado a média já será diferente (e pode mudar muito se o aumento for grande), mas a mediana não muda (porquê?). Os dois exercícios seguintes fornecem bons exemplos da diferença entre a média e a mediana.
(i) Explica porque é que a média e a mediana de uma distribuição de dados simétrica coincidem.
(ii) Este exercício mostra algumas diferenças entre a média e a mediana. Considera os seguintes dados que representam o número de mortes em consequência de erupções vulcânicas ocorridas.
a. Calcula a média e a mediana do número de mortes. O que podes concluir quanto à simetria da distribuição dos dados?
b. Supõe que, ao digitar na calculadora ou no computador os valores anteriores, te enganas e colocas o valor 335 000 respeitante à erupção vulcânica de 1883, em vez dos 35 000. Calcula novamente a média e a mediana.
c. Admite agora que o engano se deu ao digitar o 60, que apareceu substituído por 600. Calcula novamente a média e a mediana.
d. Depois de copiares a seguinte tabela para o teu caderno, completa-a com os valores obtidos nas alíneas anteriores e comenta-os:
e. Supõe que um professor pediu aos seus alunos que calculassem a mediana dos dados respeitantes ao número de mortes, e que alguns apresentaram o valor 18 000. O que é que poderá ter acontecido?
Adaptado de: Introdução às Probabilidades e à Estatística, Maria Eugénia Graça Martins, DEIO, 2000
(iii) Este exercício irá provar que a média não é suficiente para caracterizar corretamente um conjunto de dados. Suponhamos que um professor dá o mesmo teste a duas turmas, tendo seleccionado aleatoriamente 29 e 23 alunos, respetivamente, da turma 1 e da turma 2. Os resultados obtidos são apresentados na tabela seguinte.
a. Calcula valores aproximados (com uma casa decimal) para a média das duas turmas e verifica que os valores obtidos são iguais.
b. Os resultados obtidos na alínea anterior permitem-te afirmar que as duas turmas tiveram um comportamento semelhante no teste? Explica porquê.
Adaptado de: Introdução às Probabilidades e à Estatística, Maria Eugénia Graça Martins, DEIO, 2000
Os quartis são duas medidas de localização da amostra que, juntamente com a mediana e os extremos, nos vão possibilitar construir um diagrama que rapidamente nos permitirá ter uma ideia sobre como se distribuem os dados numa amostra.
Assim, o quartil de ordem 1 ou 1º quartil, Q1 , será o valor tal que 25% dos elementos da amostra são menores ou iguais a ele e os restantes são maiores ou iguais; o quartil de ordem 3 ou 3º quartil, Q3 , será o valor tal que 75% dos elementos da amostra são menores ou iguais a ele e os restantes são maiores ou iguais.
Os quartis calculam-se tal como se calcula a mediana, mas desta vez para o cálculo do 1º quartil a mediana é considerada o máximo (e o mínimo é o mesmo) e para o cálculo do 3º quartil a mediana é considerada o mínimo (e o máximo é o mesmo).
Resumindo, pode dizer-se que o 1º quartil é a mediana da 1ª metade dos dados, enquanto o 3º quartil é a mediana da 2ª metade dos dados.
Voltando à idade dos patinadores temos:
Da análise da tabela concluímos que o 1º quartil é 21, enquanto o 3º quartil é 26,5. Considerando, para além da mediana e dos quartis, o valor mínimo e o valor máximo da amostra podemos construir o chamado diagrama de extremos e quartis, onde visualizamos todas as medidas ao mesmo tempo. Veremos que neste tipo de representação gráfica se realçam algumas características importantes da amostra.
O conjunto dos valores da amostra compreendidos entre o 1º e o 3º quartis é representado por um rectângulo (caixa) com a mediana indicada por uma barra vertical (a altura do rectângulo não tem significado). Traçam-se seguidamente duas linhas que unem os meios dos lados do rectângulo aos extremos da amostra.
Para se poder traçar este diagrama são necessárias informações relativamente a cinco elementos da amostra: os dois extremos (mínimo e máximo), a mediana e o 1º e o 3º quartis. Depois traça-se um diagrama do tipo:
O diagrama de extremos e quartis coloca em evidência muita informação importante sobre os dados, nomeadamente sobre o centro da amostra (mediana), a variabilidade dos dados, o seu possível enviesamento e a respectiva simetria.
Observe-se que, se olharmos para um diagrama construído, imediatamente se extrai muita informação sobre a distribuição dos dados, nomeadamente a que está registada no seguinte esquema:
Existem fundamentalmente três características da representação dos dados num diagrama de extremos e quartis que nos dão ideia da simetria ou enviesamento dos dados e da sua maior ou menor concentração:
– distância entre a linha indicadora da mediana e os lados do rectângulo;
– comprimento da caixa;
– comprimento das linhas que saem dos lados do rectângulo.
Eis três exemplos de possíveis diagramas de extremos e quartis que evidenciam diferentes tipos de distribuição de dados.
O enviesamento para a direita significa que os dados estão mais dispersos, ou seja, menos concentrados, na parte direita do que na parte esquerda. Esta é claramente uma informação importante sobre a distribuição dos dados.
No que concerne ao exemplo que temos vindo a utilizar da equipa de patinagem de velocidade, e utilizando a calculadora gráfica, se analisarmos a idade dos atletas obtemos o seguinte diagrama de extremos e quartis.
Com a calculadora podemos, com o cursor, percorrer facilmente o diagrama e observar qual é o valor de cada uma das medidas de localização usadas na construção deste diagrama.
Esta é uma distribuição de dados quase simétrica com um ligeiro enviesamento para a esquerda, ou seja, há uma ligeira concentração de patinadores com maior idade.
(i) Constrói um diagrama de extremos e quartis da distribuição de idades dos patinadores da seleção italiana:
28, 30, 22, 28, 25, 27, 24, 26, 30, 26
Compara o diagrama obtido com o da equipa do S.L.Benfica.
(ii) A equipa do Olivais F. C. de Coimbra jogou em, 2008-2009, um total de oito jogos nas competições europeias contra um total de quatro equipas estrangeiras (Espanha, França, Itália e Israel). Ganhou três jogos e perdeu cinco, tendo sido eliminada nos dezasseis avos de final. Foi a primeira vez que uma equipa portuguesa chegou tão longe numa competição europeia, que existe desde 2003. Em 2008-2009 a competição foi ganha pela equipa turca do Galatasaray. Nos oito jogos da competição europeia de 2008-2009, as jogadoras da equipa do Olivais obtiveram a seguinte a média de pontos:
22; 16,3; 9; 6,9; 6,1; 6,1; 3; 1; 0; 0
Elabora um diagrama de extremos e quartis para esta distribuição de dados.
(iii) Algumas pessoas preocupam-se com a quantidade de calorias que consomem. A revista americana Consumer Reports, num estudo sobre cachorros quentes, mediu as calorias em 20 tipos de salsichas de carne de vaca, 17 tipos de salsicha de carne de porco e 17 tipos de salsichas de carne de aves. Apresentam-se os resultados dos cálculos das estatísticas correspondentes a cada uma das variedades estudadas:
Constrói diagramas de extremos e quartis para cada uma das situações estudadas e faz uma comparação quanto às calorias dos três tipos de cachorros analisados pela revista.
Adaptado de: Brochura de Estatística, 10º ano, ME
Para um determinado conjunto de dados, define-se moda como sendo o valor que surge com mais frequência.
Se os dados estão agrupados em classes define-se classe modal como sendo o intervalo da classe com maior frequência. No caso da equipa de patinagem, a moda das idades é de 25 anos (que, por acaso, coincide com a mediana). No caso das classes de alturas, a classe modal é o intervalo [1,80; 1,90[ por ser o intervalo com maior frequência absoluta; esta classe modal dá-nos uma informação interessante: a de o intervalo com mais frequência ser aquele que tem patinadores mais altos.
O trabalho de organização dos dados que temos vindo a fazer consiste essencialmente em resumir a informação contida nos dados através de tabelas, gráficos e algumas medidas, a que damos o nome de “estatísticas”. Mas este resumo deixa sempre alguma coisa para trás. Cada tipo de tabelas, ou gráficos, ou estatísticas realça apenas determinado aspecto, que será certamente útil, mas não nos pode deixar “parados”, pois devemos ir procurar outros aspectos eventualmente relevantes. Um desses aspectos é o da determinação da variabilidade ou dispersão dos dados relativamente à medida de localização do centro da amostra, uma vez que as medidas de localização que estudamos não são suficientes para caracterizar completamente um conjunto de dados.
A medida mais simples para medir a variabilidade dos dados é a amplitude, que se define como sendo a diferença entre o menor e o maior valor observados. No caso das idades dos patinadores, a amplitude é de 12 anos (= 30 – 18). Isto nada nos diz sobre o que se passa no intervalo entre os extremos (por exemplo, se há muitos ou poucos patinadores com 21 anos, ou se há mais com menos de 21 ou mais de 21 anos). Em muitas distribuições de dados, os valores extremos correspondem a casos excepcionais e, por isso, podem ser uma fraca medida de dispersão. Assim, define-se uma outra medida – a amplitude interquartil – que já não é afectada pelos valores extremos. Esta medida define-se como sendo a diferença entre o 3º e o 1º quartis. No caso em estudo das alturas dos patinadores é de 5,5 (= 26,5 – 21) e, assim, já sabemos que 50% dos patinadores têm idade contida num intervalo com amplitude 5,5.
Comecemos por ver o significado das palavras desvio e padrão!
O desvio significa afastamento, e padrão está de certa forma relacionado com média. Então, somos levados a pensar que queremos que o desvio-padrão meça o afastamento médio de cada valor da variável estatística em estudo em relação à média.
Consideremos a lista das idades e vamos construir a lista das diferenças entre cada valor da lista das idades e a média das idades, previamente calculada e guardada automaticamente na variável
De seguida, vamos calcular, usando a calculadora, a média desta nova lista, para obter o que poderá ser o “desvio-padrão”.
Mas, aparentemente, surgiu um problema. Parece que obtivemos uma soma igual a zero (pois 3 × 10–12 , neste estudo, pode ser considerado como zero, visto ser um valor muito pequeno relativamente aos outros dados).
Como é que podemos calcular a média desta lista?! Será zero?!
Pensando bem, se uns valores estão aquém da média outros vão estar além, e, então, a soma dos desvios vai ser sempre zero e não faz sentido calcular a média dos desvios, pelo menos desta maneira!
Vamos olhar para a lista das diferenças e pensar no nosso objectivo: calcular uma “média” desta lista. Se arranjarmos um processo de fazer desaparecer os valores negativos, teremos parte do nosso problema resolvido.
Isto pode ser feito, por exemplo, elevando todos os valores da lista ao quadrado e depois fazendo novamente todo o processo “manual” para calcular a média desta nova lista.
Obtivemos 13,77, que é um valor que se afasta muito do desvio-padrão que a máquina já tinha calculado, e que é 3,7118! Mas não nos podemos esquecer que elevámos os valores da lista das diferenças ao quadrado e, para obter o que pretendemos, temos que aplicar a operação inversa de elevar ao quadrado, que é calcular a raiz quadrada de 13,77 e, assim, obtermos o valor pretendido, tal como pode ser observado na figura acima.
Em conclusão: ficámos a saber que, em média, cada atleta apresenta uma idade que se afasta da média 3,7 anos e porque o seu cálculo envolve necessariamente alguma complexidade.
O valor obtido antes de extrairmos a raiz quadrada também é uma medida de dispersão designada por variância, a qual não é mais do que o quadrado do desvio-padrão.
(i) Calcula a média e o desvio-padrão das seguintes distribuições de dados.
(ii) Calcula a média e o desvio-padrão das seguintes distribuições de dados agrupados em classes.
Noções de Estatística, II. Introdução à Estatística. ALEA – Ação Local Estatística Aplicada, Instituto Nacional de Estatística.
Disponível em linha (acedido em: 11 de novembro de 2024).
Noções de Estatística, III. Dados, tabelas e gráficos. ALEA – Ação Local Estatística Aplicada, Instituto Nacional de Estatística.
Disponível em linha (acedido em: 11 de novembro de 2024).
Introdução ao Estudo da Estatística, Matemática Aplicada às Ciências Sociais / Matemática - 10.º Ano, Estudo em CASA, 2020. Disponível em (acedido em: 11 de novembro de 2024):
https://www.rtp.pt/play/estudoemcasa/p7883/e503925/matematica-aplicada-as-ciencias-sociais-matematica-10-ano
Tabelas e Gráficos, Matemática Aplicada às Ciências Sociais / Matemática - 10.º Ano, Estudo em CASA, 2020. Disponível em (acedido em: 11 de novembro de 2024):
https://www.rtp.pt/play/estudoemcasa/p7883/e504842/matematica-aplicada-as-ciencias-sociais-matematica-10-ano
Graça Martins, M.E., Monteiro, C., Viana, J. P., Amaral Turkman, M.A. (1997). Estatística: 10º ano de escolaridade, Ministério da Educação: Departamento do Ensino Secundário. Disponível em (acedido em: 11 de novembro de 2024):
https://www.dge.mec.pt/sites/default/files/Secundario/Documentos/Programas/Historico/estatistica_10.pdf