Distribuições bidimensionais
Comecemos por ver uma tabela com dados referentes a uma equipa feminina de Basquetebol:
Será que existe alguma relação entre a altura de uma jogadora e os minutos que está em campo? Dito de outra forma, será que as jogadoras mais altas são solicitadas mais vezes a jogar?
Existe alguma relação entre a idade da jogadora e os pontos que marca? Será que as jogadoras mais novas marcam mais pontos?
Quanto à “eficácia” do jogo, será que existe alguma relação entre os minutos de jogo e os pontos obtidos?
Uma boa maneira de ter uma ideia deste tipo de situação e tentar chegar a uma conclusão é representar cada par de variáveis no mesmo gráfico.
Comecemos pela eficácia do jogo.
Cada elemento da população (atletas da equipa de Basquetebol) ficará representado por um ponto, cujas coordenadas são os minutos de jogo e os pontos obtidos. Este gráfico designa-se por diagrama de dispersão da distribuição bidimensional.
Com a ajuda de uma calculadora gráfica ou de um computador, vamos representar os diagramas de dispersão e tentar dar resposta às questões anteriores.
Analisemos, por agora, o caso da eficácia do jogo:
Pela análise do gráfico somos tentados a dizer que existe uma forte relação entre o tempo que cada jogadora permanece em campo e o número de pontos que marca, pois, se repararmos, à medida que o tempo de jogo aumenta, também o número de pontos marcados aumenta.
Vejamos o que se passa quando relacionamos as variáveis altura da jogadora e os pontos que marca.
Analisando o gráfico, somos tentados a dizer que parece haver uma relação entre as duas variáveis, embora não tão acentuada como na primeira situação estudada.
O que se passará quando relacionamos a idade das jogadoras com os pontos marcados?
Vemos que, neste caso, as duas variáveis não parecem estar muito relacionadas, pois, à medida que aumenta a idade da jogadora, não significa que aumente o número de pontos marcados.
Em pormenor, estudemos o que se passa entre o tempo jogado por cada atleta e os pontos marcados. Vimos atrás que existia uma forte relação entre essas duas variáveis. Dizemos, então, que existe uma correlação entre as variáveis minutos de jogo e número de pontos obtidos.
Quando o número de minutos em campo aumenta, o número de pontos obtidos também tem tendência para aumentar; diz-se que se trata de uma correlação positiva. Se, quando o número de minutos em campo aumentasse, o número de pontos obtido diminuísse, diríamos que se tratava de uma correlação negativa.
Repara que os pontos do gráfico abaixo se dispõem de uma forma alongada, próxima de uma linha reta, que se chama reta de regressão.
Determinemos, com a calculadora, a equação da reta de regressão que melhor se ajusta a esta nuvem de pontos e veremos até que ponto estamos, ou não, longe do objectivo a que nos propusemos.
Repara que há casos em que o número de minutos de jogo aumenta e a pontuação diminui. Isto tem uma explicação simples. Há jogadoras que estão muitos minutos em campo, mas que marcam poucos pontos, devido à sua função dentro da equipa. Há um outro número mais adequado para medir o desempenho deste tipo de jogadoras, que é o das “assistências” (ou seja, as bolas passadas a uma jogadora que marcou imediatamente pontos).
A reta de regressão é a reta que melhor se ajusta aos pontos do diagrama de dispersão.
É esta reta que nos permite responder à questão seguinte, tendo em conta que só podemos estimar com segurança valores dentro do intervalo em estudo.
Quantos pontos obteria uma jogadora que tivesse jogado 30 minutos (se admitirmos como válida a lei definida pela recta de regressão)?
A resposta é dada calculando a imagem de 30 pela função que define a recta de regressão. Assim,
Daqui resulta que uma atleta que tivesse jogado 30 minutos teria marcado cerca de 11 pontos (este é, obviamente, um valor aproximado).
Neste momento, estamos interessados em calcular a média das variáveis: minutos de jogo (
Averiguemos qual é a posição relativa do ponto
Na imagem da calculadora (em cima) podemos ver o ponto
O ponto
Este centro de gravidade é o mesmo que aparece na Física.
Com efeito, se considerarmos que os pontos são berlindes ou cubos todos iguais numa tábua e se queremos equilibrá-la com um só dedo, o centro de gravidade é exactamente o ponto onde devemos colocar o dedo para equilibrar a tábua.
O coeficiente de correlação é um número que mede a correlação entre duas variáveis. Representa-se por r e varia entre –1 e 1.
Não iremos aqui deduzir a sua fórmula, vamos apenas usar o valor fornecido por uma calculadora ou um computador e interpretá-lo.
Se a correlação é positiva, então
Quanto maior for o valor absoluto de r, maior é a correlação.
Quando
No que diz respeito às variáveis tempo de jogo e pontos marcados, podemos afirmar que o coeficiente de correlação é 0,862, o que mostra que as variáveis estão fortemente correlacionadas. O coeficiente de correlação pode ser obtido numa calculadora aquando da determinação da recta de regressão, desde que, previamente, se tenha escolhido essa opção na calculadora. Então, aparecerá um ecrã como o apresentado abaixo, onde podemos ver que o coeficiente de correlação, r, é 0,862.
Conforme imagem abaixo!
(i) Um grupo de investigadores está interessado em saber se nas futuras mães o nível de uma proteína se altera (e, em caso afirmativo, de que maneira) ao longo da gravidez. Seleccionaram-se para o estudo 19 mulheres saudáveis, todas com um tempo de gestação diferente, e mediu-se o nível de proteína em cada uma delas, tendo-se obtido os seguintes resultados.
O objectivo desta experiência é averiguar como é que uma variável (nível de proteína) é afectada por uma outra variável (tempo de gestação). Desenha o diagrama de dispersão para te ajudar a tirar uma conclusão.
Adaptado de: Brochura de Estatística, 10º ano, ME
(ii) Banco Alimentar Contra a Fome
Sabes o que é o Banco Alimentar Contra a Fome? Se não souberes, procura informar-te.
Na tua região existe algum Banco Alimentar contra a Fome?
A partir dos dados da tabela seguinte, responde às questões apresentadas:
a) De 1992 a 2007, o número de pessoas apoiadas pelo Banco Alimentar Contra a Fome aumentou significativamente. Nesses 16 anos, qual foi a percentagem de aumento?
b) Qual foi a percentagem de aumento de toneladas de produtos alimentares que entraram?
c) Tendo em conta as respostas dadas às duas alíneas anteriores, pensas que em 2007 foi distribuída, em média, maior quantidade de produtos alimentares por pessoa do que em 1992? Justifica a tua resposta.
d) Calcula a quantidade média de alimentos distribuída por pessoa apoiada em 1992 e em 2007 e confirma se a resposta que deste na alínea anterior está correcta.
e) Constrói um diagrama de dispersão para o par de dados (Nº. de instituições o apoiadas, Nº. de pessoas apoiadas) e interpreta a representação obtida.
f) Constrói um gráfico de linhas que mostre a evolução da entrada de produtos alimentares, em toneladas, desde 1992.
A tendência dessa evolução é crescente ou decrescente?
Em função da resposta que deste, houve alguns anos que contrariaram essa evolução?
Nota: Um gráfico de linhas é um diagrama de dispersão especial, em que uma das variáveis (a variável que se coloca no eixo dos xx) é o tempo. Uma vez representados os pontos, estes são unidos por linhas, dando origem ao referido gráfico.
Adaptado de: ActivAlea nº 12, Maria Eugénia Graça Martins
Explorador e antropólogo, Francis Galton é conhecido pelos seus estudos pioneiros sobre a inteligência humana. Estudou medicina em Londres no King's College durante um ano. Depois, em 1840, fez uma rápida viagem pelo continente visitando Giessen, Viena, Constanza, Constantinopla, Esmirna e Atenas. Foi nesta fase que, nas suas próprias palavras:
“... a paixão pelas viagens tomou conta de mim como se fosse uma ave migratória.”
Quando regressou a Inglaterra, Galton ingressou no Trinity College, em Cambridge, para estudar medicina no Outono de 1840. Rapidamente mudou os seus estudos para matemática, estudando com o melhor tutor de matemática de Cambridge, mas adoeceu durante o terceiro ano e não conseguiu completar o curso, também por o seu pai ter adoecido gravemente.
Tendo herdado o suficiente de seu pai para não ter de trabalhar, resolveu fazer expedições ao rio Nilo e ao deserto do Kalahari a partir da Namíbia. Em 1853 publicou um livro com as suas explorações “África do Sul Tropical” e foi escolhido para a “Royal Geographical Society“.
Quando Charles Darwin publicou o seu famoso livro “A Origem das Espécies” Galton (que era primo de Darwin) interessou-se pela hereditariedade e foi um dos primeiros a empregar métodos de questionário e de inquérito, que utilizou para investigar imagens mentais em diferentes grupos de pessoas.
Por volta de 1875, estava a fazer experiências com sementes de ervilha-de-cheiro. Utilizou 100 sementes de cada um dos sete diâmetros diferentes e construiu um gráfico bidimensional dos diâmetros das sementes originais em relação aos diâmetros das sementes da geração seguinte. Notou que o diâmetro médio dos descendentes das sementes grandes era menor do que o dos progenitores, enquanto o diâmetro médio dos descendentes das sementes pequenas era maior do que o dos progenitores. Galton percebeu que a descendência tendia a voltar ao tamanho médio. A princípio chamou ao fenómeno “reversão”, mas depois mudou o nome para “regressão”.
É citado como tendo dito: “Sempre que puderes, conta.”
Em 1884-85 foi realizada a Exposição Internacional de Saúde e, a propósito desta, Galton criou um laboratório para medir a estatística humana. Recolheu dados como a altura, o peso e a força de um grande número de pessoas elaborando ele próprio o aparelho utilizado para fazer as medições. Este laboratório continuou a existir após o encerramento da Exposição Internacional de Saúde e foi o precursor do Laboratório Biométrico dirigido por Karl Pearson na University College de Londres.
Em 1889, Galton publicou Natural inheritance, no qual apresentava um resumo do trabalho que tinha realizado sobre correlação e regressão. Fez um bom relato dos conceitos que introduziu, bem como das técnicas que descobriu.
Adaptado de: MacTutor, University of St Andrews, Scotland.
Noções de Estatística, VI. Distribuições bidimensionais. ALEA – Ação Local Estatística Aplicada, Instituto Nacional de Estatística.
Disponível em linha (acedido em: 30 de novembro de 2024).
Diagrama de Dispersão - Gráfico de Linhas, ActivAlea's. ALEA – Ação Local Estatística Aplicada, Instituto Nacional de Estatística.
Disponível em linha (acedido em: 30 de novembro de 2024).
Reta de regressão, Matemática Aplicada às Ciências Sociais / Matemática - 10.º Ano, Estudo em CASA, 2020. Disponível em (acedido em: 30 de novembro de 2024):
https://www.rtp.pt/play/estudoemcasa/p7883/e516825/matematica-aplicada-as-ciencias-sociais-matematica-10-ano
Graça Martins, M.E., Monteiro, C., Viana, J. P., Amaral Turkman, M.A. (1997). Estatística: 10º ano de escolaridade, Ministério da Educação: Departamento do Ensino Secundário. Disponível em (acedido em: 11 de novembro de 2024):
https://www.dge.mec.pt/sites/default/files/Secundario/Documentos/Programas/Historico/estatistica_10.pdf
Sir Francis Galton, Antropólogo, Meteorologista, Matemático e Estatístico, é considerado o pai da ideia da correlação linear, sendo um dos pioneiros do uso da Estatística. Biografias. ALEA – Ação Local Estatística Aplicada, Instituto Nacional de Estatística.
Disponível em linha (acedido em: 30 de novembro de 2024).