Medidas de Posição
Letícia Oliveira
Posted on July 24, 2024
Medidas de posição são conceitos utilizados na estatística descritiva para entender um conjunto de dados sob diferentes aspectos e são amplamente aplicadas na análise de dados.
Para facilitar o entendimento e proporcionar uma visualização do que será explicado, usarei como exemplo um conjunto de dados de uma turma fictícia com 20 alunos.
import pandas as pd
turma = {
'idade': [12, 7, 7, 9, 7, 7, 11, 9, 11, 12, 12, 11, 12, 9, 6, 11, 10, 10, 7, 12],
'instrumento': ['Violão', 'Piano', 'Flauta', 'Bateria', 'Violino', 'Bateria', 'Bateria', 'Piano', 'Bateria', 'Flauta', 'Bateria', 'Piano', 'Flauta', 'Violão', 'Bateria', 'Piano', 'Violão', 'Violão', 'Violino', 'Flauta'],
'nota': [8, 9, 8, 6, 8, 10, 10, 7, 8, 10, 9, 7, 9, 5, 8, 10, 8, 6, 8, 6]
}
df = pd.DataFrame(turma)
Fazendo uma análise introdutória, observamos que o aluno mais novo da turma tem 6 anos, enquanto o mais velho tem 12. No entanto, isso não nos dá uma visão completa sobre a turma como um todo. Vamos realizar algumas análises utilizando medidas de posição para entender melhor esse conceito.
print(df['idade'].min())
print(df['idade'].max())
# Output: 6, 12
Média
Tenho certeza que você já precisou calcular a sua média de notas na escola ou na faculdade. É exatamente assim que iremos utilizar a média no nosso conjunto de dados.
A escola de música deseja premiar a turma que obteve uma média de 8 no teste de leitura e escrita de partituras. Para descobrir se a turma analisada consegue o prêmio, precisamos somar todas as notas e dividir pelo número de alunos.
media = df['nota'].mean()
print(media)
# Output: 8.0
A média da turma é 8, então os alunos conseguem o prêmio da escola.
Vale destacar que o cálculo da média pode ser muito influenciado por valores extremos, o que pode distorcer a interpretação dos dados, dependendo do conjunto.
Mediana
A mediana é o valor central quando os dados estão ordenados. Se tivermos um número ímpar de dados, a mediana é o valor central. No entanto, como temos um número par de dados, a mediana é a média dos dois valores centrais (10º e 11º).
A mediana é útil para entender a tendência central de um conjunto de dados sem ser influenciada por valores extremos. Suponha que, dentre os alunos da turma, os dados das notas fossem:
'nota': [0, 9, 8, 6, 8, 10, 10, 7, 8, 10, 9, 7, 9, 5, 8, 10, 8, 6, 8, 6]
Um aluno faltou à prova e não conseguiu repor a nota, ficando com 0 na avaliação final. Assim, a média da turma cai de 8 para 7,6. Esse valor atípico é chamado de outlier, que ocorre quando um valor se desvia muito da série.
Embora a diferença possa parecer pequena, isso poderia afetar uma análise de desempenho acadêmico de toda a turma. Para obter uma visão mais realista do desempenho central dos alunos, calculamos a mediana.
mediana = df['nota'].median()
print(mediana)
# Output: 8.0
Concluímos que, mesmo com a nota zero de um único aluno, isso não reflete o desempenho geral da turma, que obteve 8 como resultado da mediana.
Moda
A moda é o valor que aparece com maior frequência em um conjunto de dados. É especialmente útil para analisar dados categóricos, onde a média e a mediana não são aplicáveis.
Por exemplo, baseado no nosso conjunto de dados, a escola deseja descobrir qual é o instrumento favorito dos alunos para decidir em quais aulas investir no próximo ano.
# utilizando o método 'mode'
moda = df['instrumento'].mode()
print(moda)
# contando a frequência de cada instrumento e verificando o que mais aparece:
frequencia_instrumentos = df['instrumento'].value_counts()
max_instrumentos = frequencia_instrumentos.max()
print(frequencia_instrumentos)
print(max_instrumentos)
# Output:
0 Bateria
Name: instrumento, dtype: object
instrumento
Bateria 6
Violão 4
Piano 4
Flauta 4
Violino 2
Name: count, dtype: int64
6
Agora, a escola sabe que deve investir mais em aulas de percussão, já que a bateria é o instrumento mais popular entre os alunos da turma.
A moda também pode ter mais de um valor. Se os alunos empatarem entre violão e bateria, por exemplo, a moda poderia ser ambos os instrumentos.
Em resumo:
- Média: Oferece uma visão geral do desempenho médio, mas pode ser distorcida por valores extremos.
- Mediana: Reflete o valor central dos dados, fornecendo uma visão mais robusta quando há outliers presentes.
- Moda: Identifica o valor mais frequente, sendo útil para dados categóricos e para entender preferências ou padrões dominantes.
Compreender essas medidas ajuda a construir uma base sólida para a análise de dados e a tomar decisões informadas com base em nosso conjunto de dados.
Posted on July 24, 2024
Join Our Newsletter. No Spam, Only the good stuff.
Sign up to receive the latest update from our blog.