Calcule de uma vez todas as estatísticas descritivas padrão do seu conjunto de dados — tendência central (média, mediana, moda), dispersão (variância, desvio padrão, IQR), limites de quartis e z-scores — sem sair da página. Cole números separados por vírgula, espaço, tabulação ou quebra de linha; a calculadora ordena os dados, aplica as fórmulas e mostra os passos intermediários para você conferir cada número.
O que é Estatística?
Estatística é a ciência matemática de coletar, organizar, resumir, analisar e interpretar dados. Ela existe porque números brutos — digamos, uma lista de 200 notas de prova — são ruidosos demais para captar de uma olhada. Estatísticas resumidoras destilam esse ruído em um punhado de números que descrevem onde os dados estão centrados, quanto se espalham e como cada valor se compara aos demais.
Medidas de tendência central
Respondem à pergunta "qual é um valor típico?". Cada uma capta um sentido diferente de "centro":
- Média (aritmética): soma de todos os valores dividida pela quantidade. Sensível a outliers — um único valor muito grande pode arrastá-la para longe do restante.
- Mediana: o valor central quando os dados estão ordenados. Metade do conjunto fica abaixo, metade acima. Robusta a outliers; por isso relatórios de preço de imóveis sempre citam a mediana, não a média.
- Moda: o valor mais frequente. Útil para dados categóricos ("cor mais comum"), mas pode ser indefinida ou não-única em dados contínuos.
Medidas de dispersão
A dispersão diz quanto os dados variam. Uma turma onde todos tiraram 70 tem a mesma média que uma com notas de 30 a 100, mas a segunda tem dispersão enorme.
- Amplitude: máximo menos mínimo. Rápida de calcular, mas ignora tudo entre os extremos.
- Variância: média dos quadrados das diferenças em relação à média. Elevar ao quadrado faz desvios positivos e negativos contarem e enfatiza lacunas grandes.
- Desvio padrão: raiz quadrada da variância, nas mesmas unidades dos dados originais. Aproximadamente a "distância típica até a média".
- Amplitude interquartil (IQR): Q3 − Q1, a faixa dos 50% centrais dos dados. Robusta a outliers, é a base dos box plots e da regra padrão de detecção de outliers.
Escore Z
O escore z expressa qualquer ponto de dado em unidades de desvio padrão em relação à média. A fórmula é:
z = (x - μ) / σ
Escore z = 0 significa que o valor está exatamente na média; +2 significa dois desvios padrão acima, −1,5 significa um e meio abaixo. Para dados aproximadamente normais, a regra 68-95-99,7 diz que ~68% dos valores estão em z ∈ [−1, +1], ~95% em [−2, +2] e ~99,7% em [−3, +3] — então um z acima de 3 ou abaixo de −3 é incomum o suficiente para investigar.
Aplicações da estatística
A estatística sustenta quase toda disciplina quantitativa:
- Ciência: análise experimental, testes de hipótese, intervalos de confiança, valores p
- Negócios: pesquisa de mercado, controle de qualidade (Six Sigma vem de um limite de desvio padrão), testes A/B
- Medicina: ensaios clínicos, epidemiologia, curvas dose-resposta, sensibilidade e especificidade de testes
- Ciências sociais: análise de pesquisas, margem de erro em sondagens, estudos demográficos
- Finanças: variância de portfólio, índice de Sharpe, Value at Risk, todo o trading quantitativo
Perguntas Frequentes
Use a média quando os dados são aproximadamente simétricos e sem outliers extremos — notas de uma prova típica, alturas de adultos em um país, temperaturas diárias durante um mês. A média usa todos os valores, então capta toda a informação do conjunto. Use a mediana quando os dados são assimétricos ou contêm outliers. Renda é o exemplo clássico: um único bilionário em uma amostra de 100 pessoas joga a média muito acima da renda típica, mas mal move a mediana. Preços de imóveis, tempos de resposta em servidores web e tempos de espera em hospitais são reportados como medianas pelo mesmo motivo. Razão matemática: a média minimiza a soma de erros quadráticos, a mediana minimiza a soma de erros absolutos. Erros quadráticos punem duramente um único deslize grande, por isso a média persegue o outlier. Teste prático: se média e mediana diferem mais de ~10% do desvio padrão, seus dados provavelmente são assimétricos e a mediana é o resumo mais seguro.
O desvio padrão populacional divide por N (a quantidade); o amostral divide por N−1. Esse N−1 é a correção de Bessel. Por que subtrair um? Quando você calcula a média amostral e depois mede os desvios em relação a ela, os dados estão mais próximos da média amostral do que da verdadeira média populacional — por construção. Se dividir por N, subestima sistematicamente a variância populacional. Dividir por N−1 corrige esse viés em média, dando um estimador não-viesado da variância populacional. Regra prática: se você tem toda a população (cada funcionário de uma empresa pequena, cada nota de uma turma que você lecionou), use N. Se tem uma amostra retirada de uma população maior (1.000 eleitores entre 30 milhões, 50 lâmpadas da produção diária de uma fábrica) e quer inferir algo sobre o todo, use N−1. A maioria dos softwares usa N−1 por padrão: STDEV.S do Excel, std do NumPy com ddof=1, STDEV do Google Sheets. A diferença importa mais em amostras pequenas — com N=1.000 é praticamente nada, com N=4 é enorme.
Três razões. Primeira, elevar ao quadrado faz desvios positivos e negativos contarem como "distância da média" — sem o quadrado (ou módulo), os desvios somam zero por construção, o que é inútil. Segunda, o quadrado pune mais desvios grandes que pequenos. Dois valores a 10 unidades da média pesam tanto quanto 50 valores a 2 unidades (10² = 100 contra 50 × 2² = 200), então a variância é sensível a deslizes grandes ocasionais, que geralmente importam mais em risco e controle de qualidade. Terceira, desvios quadráticos são matematicamente convenientes: são diferenciáveis em todo lugar (o módulo não é em zero), conectam-se de forma limpa à distribuição normal e fazem a variância de uma soma igualar a soma das variâncias para variáveis independentes. A desvantagem é que a variância tem unidades erradas — dólares ao quadrado, quilogramas ao quadrado — por isso costumamos citar o desvio padrão, sua raiz quadrada, que volta às unidades originais. O desvio absoluto médio (MAD) existe e é robusto, mas carece das propriedades algébricas limpas que fazem a variância ser padrão na estatística clássica.
Um escore z diz o quão incomum um valor é, em unidades de desvio padrão. z = (x − μ) / σ, onde x é seu valor, μ a média do conjunto e σ o desvio padrão. z positivo = acima da média, z negativo = abaixo, |z| = a quantos desvios padrão de distância. Para dados aproximadamente normais, a regra empírica (68-95-99,7) diz que cerca de 68% dos valores caem em z ∈ [−1, +1], 95% em [−2, +2] e 99,7% em [−3, +3]. Então z = 1,5 está moderadamente acima da média (melhor que ~93% dos valores), z = 2,5 marcadamente acima (top ~0,6%), z = −3 é raro o suficiente para suspeitar de erro ou caso especial. Z-scores são como SAT/QI se calibram (média 100, DP 15 implica QI 130 com z = +2, top 2,3%), como médicos sinalizam exames fora de faixas de referência e como praticantes de machine learning detectam outliers antes do treinamento. Atenção: a regra empírica só funciona para distribuições aproximadamente normais. Para dados assimétricos ou de caudas pesadas, um z de 3 pode não ser incomum — retornos diários do bitcoin notoriamente quebram essa regra.
A amplitude interquartil (IQR) é Q3 menos Q1 — a faixa dos 50% centrais dos seus dados. Q1 é o percentil 25 (um quarto dos valores está abaixo), Q3 é o 75. O IQR é a medida-padrão de dispersão robusta porque, ao contrário do desvio padrão, é imune a valores extremos: mudar o maior dado de 100 para 1.000.000 deixa Q1, Q3 e IQR intocados. A regra de Tukey (1977) define outliers como valores abaixo de Q1 − 1,5·IQR ou acima de Q3 + 1,5·IQR; valores além de 3·IQR são chamados "muito afastados". Box plots desenham caixas de Q1 a Q3, uma linha na mediana, bigodes até os pontos não-outlier mais extremos e pontos para os outliers. O fator 1,5 foi escolhido porque, para dados normais, sinaliza cerca de 0,7% dos valores — próximo de um limite z de ±2,7. Use detecção por IQR quando os dados puderem ser assimétricos ou de caudas pesadas; use detecção por z-score quando souber que a distribuição é aproximadamente normal e quiser um critério mais nítido.
Porque cada valor aparece exatamente uma vez. A moda é o valor mais frequente, mas se as 100 medidas são decimais distintos — alturas de 100 estudantes medidas em milímetros, tempos de resposta em milissegundos — nenhum se repete e a moda fica indefinida. Esta calculadora reporta "Sem moda" nesse caso, em vez de escolher uma arbitrariamente. Dois casos relacionados: dados bimodais têm dois valores empatados como mais frequentes (uma turma com muitos alunos com dificuldade e muitos excelentes pode mostrar dois picos), e dados multimodais têm mais de dois. Solução prática do mundo real: agrupe os valores em intervalos (p. ex., alturas em faixas de 5 cm) e reporte a faixa modal em vez do valor modal. Para dados contínuos, a moda de um histograma suavizado (estimativa por kernel) é mais útil do que a moda crua. Também é por isso que média e mediana ganham os holofotes em estatística — sempre existem e são um único número, enquanto a moda pode estar ausente, ser única ou múltipla.
Assimetria (skewness) mede a falta de simetria da distribuição. Uma distribuição simétrica (como a normal) tem assimetria = 0. Assimetria positiva significa cauda direita longa (p. ex. renda, com poucas pessoas muito ricas); negativa, cauda esquerda longa (p. ex. idade ao falecer em país desenvolvido). Teste simples: se média > mediana, dados são assimétricos à direita; se média < mediana, à esquerda. Curtose mede o quão pesadas são as caudas em comparação a uma normal. Curtose alta (leptocúrtica) significa mais valores extremos do que uma normal previria — retornos financeiros são notoriamente leptocúrticos, por isso modelos baseados em premissas normais (Black-Scholes, VaR ingênuo) subestimam o risco de crash. Curtose baixa (platicúrtica) significa caudas mais finas. Por que importa? Muitos testes estatísticos assumem normalidade, que requer assimetria ≈ 0 e excesso de curtose ≈ 0. Com forte assimetria ou caudas gordas, média e desvio padrão se tornam enganosos, e convém migrar para estatísticas robustas (mediana, IQR, média aparada) ou transformar os dados (a transformação log conserta dados positivos com assimetria à direita).
Três falhas clássicas que todo analista deve conhecer. (1) Paradoxo de Simpson: uma tendência que aparece em subgrupos pode se inverter quando os grupos são combinados. UC Berkeley foi famosamente processada em 1973 por discriminação de gênero porque mulheres tinham taxa global de admissão menor, mas departamento a departamento a taxa feminina era maior — mulheres simplesmente se inscreviam desproporcionalmente em departamentos mais difíceis. (2) Viés de sobrevivência: estudar só os sobreviventes dá conclusões enviesadas. Engenheiros da Segunda Guerra queriam blindar aviões que voltavam onde havia mais furos de bala; o estatístico Abraham Wald apontou que deveriam blindar onde os aviões que voltavam NÃO tinham furos — esses eram os pontos que derrubavam os outros. (3) Confundir correlação com causalidade: vendas de sorvete correlacionam com afogamentos; ambos causados por dias quentes de verão, não um pelo outro. Outras armadilhas incluem a falácia do promotor (confundir P(A|B) com P(B|A)), p-hacking (rodar 20 testes e reportar só o significativo), lei de Goodhart ("quando uma medida vira meta, deixa de ser boa medida") e reportar média precisa para dados assimétricos. Sempre que um resumo estatístico te surpreender, olhe a distribuição antes de concluir.