Plus de jeux sur WuGames.ioSponsoriséDécouvrez des jeux de navigateur gratuits — jouez aussitôt, sans téléchargement ni inscription.Jouer

Calculatrice de statistiques

Calculez moyenne, médiane, mode, variance, écart-type, quartiles, IQR et z-scores pour tout jeu de données. Explique l'écart-type empirique et la détection d'outliers.

clearClearpastePaste

Mesures de tendance centrale

Moyenne (arithmétique)
Médiane (valeur centrale)
Mode (le plus fréquent)

Statistiques de base

Nombre (n)
Somme
Minimum
Maximum
Étendue

Mesures de dispersion

Variance
Écart-type
Erreur standard
Coefficient de variation

Autres statistiques

Q1 (premier quartile)
Q3 (troisième quartile)
IQR (écart interquartile)

Données triées

Calculez en une fois toutes les statistiques descriptives standard de votre jeu de données — tendance centrale (moyenne, médiane, mode), dispersion (variance, écart-type, IQR), limites de quartiles et z-scores — sans quitter la page. Collez des nombres séparés par virgules, espaces, tabulations ou retours à la ligne ; la calculatrice trie les données, applique les formules et affiche les étapes intermédiaires afin que vous puissiez vérifier chaque chiffre.

Qu'est-ce que la statistique ?

La statistique est la science mathématique consistant à collecter, organiser, résumer, analyser et interpréter des données. Elle existe parce que les chiffres bruts — par exemple une liste de 200 notes d'examen — sont trop bruités pour être saisis d'un coup d'œil. Les statistiques résumées distillent ce bruit en une poignée de nombres qui décrivent où les données sont centrées, dans quelle mesure elles s'étalent et comment les valeurs individuelles se comparent au reste.

Mesures de tendance centrale

Elles répondent à la question « quelle est une valeur typique ? ». Chacune capture un sens différent du « centre » :

  • Moyenne (arithmétique) : somme de toutes les valeurs divisée par leur nombre. Sensible aux valeurs aberrantes — une seule valeur très grande peut l'éloigner du reste.
  • Médiane : la valeur du milieu une fois les données triées. La moitié des observations est en dessous, l'autre au-dessus. Robuste face aux outliers ; c'est pourquoi les rapports sur les prix de l'immobilier citent toujours la médiane et non la moyenne.
  • Mode : la valeur la plus fréquente. Utile pour des données catégorielles (« couleur la plus courante ») mais peut être indéfinie ou non unique pour des données continues.

Mesures de dispersion

La dispersion indique à quel point les données varient. Une classe où tout le monde a 70 a la même moyenne qu'une classe avec des notes de 30 à 100, mais la seconde a une dispersion énorme.

  • Étendue : max moins min. Rapide à calculer, mais ignore tout ce qui se trouve entre les extrêmes.
  • Variance : moyenne des carrés des écarts à la moyenne. L'élévation au carré fait compter les écarts positifs et négatifs et accentue les écarts importants.
  • Écart-type : racine carrée de la variance, dans les mêmes unités que les données d'origine. Grossièrement la « distance typique à la moyenne ».
  • Écart interquartile (IQR) : Q3 − Q1, l'étendue des 50 % centraux des données. Robuste aux outliers, il est à la base des box plots et de la règle standard de détection des outliers.

Score Z

Le score z exprime tout point de donnée en unités d'écart-type par rapport à la moyenne. La formule est :

z = (x - μ) / σ

Un z de 0 signifie que la valeur est exactement à la moyenne ; +2 signifie deux écarts-types au-dessus, −1,5 un et demi en dessous. Pour des données approximativement normales, la règle 68-95-99,7 dit qu'environ 68 % des valeurs sont dans z ∈ [−1, +1], 95 % dans [−2, +2] et 99,7 % dans [−3, +3] — donc un z au-dessus de 3 ou en dessous de −3 est suffisamment rare pour être investigué.

Applications de la statistique

La statistique sous-tend presque toute discipline quantitative :

  • Sciences : analyse expérimentale, tests d'hypothèse, intervalles de confiance, p-values
  • Affaires : études de marché, contrôle qualité (Six Sigma vient d'un seuil d'écart-type), tests A/B
  • Médecine : essais cliniques, épidémiologie, courbes dose-réponse, sensibilité et spécificité des tests
  • Sciences sociales : analyse de sondages, marge d'erreur, études démographiques
  • Finance : variance de portefeuille, ratio de Sharpe, Value at Risk, tout le trading quantitatif

Questions fréquentes

Utilisez la moyenne lorsque les données sont approximativement symétriques et sans outliers extrêmes — notes d'un examen typique, tailles d'adultes dans un pays, températures quotidiennes pendant un mois. La moyenne utilise toutes les valeurs et capture donc toute l'information du jeu. Utilisez la médiane lorsque les données sont asymétriques ou contiennent des outliers. Les revenus sont l'exemple classique : un seul milliardaire dans un échantillon de 100 personnes propulse la moyenne très au-dessus du revenu typique, mais déplace à peine la médiane. Prix de l'immobilier, temps de réponse de serveurs web et délais d'attente à l'hôpital sont reportés en médianes pour la même raison. Raison mathématique : la moyenne minimise la somme des carrés des erreurs, la médiane minimise la somme des valeurs absolues. Les erreurs au carré punissent durement un seul grand écart, c'est pourquoi la moyenne suit l'outlier. Test pratique : si moyenne et médiane diffèrent de plus de ~10 % de l'écart-type, vos données sont probablement asymétriques et la médiane est le résumé plus sûr.

L'écart-type de population divise par N (l'effectif) ; l'écart-type d'échantillon divise par N−1. Ce N−1 s'appelle la correction de Bessel. Pourquoi soustraire un ? Quand vous calculez la moyenne d'échantillon puis mesurez les écarts par rapport à elle, les données sont plus proches de la moyenne d'échantillon que de la vraie moyenne de population — par construction. Diviser par N sous-estime systématiquement la variance de population. Diviser par N−1 corrige ce biais en moyenne, donnant un estimateur sans biais de la variance de population. Règle pratique : si vous avez toute la population (tous les employés d'une petite entreprise, toutes les notes d'une classe que vous avez enseignée), utilisez N. Si vous avez un échantillon tiré d'une population plus large (1 000 électeurs parmi 30 millions, 50 ampoules de la production quotidienne d'une usine) et voulez inférer quelque chose sur l'ensemble, utilisez N−1. La plupart des logiciels utilisent N−1 par défaut : STDEV.S d'Excel, std de NumPy avec ddof=1, STDEV de Google Sheets. La différence importe surtout pour les petits échantillons — pour N=1 000 c'est quasi nul, pour N=4 c'est énorme.

Trois raisons. Premièrement, élever au carré fait compter les écarts positifs et négatifs comme « distance à la moyenne » — sans carré (ou valeur absolue), les écarts somment zéro par construction, ce qui est inutile. Deuxièmement, le carré pénalise plus les grands écarts que les petits. Deux valeurs à 10 unités de la moyenne pèsent autant que 50 valeurs à 2 unités (10² = 100 contre 50 × 2² = 200), donc la variance est sensible aux gros écarts occasionnels — qui comptent davantage en gestion de risque et qualité. Troisièmement, les écarts au carré sont mathématiquement pratiques : ils sont dérivables partout (la valeur absolue ne l'est pas en zéro), se relient proprement à la loi normale et font de la variance d'une somme la somme des variances pour des variables indépendantes. L'inconvénient est que la variance a les mauvaises unités — dollars², kilogrammes² — c'est pourquoi on cite habituellement l'écart-type, sa racine carrée, qui revient aux unités d'origine. L'écart absolu moyen (MAD) existe et est robuste, mais lui manquent les propriétés algébriques propres qui font de la variance le standard de la statistique classique.

Un score z indique à quel point une valeur est inhabituelle, en unités d'écart-type. z = (x − μ) / σ, où x est votre valeur, μ la moyenne du jeu, σ l'écart-type. z positif = au-dessus de la moyenne, z négatif = en dessous, |z| = à combien d'écarts-types. Pour des données approximativement normales, la règle empirique (68-95-99,7) dit qu'environ 68 % des valeurs tombent dans z ∈ [−1, +1], 95 % dans [−2, +2] et 99,7 % dans [−3, +3]. Donc z = 1,5 est modérément au-dessus (mieux que ~93 % des valeurs), z = 2,5 nettement au-dessus (top ~0,6 %), z = −3 est assez rare pour suspecter une erreur ou un cas particulier. Les scores z sont la base de calibrage des tests SAT/QI (moyenne 100, écart-type 15 implique QI 130 à z = +2, top 2,3 %), de la signalisation médicale des résultats hors plage, et de la détection d'outliers en machine learning avant entraînement. Avertissement : la règle empirique ne fonctionne que pour des distributions approximativement normales. Pour des données asymétriques ou à queue lourde, un z de 3 peut ne pas être rare du tout — les rendements quotidiens du bitcoin cassent fameusement cette règle.

L'écart interquartile (IQR) est Q3 moins Q1 — l'étendue des 50 % centraux de vos données. Q1 est le 25ᵉ percentile (un quart des valeurs en dessous), Q3 le 75ᵉ. L'IQR est la mesure de dispersion robuste standard car, contrairement à l'écart-type, il est immunisé aux valeurs extrêmes : changer le plus grand point de 100 à 1 000 000 laisse Q1, Q3 et IQR intacts. La règle de Tukey (1977) définit les outliers comme les valeurs en dessous de Q1 − 1,5·IQR ou au-dessus de Q3 + 1,5·IQR ; au-delà de 3·IQR on parle de « très éloigné ». Les box plots dessinent des boîtes de Q1 à Q3, une ligne à la médiane, des moustaches jusqu'aux points non-outliers les plus extrêmes, et des points pour les outliers. Le facteur 1,5 a été choisi parce que, pour des données normales, il signale environ 0,7 % des valeurs — proche d'un seuil z de ±2,7. Utilisez la détection par IQR quand vos données peuvent être asymétriques ou à queue lourde ; utilisez la détection par z-score si vous savez que la distribution est approximativement normale et voulez un critère plus net.

Parce que chaque valeur n'apparaît qu'une fois. Le mode est la valeur la plus fréquente, mais si vos 100 mesures sont toutes des décimaux distincts — tailles de 100 élèves mesurées au millimètre, temps de réponse en millisecondes — aucune ne se répète et le mode est indéfini. Cette calculatrice indique « Pas de mode » dans ce cas plutôt que d'en choisir un arbitrairement. Deux cas voisins : les données bimodales ont deux valeurs ex æquo (une classe avec beaucoup d'élèves en difficulté et beaucoup d'excellents peut montrer deux pics), et les données multimodales en ont plus de deux. Solution pratique : groupez les valeurs en intervalles (par exemple les tailles par tranches de 5 cm) et reportez la tranche modale plutôt que la valeur modale. Pour des données continues, le mode d'un histogramme lissé (estimation à noyau) est plus utile que le mode brut. C'est aussi pourquoi la moyenne et la médiane sont mises en avant en statistique — elles existent toujours et sont uniques, alors que le mode peut être absent, unique ou multiple.

L'asymétrie (skewness) mesure le manque de symétrie de la distribution. Une distribution symétrique (comme la normale) a une asymétrie = 0. Asymétrie positive signifie longue queue à droite (par exemple revenus, avec quelques très riches), négative signifie longue queue à gauche (par exemple âge au décès dans un pays développé). Test simple : si moyenne > médiane, données asymétriques à droite ; si moyenne < médiane, à gauche. L'aplatissement (kurtosis) mesure à quel point les queues sont lourdes par rapport à une normale. Aplatissement élevé (leptokurtique) signifie plus de valeurs extrêmes que la normale ne le prédirait — les rendements financiers sont notoirement leptokurtiques, ce qui explique pourquoi les modèles à hypothèse normale (Black-Scholes, VaR naïve) sous-estiment le risque de crash. Aplatissement faible (platykurtique) signifie queues plus fines. Pourquoi cela compte ? Beaucoup de tests statistiques supposent la normalité, qui exige asymétrie ≈ 0 et excès d'aplatissement ≈ 0. Avec forte asymétrie ou queues grasses, moyenne et écart-type deviennent trompeurs, et mieux vaut passer à des statistiques robustes (médiane, IQR, moyenne tronquée) ou transformer les données (la log-transformation répare des données positives à asymétrie droite).

Trois échecs classiques que tout analyste devrait connaître. (1) Paradoxe de Simpson : une tendance visible dans les sous-groupes peut s'inverser quand on combine les groupes. UC Berkeley a été poursuivie en 1973 pour discrimination sexuelle parce que les femmes avaient un taux global d'admission plus bas, alors que département par département le taux féminin était plus élevé — les femmes postulaient simplement de façon disproportionnée dans les départements les plus difficiles. (2) Biais du survivant : n'étudier que les survivants donne des conclusions biaisées. Les ingénieurs de la Seconde Guerre voulaient blinder les avions de retour là où il y avait le plus d'impacts de balles ; le statisticien Abraham Wald a fait remarquer qu'il fallait blinder là où les avions de retour n'avaient pas d'impacts — c'étaient les endroits qui abattaient les autres. (3) Confondre corrélation et causalité : les ventes de glaces corrèlent avec les noyades ; les deux sont causées par les journées d'été chaudes, pas par l'une l'autre. Autres pièges : sophisme du procureur (confondre P(A|B) et P(B|A)), p-hacking (lancer 20 tests et reporter le seul significatif), loi de Goodhart (« quand une mesure devient un objectif, elle cesse d'être une bonne mesure ») et reporter une moyenne précise pour des données asymétriques. Chaque fois qu'un résumé statistique vous surprend, regardez la distribution avant de conclure.
Calculatrice de statistiques — Calculez moyenne, médiane, mode, variance, écart-type, quartiles, IQR et z-scores pour tout jeu de données. Explique l'é
Calculatrice de statistiques