La fonction Python Pandas DataFrame describe() est utilisée pour créer un résumé sta­tis­tique des colonnes nu­mé­riques d’un DataFrame. Ce résumé contient des in­di­ca­teurs sta­tis­tiques im­por­tants tels que la moyenne, l’écart-type, le minimum, le maximum et les dif­fé­rents quantiles des données.

Hé­ber­ge­ment Web
Hé­ber­ge­ment Web de pointe au meilleur prix
  • 3x plus rapide, 60 % d'éco­no­mie
  • Haute dis­po­ni­bi­lité >99,99 %
  • Seulement chez IONOS : jusqu'à 500 Go inclus

Syntaxe de la fonction Pandas describe()

La syntaxe de base de la fonction Pandas describe() pour un DataFrame est assez simple et ressemble à ce qui suit :

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Pa­ra­mètres per­ti­nents pour Pandas DataFrame.describe()

Certains pa­ra­mètres vous per­met­tent de per­son­na­li­ser la sortie de la fonction describe(). Ces pa­ra­mètres sont les suivants :

Pa­ra­mètres Des­crip­tion Valeur par défaut
percentiles Liste les quantiles à inclure dans la des­crip­tion [.25, .5, .75]
include Détermine les types de données à inclure dans la des­crip­tion ; les valeurs possibles sont numpy.number, object, all ou None None
exclude Détermine quels types de données doivent être exclus de la des­crip­tion ; valeurs analogues à include None
De­fi­ni­tion

Les quantiles sta­tis­tiques sont des valeurs qui divisent un ensemble ordonné de données en sections de taille égale et indiquent quel pour­cen­tage de points de données est inférieur à ce seuil. Ils sont utilisés pour com­prendre la dis­tri­bu­tion des données et peuvent inclure, par exemple, la médiane (50e centile), le 25e et le 75e centile.

Exemples d’uti­li­sa­tion de Pandas describe()

La fonction Pandas DataFrame.describe() est prin­ci­pa­le­ment utilisée lorsqu’un aperçu rapide des prin­ci­paux ratios sta­tis­tiques d’un ensemble de données est souhaité.

Exemple 1 : résumé sta­tis­tique de données nu­mé­riques

Dans l’exemple suivant, nous con­si­dé­rons le DataFrame df qui contient une série de données de vente dif­fé­rentes.

import pandas as pd
import numpy as np
# Exemple de DataFrame avec des données de ventes
données = {
    'Produit': ['A', 'B', 'C', 'D', 'E'],
    'Quantité': [10, 20, 15, 5, 30],
    'Prix': [100, 150, 200, 80, 120],
    'Revenu': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(données)
print(df)
python

On peut main­te­nant utiliser Pandas describe() pour obtenir un résumé sta­tis­tique des colonnes nu­mé­riques :

summary = df.describe()
print(summary)
python

L’appel de fonction de Pandas DataFrame.describe() fournit la sortie suivante :

Quantité       Prix      Revenu
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Les in­di­ca­teurs sta­tis­tiques fournis par describe() ont la sig­ni­fi­ca­tion suivante :

  • count : nombre de valeurs non nulles dans chaque colonne
  • mean : moyenne des valeurs (également visible avec DataFrame.mean())
  • std : écart-type des valeurs
  • min, 25%, 50%, 75%, max : minimum, 25e centile, médiane (50e centile), 75e centile, maximum des valeurs

Exemple 2 : ajus­te­ment des quantiles

Il est possible de per­son­na­li­ser Pandas DataFrame.describe() avec les pa­ra­mètres déjà décrits afin de prendre en compte des quantiles spé­ci­fiques :

# Résumé statistique avec des quantiles personnalisés
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

L’appel de fonction, en tenant compte des quantiles sé­lec­tion­nés (10%, 50% (médiane) et 90%), renvoie la sortie suivante :

Quantité       Prix      Revenu
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000
Aller au menu principal