La fonction Python Pandas DataFrame describe() est utilisée pour créer un résumé statistique des colonnes numériques d’un DataFrame. Ce résumé contient des indicateurs statistiques importants tels que la moyenne, l’écart-type, le minimum, le maximum et les différents quantiles des données.

Hébergement Web
Hébergement Web flexible, performant et sûr
  • Certificat SSL et protection DDoS
  • Sauvegarde et restauration des données
  • Assistance 24/7 et conseiller personnel

Syntaxe de la fonction Pandas describe()

La syntaxe de base de la fonction Pandas describe() pour un DataFrame est assez simple et ressemble à ce qui suit :

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Paramètres pertinents pour Pandas DataFrame.describe()

Certains paramètres vous permettent de personnaliser la sortie de la fonction describe(). Ces paramètres sont les suivants :

Paramètres Description Valeur par défaut
percentiles Liste les quantiles à inclure dans la description [.25, .5, .75]
include Détermine les types de données à inclure dans la description ; les valeurs possibles sont numpy.number, object, all ou None None
exclude Détermine quels types de données doivent être exclus de la description ; valeurs analogues à include None
Definition

Les quantiles statistiques sont des valeurs qui divisent un ensemble ordonné de données en sections de taille égale et indiquent quel pourcentage de points de données est inférieur à ce seuil. Ils sont utilisés pour comprendre la distribution des données et peuvent inclure, par exemple, la médiane (50e centile), le 25e et le 75e centile.

Exemples d’utilisation de Pandas describe()

La fonction Pandas DataFrame.describe() est principalement utilisée lorsqu’un aperçu rapide des principaux ratios statistiques d’un ensemble de données est souhaité.

Exemple 1 : résumé statistique de données numériques

Dans l’exemple suivant, nous considérons le DataFrame df qui contient une série de données de vente différentes.

import pandas as pd
import numpy as np
# Exemple de DataFrame avec des données de ventes
données = {
    'Produit': ['A', 'B', 'C', 'D', 'E'],
    'Quantité': [10, 20, 15, 5, 30],
    'Prix': [100, 150, 200, 80, 120],
    'Revenu': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(données)
print(df)
python

On peut maintenant utiliser Pandas describe() pour obtenir un résumé statistique des colonnes numériques :

summary = df.describe()
print(summary)
python

L’appel de fonction de Pandas DataFrame.describe() fournit la sortie suivante :

Quantité       Prix      Revenu
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Les indicateurs statistiques fournis par describe() ont la signification suivante :

  • count : nombre de valeurs non nulles dans chaque colonne
  • mean : moyenne des valeurs (également visible avec DataFrame.mean())
  • std : écart-type des valeurs
  • min, 25%, 50%, 75%, max : minimum, 25e centile, médiane (50e centile), 75e centile, maximum des valeurs

Exemple 2 : ajustement des quantiles

Il est possible de personnaliser Pandas DataFrame.describe() avec les paramètres déjà décrits afin de prendre en compte des quantiles spécifiques :

# Résumé statistique avec des quantiles personnalisés
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

L’appel de fonction, en tenant compte des quantiles sélectionnés (10%, 50% (médiane) et 90%), renvoie la sortie suivante :

Quantité       Prix      Revenu
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000
Cet article vous a-t-il été utile ?
Aller au menu principal