Présentation de Pandas DataFrame describe()
La fonction Python Pandas DataFrame describe()
est utilisée pour créer un résumé statistique des colonnes numériques d’un DataFrame. Ce résumé contient des indicateurs statistiques importants tels que la moyenne, l’écart-type, le minimum, le maximum et les différents quantiles des données.
- Certificat SSL et protection DDoS
- Sauvegarde et restauration des données
- Assistance 24/7 et conseiller personnel
Syntaxe de la fonction Pandas describe()
La syntaxe de base de la fonction Pandas describe()
pour un DataFrame est assez simple et ressemble à ce qui suit :
DataFrame.describe(percentiles=None, include=None, exclude=None)
pythonParamètres pertinents pour Pandas DataFrame.describe()
Certains paramètres vous permettent de personnaliser la sortie de la fonction describe()
. Ces paramètres sont les suivants :
Paramètres | Description | Valeur par défaut |
---|---|---|
percentiles
|
Liste les quantiles à inclure dans la description | [.25, .5, .75]
|
include
|
Détermine les types de données à inclure dans la description ; les valeurs possibles sont numpy.number , object , all ou None
|
None
|
exclude
|
Détermine quels types de données doivent être exclus de la description ; valeurs analogues à include
|
None
|
Les quantiles statistiques sont des valeurs qui divisent un ensemble ordonné de données en sections de taille égale et indiquent quel pourcentage de points de données est inférieur à ce seuil. Ils sont utilisés pour comprendre la distribution des données et peuvent inclure, par exemple, la médiane (50e centile), le 25e et le 75e centile.
Exemples d’utilisation de Pandas describe()
La fonction Pandas DataFrame.describe()
est principalement utilisée lorsqu’un aperçu rapide des principaux ratios statistiques d’un ensemble de données est souhaité.
Exemple 1 : résumé statistique de données numériques
Dans l’exemple suivant, nous considérons le DataFrame df
qui contient une série de données de vente différentes.
import pandas as pd
import numpy as np
# Exemple de DataFrame avec des données de ventes
données = {
'Produit': ['A', 'B', 'C', 'D', 'E'],
'Quantité': [10, 20, 15, 5, 30],
'Prix': [100, 150, 200, 80, 120],
'Revenu': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(données)
print(df)
pythonOn peut maintenant utiliser Pandas describe()
pour obtenir un résumé statistique des colonnes numériques :
summary = df.describe()
print(summary)
pythonL’appel de fonction de Pandas DataFrame.describe()
fournit la sortie suivante :
Quantité Prix Revenu
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000
Les indicateurs statistiques fournis par describe()
ont la signification suivante :
count
: nombre de valeurs non nulles dans chaque colonnemean
: moyenne des valeurs (également visible avecDataFrame.mean()
)std
: écart-type des valeursmin, 25%, 50%, 75%, max
: minimum, 25e centile, médiane (50e centile), 75e centile, maximum des valeurs
Exemple 2 : ajustement des quantiles
Il est possible de personnaliser Pandas DataFrame.describe()
avec les paramètres déjà décrits afin de prendre en compte des quantiles spécifiques :
# Résumé statistique avec des quantiles personnalisés
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
pythonL’appel de fonction, en tenant compte des quantiles sélectionnés (10%, 50% (médiane) et 90%), renvoie la sortie suivante :
Quantité Prix Revenu
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000