Présentation de Pandas DataFrame describe()
La fonction Python Pandas DataFrame describe()
est utilisée pour créer un résumé statistique des colonnes numériques d’un DataFrame. Ce résumé contient des indicateurs statistiques importants tels que la moyenne, l’écart-type, le minimum, le maximum et les différents quantiles des données.
- Certificat SSL et protection DDoS
- Sauvegarde et restauration des données
- Assistance 24/7 et conseiller personnel
Syntaxe de la fonction Pandas describe()
La syntaxe de base de la fonction Pandas describe()
pour un DataFrame est assez simple et ressemble à ce qui suit :
Paramètres pertinents pour Pandas DataFrame.describe()
Certains paramètres vous permettent de personnaliser la sortie de la fonction describe()
. Ces paramètres sont les suivants :
Paramètres | Description | Valeur par défaut |
---|---|---|
percentiles
|
Liste les quantiles à inclure dans la description | [.25, .5, .75]
|
include
|
Détermine les types de données à inclure dans la description ; les valeurs possibles sont numpy.number , object , all ou None
|
None
|
exclude
|
Détermine quels types de données doivent être exclus de la description ; valeurs analogues à include
|
None
|
Les quantiles statistiques sont des valeurs qui divisent un ensemble ordonné de données en sections de taille égale et indiquent quel pourcentage de points de données est inférieur à ce seuil. Ils sont utilisés pour comprendre la distribution des données et peuvent inclure, par exemple, la médiane (50e centile), le 25e et le 75e centile.
Exemples d’utilisation de Pandas describe()
La fonction Pandas DataFrame.describe()
est principalement utilisée lorsqu’un aperçu rapide des principaux ratios statistiques d’un ensemble de données est souhaité.
Exemple 1 : résumé statistique de données numériques
Dans l’exemple suivant, nous considérons le DataFrame df
qui contient une série de données de vente différentes.
On peut maintenant utiliser Pandas describe()
pour obtenir un résumé statistique des colonnes numériques :
L’appel de fonction de Pandas DataFrame.describe()
fournit la sortie suivante :
Les indicateurs statistiques fournis par describe()
ont la signification suivante :
count
: nombre de valeurs non nulles dans chaque colonnemean
: moyenne des valeurs (également visible avecDataFrame.mean()
)std
: écart-type des valeursmin, 25%, 50%, 75%, max
: minimum, 25e centile, médiane (50e centile), 75e centile, maximum des valeurs
Exemple 2 : ajustement des quantiles
Il est possible de personnaliser Pandas DataFrame.describe()
avec les paramètres déjà décrits afin de prendre en compte des quantiles spécifiques :
L’appel de fonction, en tenant compte des quantiles sélectionnés (10%, 50% (médiane) et 90%), renvoie la sortie suivante :