Présentation de Pandas DataFrame describe()

Sommaire

La fonction Python Pandas DataFrame describe() est utilisée pour créer un résumé statistique des colonnes numériques d’un DataFrame. Ce résumé contient des indicateurs statistiques importants tels que la moyenne, l’écart-type, le minimum, le maximum et les différents quantiles des données.

Hébergement Web

Hébergement Web de pointe au meilleur prix

3x plus rapide, 60 % d'économie
Haute disponibilité >99,99 %
Seulement chez IONOS : jusqu'à 500 Go inclus

Syntaxe de la fonction Pandas `describe()`

La syntaxe de base de la fonction Pandas describe() pour un DataFrame est assez simple et ressemble à ce qui suit :

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Paramètres pertinents pour Pandas `DataFrame.describe()`

Certains paramètres vous permettent de personnaliser la sortie de la fonction describe(). Ces paramètres sont les suivants :

Paramètres	Description	Valeur par défaut
`percentiles`	Liste les quantiles à inclure dans la description	`[.25, .5, .75]`
`include`	Détermine les types de données à inclure dans la description ; les valeurs possibles sont `numpy.number`, `object`, `all` ou `None`	`None`
`exclude`	Détermine quels types de données doivent être exclus de la description ; valeurs analogues à `include`	`None`

Definition

Les quantiles statistiques sont des valeurs qui divisent un ensemble ordonné de données en sections de taille égale et indiquent quel pourcentage de points de données est inférieur à ce seuil. Ils sont utilisés pour comprendre la distribution des données et peuvent inclure, par exemple, la médiane (50e centile), le 25e et le 75e centile.

Exemples d’utilisation de Pandas `describe()`

La fonction Pandas DataFrame.describe() est principalement utilisée lorsqu’un aperçu rapide des principaux ratios statistiques d’un ensemble de données est souhaité.

Exemple 1 : résumé statistique de données numériques

Dans l’exemple suivant, nous considérons le DataFrame df qui contient une série de données de vente différentes.

import pandas as pd
import numpy as np
# Exemple de DataFrame avec des données de ventes
données = {
    'Produit': ['A', 'B', 'C', 'D', 'E'],
    'Quantité': [10, 20, 15, 5, 30],
    'Prix': [100, 150, 200, 80, 120],
    'Revenu': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(données)
print(df)

python

On peut maintenant utiliser Pandas describe() pour obtenir un résumé statistique des colonnes numériques :

summary = df.describe()
print(summary)

python

L’appel de fonction de Pandas DataFrame.describe() fournit la sortie suivante :

Quantité       Prix      Revenu
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Les indicateurs statistiques fournis par describe() ont la signification suivante :

count : nombre de valeurs non nulles dans chaque colonne
mean : moyenne des valeurs (également visible avec DataFrame.mean())
std : écart-type des valeurs
min, 25%, 50%, 75%, max : minimum, 25e centile, médiane (50e centile), 75e centile, maximum des valeurs

Exemple 2 : ajustement des quantiles

Il est possible de personnaliser Pandas DataFrame.describe() avec les paramètres déjà décrits afin de prendre en compte des quantiles spécifiques :

# Résumé statistique avec des quantiles personnalisés
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

L’appel de fonction, en tenant compte des quantiles sélectionnés (10%, 50% (médiane) et 90%), renvoie la sortie suivante :

Quantité       Prix      Revenu
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Pandas read_csv() : lire des fichiers CSV dans Python

Pandas read_csv() est une fonction puissante qui permet d’accéder rapidement et efficacement au contenu des fichiers CSV dans Python. Elle est flexible et offre de nombreux paramètres pour personnaliser le processus de chargement selon vos besoins. La compréhension de Pandas…

Python Pandas

Mr. Kosalshutterstock

Pandas : comprendre l’index DataFrame

L’indexation des Pandas DataFrames est un outil puissant pour travailler efficacement avec les données. Différentes méthodes vous permettent d’accéder de manière ciblée aux données et aux sous-ensembles de votre DataFrame afin de les traiter. Découvrez ce qu’est l’index Pandas…

Python Pandas

BEST-BACKGROUNDSShutterstock

Nettoyer des données avec Pandas dropna()

La fonction Pandas DataFrame.dropna() est un outil puissant pour nettoyer les enregistrements en supprimant efficacement les valeurs manquantes. Elle offre une flexibilité grâce à différents paramètres, permettant aux programmeurs d’adapter le nettoyage des données selon leurs…

Python Pandas

ESB Professionalshutterstock

Pandas DataFrame : manipuler des tableaux en Python de façon efficace et intuitive

Le module Pandas est l’un des outils les plus puissants pour la manipulation de données en Python. L’une de ses structures de données centrales est le DataFrame, qui permet de manipuler des données structurées en deux dimensions de manière efficace et claire. Nous vous expliquons…

Python Pandas

BEST-BACKGROUNDSShutterstock

Pandas iterrows() : comment itérer sur les DataFrames ?

Pandas DataFrame.iterrows() est une fonction permettant d’itérer sur les lignes d’un DataFrame. Elle est particulièrement utilisée lorsqu’un traitement ligne par ligne est nécessaire, par exemple lors de l’exécution de calculs. Apprenez ici comment travailler avec la fonction…

Python Pandas

UndreyShutterstock

Python Pandas : la propriété iloc[]

Lorsque vous travaillez avec des DataFrames dans Python Pandas, il peut arriver que toutes les lignes ou colonnes d’un DataFrame ne soient pas pertinentes pour l’analyse des données. La propriété iloc[] des DataFrames Pandas est donc un outil utile pour sélectionner les lignes ou…

Python Pandas

Pré­sen­ta­tion de Pandas DataFrame describe()

Syntaxe de la fonction Pandas describe()

Pa­ra­mètres per­ti­nents pour Pandas DataFrame.describe()

Exemples d’uti­li­sa­tion de Pandas describe()

Exemple 1 : résumé sta­tis­tique de données nu­mé­riques

Exemple 2 : ajus­te­ment des quantiles

Présentation de Pandas DataFrame describe()

Syntaxe de la fonction Pandas `describe()`

Paramètres pertinents pour Pandas `DataFrame.describe()`

Exemples d’utilisation de Pandas `describe()`

Exemple 1 : résumé statistique de données numériques

Exemple 2 : ajustement des quantiles