La fonction Pandas groupby() expliquée

Sommaire

La fonction Python Pandas DataFrame.groupby() permet de grouper des données selon certains critères et d’effectuer différentes agrégations et transformations sur ces groupes.

Hébergement Web

Hébergement Web de pointe au meilleur prix

3x plus rapide, 60 % d'économie
Haute disponibilité >99,99 %
Seulement chez IONOS : jusqu'à 500 Go inclus

Syntaxe de Pandas `DataFrame.groupby()`

La fonction Pandas groupby() prend jusqu’à quatre paramètres. La syntaxe de base est la suivante :

DataFrame.groupby(by=None, level=None, as_index=True, sort=True, group_keys=True, dropna=True)

python

Paramètres pertinents

Paramètres	Description	Valeur par défaut
`by`	Clé ou liste Python de clés pour le regroupement ; ne se combine avec `level` que pour des multi-index	`None`
`level`	Utilisé dans les index multiples pour spécifier un ou plusieurs niveaux, de sorte que le regroupement se fasse selon des niveaux spécifiques	`None`
`as_index`	Si `True`, les clés de groupe sont définies comme index du DataFrame résultant	`True`
`group_keys`	Si `True`, les clés de groupe sont incluses dans les index des groupes	`True`
`sort`	Si `True`, trie les groupes par ordre croissant des clés	`True`
`dropna`	Si `True`, exclut les groupes contenant uniquement des valeurs `NaN`	`True`

Application de Pandas `DataFrame.grouby()`

La fonction Pandas groupyby() est particulièrement utile pour analyser et agréger de grandes quantités de données afin de détecter des modèles ou des anomalies.

Regrouper et agréger

Nous considérons ici un ensemble de données sur les ventes de produits qui contient des informations sur la date de vente, le produit vendu et la quantité vendue :

import pandas as pd
# Exemple de jeu de données avec des ventes de produits
données = {
    'Date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Produit': ['A', 'B', 'A', 'B', 'A'],
    'Quantité': [10, 20, 15, 25, 10]
}
df = pd.DataFrame(données)
print(df)

python

Le DataFrame résultant ressemble à ceci :

Date Produit  Quantité
0  2021-01-01       A        10
1  2021-01-01       B        20
2  2021-01-02       A        15
3  2021-01-02       B        25
4  2021-01-03       A        10

L’étape suivante consiste à regrouper l’ensemble des données par produit. Pour cela, on utilise Pandas groupby(). Ensuite, la somme des quantités vendues de chaque produit est calculée à l’aide de la fonction sum() :

# Regrouper par produit et calculer la somme des quantités vendues
somme = df.groupby('Produit')['Quantité'].sum()
print(somme)

Le résultat indique combien d’unités de chaque produit ont été vendues au total :

Produit
A    35
B    45
Name: Quantité, dtype: int64

Agrégations multiples

L’exemple suivant utilise un ensemble de données similaire, mais étendu, qui contient en plus le chiffre d’affaires :

import pandas as pd
# Création d'un DataFrame avec des ventes de produits et chiffres d'affaires
données = {
    'Date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Produit': ['A', 'B', 'A', 'B', 'A'],
    'Quantité': [10, 20, 15, 25, 10],
    'Revenu': [100, 200, 150, 250, 100]
}
df = pd.DataFrame(données)
print(df)

python

Le DataFrame suivant est donc considéré :

Date Produit  Quantité  Revenu
0  2021-01-01       A        10     100
1  2021-01-01       B        20     200
2  2021-01-02       A        15     150
3  2021-01-02       B        25     250
4  2021-01-03       A        10     100

Les données sont à nouveau regroupées par produit à l’aide de Pandas DataFrame.groupby(). Ensuite, la fonction agg() est utilisée pour agréger en fonction du total des quantités vendues et des ventes, ainsi que du chiffre d’affaires moyen par produit.

# Regrouper par produit et appliquer plusieurs agrégations
groupes = df.groupby('Produit').agg({
    'Quantité': 'sum',
    'Revenu': ['sum', 'mean']
})
print(groupes)

Le résultat ressemble à ce qui suit :

Quantité Revenu         
          sum    sum     mean
Produit                 
A          35    350  116.67
B          45    450  225.00

Grâce à la fonction groupby() de Python, il est possible d’explorer des ensembles de données de manière efficace, en appliquant des agrégations complexes pour analyser des tendances et des performances.

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Pandas DataFrame[].unique() : déterminer les valeurs uniques

Avec DataFrame[].unique() de Pandas, il est possible d’identifier rapidement les valeurs uniques d’une colonne d’un DataFrame. Cette fonctionnalité est particulièrement utile pour détecter les doublons. En renvoyant directement un tableau NumPy, elle permet de traiter…

Python Pandas

Gorodenkoffshutterstock

Pandas DataFrame.where() : vérifier des conditions au sein d’un DataFrame

Avec DataFrame.where() de Pandas, vous pouvez effectuer des manipulations conditionnelles sur les DataFrames. Cette fonction définit des conditions pour déterminer quelles valeurs doivent être conservées ou remplacées. Elle constitue une solution efficace pour nettoyer, extraire…

Python Pandas

GaudiLabShutterstock

Pandas loc[] : sélectionner des données dans un DataFrame

La propriété Pandas DataFrame loc[] permet d’extraire des données basées sur des étiquettes. Elle est particulièrement utile pour travailler avec des données dont la position des lignes et des colonnes n’est pas toujours prévisible. Découvrez dans cet article comment utiliser…

Python Pandas

ra2 studioShutterstock

Pandas Table : formater les DataFrames en tableaux

L’affichage d’un Python Pandas DataFrame sous forme de tableau est une tâche essentielle qui peut être réalisée de nombreuses manières différentes, en fonction des besoins. Qu’il s’agisse d’une simple sortie de console, d’un tableau HTML formaté ou d’une visualisation dans des…

Python Pandas

Ranjit Karmakarshutterstock

Présentation de Pandas DataFrame describe()

La méthode Pandas DataFrame.describe() offre un moyen rapide de générer un résumé statistique complet de données numériques dans un DataFrame. Grâce à la possibilité d’ajuster les quantiles et de spécifier les types de données, elle est extrêmement flexible et adaptée à de…

Python Pandas

OhSuratShutterstock

Pandas read_csv() : lire des fichiers CSV dans Python

Pandas read_csv() est une fonction puissante qui permet d’accéder rapidement et efficacement au contenu des fichiers CSV dans Python. Elle est flexible et offre de nombreux paramètres pour personnaliser le processus de chargement selon vos besoins. La compréhension de Pandas…

Python Pandas

La fonction Pandas groupby() expliquée

Syntaxe de Pandas DataFrame.groupby()

Pa­ra­mètres per­ti­nents

Ap­pli­ca­tion de Pandas DataFrame.grouby()

Regrouper et agréger

Agré­ga­tions multiples

Syntaxe de Pandas `DataFrame.groupby()`

Paramètres pertinents

Application de Pandas `DataFrame.grouby()`

Agrégations multiples