Python Pandas : fusionner des DataFrames avec merge()

Sommaire

La fonction Pandas DataFrame.merge() sert à fusionner deux DataFrames en utilisant des clés communes (keys). Cela permet de combiner efficacement des données provenant de différentes sources afin d’effectuer des analyses plus complètes.

Hébergement Web

Hébergement Web de pointe au meilleur prix

3x plus rapide, 60 % d'économie
Haute disponibilité >99,99 %
Seulement chez IONOS : jusqu'à 500 Go inclus

Syntaxe de la fonction Pandas `merge()`

La méthode Python Pandas DataFrame merge() peut prendre en compte toute une série de paramètres différents qui influencent la manière dont les DataFrames sont combinés. La syntaxe générale de la fonction merge() est la suivante :

DataFrame.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

python

Note

La fonction Pandas merge() est similaire à l’opération SQL JOIN dans les bases de données relationnelles. Par conséquent, si vous connaissez déjà les langages de base de données tels que SQL, vous aurez peut-être plus de facilités à comprendre le fonctionnement de la méthode Pandas DataFrame merge(). Notez cependant que le comportement peut varier : si les deux colonnes de clés contiennent des valeurs nulles, celles-ci seront également fusionnées.

Paramètres pertinents

En utilisant les différents paramètres que Pandas merge() accepte, vous spécifiez non seulement les Pandas DataFrames à combiner, mais aussi le type de jointure et d’autres détails.

Paramètre	Description	Valeur par défaut
`left`	Premier DataFrame à connecter
`right`	Deuxième DataFrame à connecter
`how`	Type d’opération de jointure à effectuer (`inner`, `outer`, `left` ou `right`)	`inner`
`on`	Colonne ou niveau d’index à utiliser comme clé ; doit être présente dans les deux DataFrames
`left_on`	Colonne ou niveau d’index du DataFrame de gauche, utilisée comme clé
`right_on`	Colonne ou niveau d’index du DataFrame de droite, utilisée comme clé
`left_index`	Si `True`, l’index du DataFrame de gauche sera utilisé comme clé	`False`
`right_index`	Si `True`, l’index du DataFrame de droite sera utilisé comme clé	`False`
`sort`	Si `True`, les clés de DataFrame résultantes seront triées lexicographiquement.	`False`
`suffixes`	Suffixes utilisés pour rendre uniques les colonnes de même nom	`("_x", "_y")`
`copy`	Si `False`, la copie est évitée	`True`
`indicator`	Ajoute une colonne indiquant la provenance des lignes après fusion (`both`, `left_only`, `right_only`)	`False`

Application de Pandas `merge()`

Plusieurs exemples peuvent aider à comprendre comment fonctionne la fonction Pandas merge().

`INNER JOIN` (jointure interne)

SQL INNER JOIN relie deux Pandas DataFrames et ne renvoie que les lignes dont les clés correspondent dans les deux DataFrames. Toutes les autres lignes sont exclues du résultat. Pour cela, deux DataFrames sont créés avec des données d’exemple :

import pandas as pd
# DataFrames d'exemple
df1 = pd.DataFrame({
    'Clé': ['A', 'B', 'C'],
    'Valeur1': [1, 2, 3]
})
df2 = pd.DataFrame({
    'Clé': ['B', 'C', 'D'],
    'Valeur2': [4, 5, 6]
})
print(df1)
print(df2)

python

Les deux DataFrames résultants se présentent comme suit :

Clé    Valeur1
0     A                1
1     B                2
2     C                3
    Clé    Valeur2
0     B                4
1     C                5
2     D                6

On peut maintenant effectuer un INNER JOIN en utilisant la fonction merge() :

# Jointure interne (INNER JOIN)
result = pd.merge(df1, df2, how='inner', on='Clé')
print(result)

python

La sortie montre que dans cet exemple, seules les lignes avec les clés B et C sont incluses dans le DataFrame final, car elles sont présentes dans les deux DataFrames d’origine.

Clé    Valeur1    Valeur2
0     B                2                4
1     C                3                5

`OUTER JOIN`

Un OUTER JOIN fusionne deux DataFrames en conservant toutes les lignes des deux ensembles. Si une clé ne correspond pas dans l’un des DataFrames, les valeurs manquantes sont remplacées par NaN.

# Jointure externe (OUTER JOIN)
résultat = pd.merge(df1, df2, how='outer', on='Clé')
print(résultat)

python

Comme prévu, le DataFrame issu de la fusion inclut toutes les lignes des deux DataFrames. Pour la clé A, qui n’existe que dans df1, et la clé D, qui n’existe que dans df2, les valeurs manquantes sont insérées comme NaN.

Clé    Valeur1    Valeur2
0     A            1.0            NaN
1     B            2.0            4.0
2     C            3.0            5.0
3     D            NaN            6.0

Note

Toutes les autres variantes connues de JOIN fonctionnent quasiment de la même manière.

Utilisation de `left_on` et `right_on`

Parfois, les deux DataFrames ont des noms de colonnes clés différents. Dans ce cas, vous pouvez utiliser les paramètres left_on et right_on pour indiquer quelles colonnes doivent être utilisées. Pour ce faire, deux nouveaux DataFrames sont d’abord créés :

import pandas as pd
# Création des DataFrames d'exemple
df3 = pd.DataFrame({
    'Clé': ['A', 'B', 'C'],
    'Valeur1': [1, 2, 3]
})
df4 = pd.DataFrame({
    'Clé2': ['B', 'C', 'D'],
    'Valeur2': [4, 5, 6]
})
print(df3)
print(df4)

python

Les deux DataFrames se présentent comme suit :

Clé    Valeur1
0     A                1
1     B                2
2     C                3
    Clé2    Valeur2
0        B                4
1        C                5
2        D                6

Pour effectuer l’opération JOIN avec différentes clés, les paramètres left_on et right_on sont maintenant spécifiés :

# Jointure avec des noms de colonnes de clés différents
result = pd.merge(df3, df4, how='inner', left_on='Clé', right_on='Clé2')
print(result)

python

En utilisant explicitement left_on='Clé' et right_on='Clé2', les colonnes de clés correspondantes sont utilisées pour la connexion.

Clé    Valeur1 Clé2    Valeur2
0    B                2                     B                4
1    C                3                     C                5

Utilisation des index comme clés

Vous pouvez également utiliser les indices des DataFrames comme clés de connexion en définissant les paramètres left_index et right_index à True. Deux nouveaux DataFrames avec des index sont d’abord créés :

df5 = pd.DataFrame({
    'Valeur1': [1, 2, 3]
}, index=['A', 'B', 'C'])
df6 = pd.DataFrame({
    'Valeur2': [4, 5, 6]
}, index=['B', 'C', 'D'])
print(df5)
print(df6)

python

Les DataFrames créées dans le code ci-dessus sont les suivants :

Valeur1
A          1
B          2
C          3
    Valeur2
B          4
C          5
D          6

Une opération JOIN peut maintenant être effectuée sur la base des index :

# Jointure avec les index
result = pd.merge(df5, df6, how='inner', left_index=True, right_index=True)
print(result)

python

Sans surprise, le résultat est un JOIN basé sur les index des DataFrames :

Valeur1  Valeur2
B          2          4
C          3          5

La fonction merge() est un outil essentiel pour combiner efficacement des DataFrames en fonction de différentes règles de jointure. Elle s’inspire des jointures SQL et permet une flexibilité optimale pour manipuler des jeux de données en Python.

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Pandas fillna() : la méthode pour gérer les valeurs NaN dans vos DataFrames

La méthode Pandas fillna() est une fonction qui peut être utilisée pour traiter les valeurs manquantes. Elle offre une grande flexibilité grâce à différents paramètres permettant d’adapter le remplacement des valeurs NaN à des applications individuelles. Découvrez dans cet…

Python Pandas

Fonction Pandas isna() : détecter les valeurs manquantes

La fonction isna() est utile pour identifier les données manquantes dans un DataFrame. Grâce à sa syntaxe simple, elle permet d’obtenir rapidement un aperçu des valeurs manquantes et de prendre les mesures appropriées pour nettoyer les données. Dans cet article, vous apprendrez…

Python Pandas

BEST-BACKGROUNDSShutterstock

La méthode Pandas isin() pour filtrer les DataFrames

Pandas isin() est une fonction utile dans l'analyse de données. Avec sa syntaxe simple et ses nombreuses possibilités d'utilisation, elle permet de vérifier rapidement si certaines valeurs sont présentes dans un DataFrame. Que ce soit pour vérifier des colonnes individuelles,…

Python Pandas

NDAB Creativityshutterstock

La fonction Pandas groupby() expliquée

La fonction Pandas DataFrame.groupby() aide à regrouper les données selon différents critères et à effectuer des agrégations complexes de manière efficace. Utilisée correctement, cette méthode permet d’accélérer les analyses et de les rendre plus claires. Découvrez ici tout ce…

Python Pandas

UndreyShutterstock

Pandas DataFrame[].unique() : déterminer les valeurs uniques

Avec DataFrame[].unique() de Pandas, il est possible d’identifier rapidement les valeurs uniques d’une colonne d’un DataFrame. Cette fonctionnalité est particulièrement utile pour détecter les doublons. En renvoyant directement un tableau NumPy, elle permet de traiter…

Python Pandas

Gorodenkoffshutterstock

Pandas DataFrame.where() : vérifier des conditions au sein d’un DataFrame

Avec DataFrame.where() de Pandas, vous pouvez effectuer des manipulations conditionnelles sur les DataFrames. Cette fonction définit des conditions pour déterminer quelles valeurs doivent être conservées ou remplacées. Elle constitue une solution efficace pour nettoyer, extraire…

Python Pandas

Python Pandas : fusionner des Da­ta­Frames avec merge()

Syntaxe de la fonction Pandas merge()

Pa­ra­mètres per­ti­nents

Ap­pli­ca­tion de Pandas merge()

INNER JOIN (jointure interne)

OUTER JOIN

Uti­li­sa­tion de left_on et right_on

Uti­li­sa­tion des index comme clés

Python Pandas : fusionner des DataFrames avec merge()

Syntaxe de la fonction Pandas `merge()`

Paramètres pertinents

Application de Pandas `merge()`

`INNER JOIN` (jointure interne)

`OUTER JOIN`

Utilisation de `left_on` et `right_on`

Utilisation des index comme clés