Nettoyer des données avec Pandas dropna()

Sommaire

La fonction Python Pandas DataFrame.dropna() sert à supprimer d’un DataFrame toutes les lignes ou colonnes qui contiennent des valeurs manquantes (NaN). Elle joue donc un rôle crucial, en particulier dans la préparation et le nettoyage des données.

Hébergement Web

Hébergement Web de pointe au meilleur prix

3x plus rapide, 60 % d'économie
Haute disponibilité >99,99 %
Seulement chez IONOS : jusqu'à 500 Go inclus

Syntaxe de Pandas `dropna()`

La fonction dropna() prend jusqu’à cinq paramètres. La syntaxe de base est très simple :

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False, ignore_index=False)

python

Paramètres pertinents

Le comportement de la fonction Pandas DataFrame.dropna() peut être influencé par les paramètres passés. Les paramètres les plus importants sont résumés dans le tableau suivant :

Paramètres	Description	Valeur par défaut
`axis`	Détermine si les lignes (0 ou `index`) ou les colonnes (1 ou `columns`) sont supprimées	0
`how`	Indique si toutes les valeurs (`all`) ou seulement certaines (`any`) doivent être NaN	`any`
`thresh`	Indique le nombre minimum de valeurs non-NaN qu’une ligne ou une colonne doit avoir pour ne pas être supprimée	`None`
`subset`	Détermine quelles lignes ou colonnes doivent être considérées ; si `None`, toutes les colonnes sont prises en compte	`None`
`inplace`	Détermine si l’opération est effectuée dans le DataFrame d’origine	`False`
`ignore_index`	Si `True`, les axes restants seront étiquetés de 0 à n-1	`False`

Application de Pandas `DataFrame.dropna()`

Pandas dropna() est nécessaire pour nettoyer les données avant une analyse, en supprimant les lignes ou les colonnes avec des valeurs manquantes. Cela aide à éviter les biais dans les analyses statistiques. Cette fonction facilite également la création de graphiques et de rapports, car les valeurs manquantes peuvent dans certains cas entraîner des représentations erronées.

Suppression des lignes avec des valeurs manquantes

Dans l’exemple de code suivant, nous considérons un DataFrame qui contient des valeurs NaN :

import pandas as pd
import numpy as np
# Création d'un DataFrame avec des données d'exemple
données = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(données)
print(df)

python

Le DataFrame se présente comme suit :

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
2  NaN  NaN  11
3  4.0  8.0  12

Dans l’étape suivante, nous appliquons la fonction Pandas dropna() :

## Suppression de toutes les lignes contenant au moins une valeur NaN
df_cleaned = df.dropna()
print(df_cleaned)

python

L’exécution du code donne le résultat suivant :

A    B   C
0  1.0  5.0   9
3  4.0  8.0  12

Seules les lignes d’index 0 et 3 du DataFrame sont encore présentes, car toutes les autres lignes contenaient des valeurs NaN.

Suppression des colonnes avec des valeurs manquantes

La suppression des colonnes avec des valeurs manquantes fonctionne de la même manière. Pour cela, il suffit de définir le paramètre axis de la fonction à 1 :

## Suppression de toutes les colonnes contenant au moins une valeur NaN
df_cleaned_columns = df.dropna(axis=1)
print(df_cleaned_columns)

python

Dans le résultat, on voit qu’il ne reste que la colonne « C », car elle est la seule à ne pas contenir de valeur NaN :

Application de `thresh`

Si vous ne voulez supprimer que les lignes qui ont moins de deux valeurs non-NaN, vous pouvez utiliser le paramètre thresh :

## Suppression de toutes les lignes contenant moins de deux valeurs non-NaN
df_thresh = df.dropna(thresh=2)
print(df_thresh)

python

Après l’exécution du code, la première ligne est désormais présente, car elle contient deux valeurs non-NaN :

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
3  4.0  8.0  12

Utilisation de `subset`

Le paramètre subset est utilisé pour spécifier les colonnes spécifiques dans lesquelles les valeurs manquantes doivent être recherchées. Seules les lignes qui ont des valeurs manquantes dans les colonnes spécifiées seront supprimées.

## Suppression de toutes les lignes contenant un NaN dans la colonne « A » :
df_subset = df.dropna(subset=['A'])
print(df_subset)

python

On remarque que seule la ligne d’index 2 a été supprimée, car elle contenait une valeur NaN dans la colonne « A ». Les autres lignes sont conservées, même si elles contiennent des NaN dans d’autres colonnes.

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
3  4.0  8.0  12

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Pandas iterrows() : comment itérer sur les DataFrames ?

Pandas DataFrame.iterrows() est une fonction permettant d’itérer sur les lignes d’un DataFrame. Elle est particulièrement utilisée lorsqu’un traitement ligne par ligne est nécessaire, par exemple lors de l’exécution de calculs. Apprenez ici comment travailler avec la fonction…

Python Pandas

Mr. Kosalshutterstock

Pandas : comprendre l’index DataFrame

L’indexation des Pandas DataFrames est un outil puissant pour travailler efficacement avec les données. Différentes méthodes vous permettent d’accéder de manière ciblée aux données et aux sous-ensembles de votre DataFrame afin de les traiter. Découvrez ce qu’est l’index Pandas…

Python Pandas

Mr. Kosalshutterstock

Python : vue d’ensemble de Pandas any()

La méthode Pandas DataFrame any() est un outil efficace pour vérifier rapidement si au moins une valeur vraie (True) est présente dans un axe donné d’un DataFrame. Elle est particulièrement utile pour l’analyse et la validation des données. Nous vous montrons comment utiliser…

Python Pandas

ESB Professionalshutterstock

Pandas DataFrame : manipuler des tableaux en Python de façon efficace et intuitive

Le module Pandas est l’un des outils les plus puissants pour la manipulation de données en Python. L’une de ses structures de données centrales est le DataFrame, qui permet de manipuler des données structurées en deux dimensions de manière efficace et claire. Nous vous expliquons…

Python Pandas

UndreyShutterstock

Python Pandas : la propriété iloc[]

Lorsque vous travaillez avec des DataFrames dans Python Pandas, il peut arriver que toutes les lignes ou colonnes d’un DataFrame ne soient pas pertinentes pour l’analyse des données. La propriété iloc[] des DataFrames Pandas est donc un outil utile pour sélectionner les lignes ou…

Python Pandas

REDPIXEL.PLShutterstock

Pandas mean() : la fonction pour calculer les valeurs moyennes

La fonction mean()Pandas permet de calculer des moyennes au sein d’un DataFrame. Elle offre une certaine flexibilité pour gérer les valeurs NaN et permet de calculer des moyennes tant sur les lignes que sur les colonnes. Dans cet article, vous découvrirez les paramètres que la…

Python Pandas

Nettoyer des données avec Pandas dropna()

Syntaxe de Pandas dropna()

Paramètres pertinents

Application de Pandas DataFrame.dropna()

Suppression des lignes avec des valeurs manquantes

Suppression des colonnes avec des valeurs manquantes

Application de thresh

Utilisation de subset

Syntaxe de Pandas `dropna()`

Application de Pandas `DataFrame.dropna()`

Application de `thresh`

Utilisation de `subset`