Pandas DataFrame[].unique() : déterminer les valeurs uniques
Vous pouvez utiliser la fonction unique()
pour les DataFrames Python Pandas afin de déterminer les valeurs uniques dans une colonne. Cela permet d’obtenir efficacement un aperçu des différentes valeurs au sein d’un ensemble de données.
- Certificat SSL et protection DDoS
- Sauvegarde et restauration des données
- Assistance 24/7 et conseiller personnel
La syntaxe de la fonction DataFrame[].unique()
de Pandas
La syntaxe de base pour l’utilisation de Pandas unique()
est simple, car la fonction ne prend aucun paramètre :
DataFrame['nom_colonne'].unique()
pythonNotez que pour les DataFrames de Pandas, unique()
ne peut s’appliquer qu’à une colonne spécifique. Vous devez donc la spécifier au préalable. La fonction unique()
vous renvoie un tableau Numpy avec les valeurs uniques dans l’ordre d’apparition ; il n’y a pas de tri des valeurs.
Si vous vous intéressez depuis longtemps à la programmation Python, vous connaissez certainement aussi l’équivalent Numpy de la fonction unique()
de Pandas. La variante de Pandas est cependant préférable pour des raisons d’efficacité.
Application de la fonction unique()
de Pandas
Sur les DataFrames Pandas, vous pouvez utiliser unique()
en spécifiant d’abord la colonne dans laquelle vous souhaitez rechercher des valeurs uniques.
Dans l’exemple suivant, nous considérons un DataFrame contenant des informations sur différentes personnes.
import pandas as pd
# Créer un exemple de DataFrame
data = {
'Nom' : ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
'Âge' : [24, 27, 22, 32, 29],
'Ville' : ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}
df = pd.DataFrame(data)
print(df)
pythonLe DataFrame se présente alors comme suit :
Nom Âge Ville
0 Alice 24 New York
1 Bob 27 Los Angeles
2 Charlie 22 New York
3 David 32 Chicago
4 Edward 29 Los Angeles
Il s’agit maintenant de déterminer les villes dans lesquelles ces personnes vivent. Pour cela, chaque ville ne doit être listée qu’une seule fois. La fonction unique()
de Pandas est appliquée à la colonne du DataFrame qui contient les villes :
# Trouver les villes uniques dans la colonne « Ville »
unique_cities = df['Ville'].unique()
print(unique_cities)
pythonLe résultat est un tableau Numpy qui contient chaque ville une fois. Cela montre que les personnes proviennent de trois villes différentes : New York, Los Angeles et Chicago.
['New York' 'Los Angeles' 'Chicago']