Pandas loc[] : sélectionner des données dans un DataFrame

Sommaire

Pandas DataFrame.loc[] est une propriété DataFrame dans la bibliothèque Python Pandas utilisée pour sélectionner des données dans un DataFrame en fonction d’étiquettes. Ainsi, les lignes et les colonnes d’un DataFrame peuvent être extraites de manière ciblée.

Hébergement Web

Hébergement Web de pointe au meilleur prix

3x plus rapide, 60 % d'économie
Haute disponibilité >99,99 %
Seulement chez IONOS : jusqu'à 500 Go inclus

Syntaxe de Pandas `loc[]`

Passez en paramètre à loc[] la sélection d’étiquettes désirée. Pour le reste, la syntaxe est très simple :

DataFrame.loc[selection]

python

Avec Pandas loc[], la sélection est principalement basée sur les étiquettes. Le paramètre passé peut donc être un label unique, une liste ou une plage d’étiquettes. Il est également possible d’utiliser des tableaux booléens.

`loc[]` vs. `iloc[]`

Alors que Pandas DataFrame.loc[] sélectionne des données basées sur des étiquettes, DataFrame.iloc, dont la consonance est similaire, est utilisé pour sélectionner des données basées sur des positions entières.

L’exemple suivant permet d’illustrer les différences entre ces deux paramètres. Tout d’abord, on crée un Pandas DataFrame :

import pandas as pd
# Exemple de DataFrame
data = {'Nom': ['Anna', 'Bob', 'Chris'], 'Âge': [23, 35, 30]}
df = pd.DataFrame(data)
print(df)

python

Le DataFrame résultant ressemble à ce qui suit :

Nom  Âge
0  Anna    23
1    Bob    35
2 Chris    30

Pour extraire « Anna » du DataFrame, Pandas loc[] et iloc[] peuvent être utilisés. Les deux méthodes donnent le même résultat, mais loc[] utilise un index basé sur les étiquettes alors que iloc[] utilise un index numérique.

# Utilisation de loc pour trouver l’étiquette
print(df.loc[0, 'Nom'])  # Sortie : 'Anna'
# Utilisation de iloc pour trouver la position
print(df.iloc[0, 0])  # Sortie : 'Anna'

python

Application de Pandas `DataFrame.loc[]`

Pandas loc[] vous aide à extraire des sous-ensembles de votre DataFrame. Il peut s’agir d’une ou plusieurs lignes ou colonnes : en effet, loc[] peut être utilisé dans différents cas.

Sélection d’une seule ligne

Nous allons maintenant examiner un exemple de DataFrame avec les données suivantes :

import pandas as pd
data = {
    'Nom': ['Anna', 'Bob', 'Chris'],
    'Âge': [23, 35, 30],
    'Ville': ['Paris', 'Lyon', 'Marseille']
}
df = pd.DataFrame(data)
print(df)

python

Le DataFrame résultant est le suivant :

Nom  Âge     Ville
0   Anna   23     Paris
1    Bob   35      Lyon
2  Chris   30  Marseille

Pour sélectionner les données de la ligne avec l’index 1 (correspondant à Bob), on utilise Pandas loc[] :

bob_data = df.loc[1]
print(bob_data)

python

Le résultat est conforme aux attentes :

Nom       Bob
Âge        35
Ville    Lyon
Name: 1, dtype: object

Sélection de plusieurs colonnes

Pandas DataFrame.loc[] est utile pour sélectionner un sous-ensemble de colonnes. En utilisant :, on sélectionne toutes les lignes. Le code suivant sélectionne les colonnes « Nom » et « Ville » pour toutes les lignes :

nom_ville = df.loc[:, ['Nom', 'Ville']]
print(nom_ville)

python

Le résultat est un sous-ensemble du DataFrame original :

Nom      Ville
0   Anna     Paris
1    Bob      Lyon
2  Chris  Marseille

Sélection conditionnelle

Avec Pandas loc[], il est également possible de filtrer les lignes en fonction d’une condition. Pour cela, il suffit d’utiliser les opérateurs booléens de comparaison. Par exemple, dans le code suivant, toutes les personnes âgées de plus de 25 ans doivent être filtrées :

older_than_25 = df.loc[df['Âge'] > 25]
print(older_than_25)

python

Le code ci-dessus renvoie le DataFrame suivant, qui ne contient plus que les données des personnes âgées de plus de 25 ans :

Nom  Âge        Ville
1    Bob    35        Lyon
2 Chris    30  Marseille

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Pandas DataFrame : manipuler des tableaux en Python de façon efficace et intuitive

Le module Pandas est l’un des outils les plus puissants pour la manipulation de données en Python. L’une de ses structures de données centrales est le DataFrame, qui permet de manipuler des données structurées en deux dimensions de manière efficace et claire. Nous vous expliquons…

Python Pandas

Mr. Kosalshutterstock

Pandas : comprendre l’index DataFrame

L’indexation des Pandas DataFrames est un outil puissant pour travailler efficacement avec les données. Différentes méthodes vous permettent d’accéder de manière ciblée aux données et aux sous-ensembles de votre DataFrame afin de les traiter. Découvrez ce qu’est l’index Pandas…

Python Pandas

BEST-BACKGROUNDSShutterstock

Pandas iterrows() : comment itérer sur les DataFrames ?

Pandas DataFrame.iterrows() est une fonction permettant d’itérer sur les lignes d’un DataFrame. Elle est particulièrement utilisée lorsqu’un traitement ligne par ligne est nécessaire, par exemple lors de l’exécution de calculs. Apprenez ici comment travailler avec la fonction…

Python Pandas

ra2 studioShutterstock

Pandas Table : formater les DataFrames en tableaux

L’affichage d’un Python Pandas DataFrame sous forme de tableau est une tâche essentielle qui peut être réalisée de nombreuses manières différentes, en fonction des besoins. Qu’il s’agisse d’une simple sortie de console, d’un tableau HTML formaté ou d’une visualisation dans des…

Python Pandas

Mr. Kosalshutterstock

Python : vue d’ensemble de Pandas any()

La méthode Pandas DataFrame any() est un outil efficace pour vérifier rapidement si au moins une valeur vraie (True) est présente dans un axe donné d’un DataFrame. Elle est particulièrement utile pour l’analyse et la validation des données. Nous vous montrons comment utiliser…

Python Pandas

Ranjit Karmakarshutterstock

Présentation de Pandas DataFrame describe()

La méthode Pandas DataFrame.describe() offre un moyen rapide de générer un résumé statistique complet de données numériques dans un DataFrame. Grâce à la possibilité d’ajuster les quantiles et de spécifier les types de données, elle est extrêmement flexible et adaptée à de…

Python Pandas

Pandas loc[] : sé­lec­tion­ner des données dans un DataFrame

Syntaxe de Pandas loc[]

loc[] vs. iloc[]

Ap­pli­ca­tion de Pandas DataFrame.loc[]

Sélection d’une seule ligne

Sélection de plusieurs colonnes

Sélection con­di­tion­nelle

Pandas loc[] : sélectionner des données dans un DataFrame

Syntaxe de Pandas `loc[]`

`loc[]` vs. `iloc[]`

Application de Pandas `DataFrame.loc[]`

Sélection conditionnelle