Pandas : comprendre l’index DataFrame

Sommaire

L’indexation des DataFrames dans Pandas Python permet un accès efficace et direct à des données spécifiques au sein d’un DataFrame. L’utilisation d’un index de DataFrame Pandas permet de sélectionner des lignes et des colonnes spécifiques, ce qui peut faciliter considérablement l’analyse des données.

Hébergement Web

Hébergement Web de pointe au meilleur prix

3x plus rapide, 60 % d'économie
Haute disponibilité >99,99 %
Seulement chez IONOS : jusqu'à 500 Go inclus

Que se passe-t-il lors de l’indexation ?

L’indexation d’un Pandas DataFrame a pour objectif de faciliter la sélection d’éléments spécifiques du DataFrame. On peut ainsi sélectionner des lignes et des colonnes en fonction de leurs positions ou de leurs étiquettes. Les index peuvent aider à trouver et à traiter les données plus rapidement en fournissant une sorte de « système d’adresses » pour la structure des données.

Syntaxe de Pandas `DataFrame.index`

Vous pouvez voir les valeurs de l’index d’un Pandas DataFrame avec la propriété index. La syntaxe est la suivante :

DataFrame.index

python

Syntaxe d’indexation des DataFrames

Il existe plusieurs façons d’indexer les Pandas DataFrames. La syntaxe d’indexation varie en fonction de l’opération souhaitée.

Indexation avec des labels (noms de colonnes)

Les Pandas DataFrames peuvent utiliser des noms de colonnes pour l’indexation. Pour cela, nous allons d’abord créer un exemple de DataFrame :

import pandas as pd
# Création d'un DataFrame d'exemple
données = {
    'Nom': ['Alice', 'Bob', 'Charlie'],
    'Âge': [25, 30, 35],
    'Ville': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(données)
print(df)

python

Le DataFrame se présente comme suit :

Nom  Âge     Ville
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

Si vous souhaitez accéder à toutes les valeurs d’une colonne spécifique, vous pouvez utiliser son nom en combinaison avec l’opérateur []. Il suffit de spécifier le nom de la colonne dans l’opérateur d’indexation sous la forme d’une chaîne (string) Python :

# Accès à la colonne « Âge »
print(df['Âge'])

python

Vous obtenez comme résultat les différentes valeurs d’âge :

0    25
1    30
2    35
Name: Âge, dtype: int64

Si vous vous intéressez non pas à une, mais à plusieurs colonnes, vous pouvez simplement spécifier leurs noms, séparés par des virgules, dans l’opérateur d’indexation.

Indexation avec `loc[]` (nom de ligne)

Si vous souhaitez accéder à une ligne spécifique de votre DataFrame, vous avez besoin de l’indexeur Pandas loc[]. Vous passez alors soit le nom de la ligne, soit le numéro de la ligne. Dans l’exemple de code suivant, nous considérons le même DataFrame que précédemment ; nous souhaitons extraire la première ligne contenant les valeurs pour « Alice » :

print(df.loc[0])

python

Comme prévu, les valeurs correspondant à « Alice » sont visibles dans le résultat :

Nom         Alice
Âge            25
Ville    New York
Name: 0, dtype: object

Indexation avec `iloc[]` (numéros de lignes et de colonnes)

Une autre façon d’accéder à des éléments spécifiques de votre DataFrame est d’utiliser les numéros de ligne et de colonne. Pour travailler avec l’index numérique du Pandas DataFrame, vous avez besoin de la propriété DataFrame iloc[].

# Accès à la première ligne
print(df.iloc[0])
# Accès à la valeur dans la première ligne et la deuxième colonne
print(df.iloc[0, 1])

python

Les résultats de l’utilisation de iloc[] ressemblent à ceci et renvoient les valeurs attendues :

Nom         Alice
Âge            25
Ville    New York
Name: 0, dtype: object

Indexer des valeurs individuelles

Si vous n’êtes intéressé que par une valeur spécifique de votre DataFrame, l’indexeur at est un moyen efficace d’extraire cette valeur. Définissez simplement la ligne et la colonne dans lesquelles la valeur doit être trouvée, avec leur nom. Ainsi, si le lieu de résidence de Bob est intéressant, nous avons besoin de la colonne « Ville » et de la première ligne :

print(df.at(1, 'Ville'))

python

Comme demandé, la sortie est la ville de résidence de Bob, soit « Los Angeles ».

Vous pouvez également utiliser l’indexeur iat, qui fonctionne de la même manière que at, mais qui attend la position au lieu du nom. Le même résultat que dans l’exemple de code précédent est obtenu avec l’utilisation de iat :

print(df.iat[1, 2])

python

Indexation booléenne

Il est possible d’indexer des sous-ensembles d’un DataFrame en se basant sur une condition particulière. Dans ce cas, on parle d’indexation booléenne. La condition à vérifier doit être évaluée à True ou à False et est placée directement dans l’opérateur d’indexation. Pour n’extraire que les lignes dans lesquelles la personne est âgée de plus de 30 ans, on peut procéder comme suit :

# Sélection des lignes où l'âge est supérieur à 30
print(df[df['Âge'] > 30])

python

La condition ci-dessus ne s’applique qu’à « Charlie », âgé de 35 ans. La sortie est donc la suivante :

Nom  Âge    Ville
2  Charlie   35  Chicago

L’indexation est un outil fondamental en Pandas qui permet d’accéder efficacement aux données et d’extraire des sous-ensembles pertinents pour l’analyse.

Note

Notez que dans l’indexation booléenne, vous pouvez utiliser tous les opérateurs booléens de comparaison qui évaluent soit vers True soit vers False. Pour en savoir plus sur les différents opérateurs Python, consultez notre article de guide sur le sujet.

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Pandas iterrows() : comment itérer sur les DataFrames ?

Pandas DataFrame.iterrows() est une fonction permettant d’itérer sur les lignes d’un DataFrame. Elle est particulièrement utilisée lorsqu’un traitement ligne par ligne est nécessaire, par exemple lors de l’exécution de calculs. Apprenez ici comment travailler avec la fonction…

Python Pandas

Mr. Kosalshutterstock

Python : vue d’ensemble de Pandas any()

La méthode Pandas DataFrame any() est un outil efficace pour vérifier rapidement si au moins une valeur vraie (True) est présente dans un axe donné d’un DataFrame. Elle est particulièrement utile pour l’analyse et la validation des données. Nous vous montrons comment utiliser…

Python Pandas

ESB Professionalshutterstock

Pandas DataFrame : manipuler des tableaux en Python de façon efficace et intuitive

Le module Pandas est l’un des outils les plus puissants pour la manipulation de données en Python. L’une de ses structures de données centrales est le DataFrame, qui permet de manipuler des données structurées en deux dimensions de manière efficace et claire. Nous vous expliquons…

Python Pandas

ra2 studioShutterstock

Python : Pandas, la bibliothèque pour l’analyse et la manipulation de données

La bibliothèque Python Pandas permet de traiter, manipuler et analyser des ensembles de données de manière simple et efficace, ce qui se révèle particulièrement utile pour les data analysts, les chercheurs, ou toute personne travaillant avec des données. Découvrez dans cet…

Python
Python Pandas

UndreyShutterstock

Python Pandas : la propriété iloc[]

Lorsque vous travaillez avec des DataFrames dans Python Pandas, il peut arriver que toutes les lignes ou colonnes d’un DataFrame ne soient pas pertinentes pour l’analyse des données. La propriété iloc[] des DataFrames Pandas est donc un outil utile pour sélectionner les lignes ou…

Python Pandas

REDPIXEL.PLShutterstock

Pandas mean() : la fonction pour calculer les valeurs moyennes

La fonction mean()Pandas permet de calculer des moyennes au sein d’un DataFrame. Elle offre une certaine flexibilité pour gérer les valeurs NaN et permet de calculer des moyennes tant sur les lignes que sur les colonnes. Dans cet article, vous découvrirez les paramètres que la…

Python Pandas

Pandas : com­prendre l’index DataFrame

Que se passe-t-il lors de l’in­dexa­tion ?

Syntaxe de Pandas DataFrame.index

Syntaxe d’in­dexa­tion des Da­ta­Frames

In­dexa­tion avec des labels (noms de colonnes)

In­dexa­tion avec loc[] (nom de ligne)

In­dexa­tion avec iloc[] (numéros de lignes et de colonnes)

Indexer des valeurs in­di­vi­duelles

In­dexa­tion booléenne

Pandas : comprendre l’index DataFrame

Que se passe-t-il lors de l’indexation ?

Syntaxe de Pandas `DataFrame.index`

Syntaxe d’indexation des DataFrames

Indexation avec des labels (noms de colonnes)

Indexation avec `loc[]` (nom de ligne)

Indexation avec `iloc[]` (numéros de lignes et de colonnes)

Indexer des valeurs individuelles

Indexation booléenne