Pandas read_csv() : lire des fichiers CSV dans Python

Sommaire

Python Pandas read_csv() est l’une des méthodes les plus utilisées pour charger des données depuis des fichiers CSV et les stocker dans un DataFrame. Les fichiers CSV (Comma-separated Values) sont un format largement utilisé pour stocker des données tabulaires et sont supportés par de nombreux programmes.

Hébergement Web

Hébergement Web de pointe au meilleur prix

3x plus rapide, 60 % d'économie
Haute disponibilité >99,99 %
Seulement chez IONOS : jusqu'à 500 Go inclus

Syntaxe de Python Pandas `read_csv()`

La fonction pandas.read_csv() crée un Pandas DataFrame basé sur un fichier CSV. Elle peut recevoir une grande variété de paramètres qui spécifient le comportement de la fonction. Par souci de clarté, nous n’aborderons ici que les arguments les plus importants et les plus fréquemment utilisés. Pour une liste plus détaillée, consultez la documentation Pandas dédiée.

La syntaxe de base de la fonction est simple et ressemble à ceci :

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Paramètres pertinents

Vous trouverez ci-dessous un aperçu des paramètres les plus importants :

Paramètres	Responsabilité	Valeur par défaut
`filepath_or_buffer`	C’est une chaîne Python (chemin d’accès au fichier) ou un tampon de fichier comme une URL.
`sep`	Il s’agit du séparateur entre les valeurs.	`,`
`header`	Indique quelle ligne est utilisée comme en-tête.	`infer` (première ligne)
`names`	Si `header=None` est défini, vous pouvez utiliser `names` pour spécifier une liste Python de noms de colonnes.
`index_col`	Détermine quelle colonne sera utilisée comme index.	`None`
`usecols`	Ce paramètre vous permet de sélectionner les colonnes que vous souhaitez charger dans le DataFrame.	`None`
`dtype`	Indique le type de données des colonnes.	`None`

Guide pas à pas pour accéder aux fichiers CSV

En utilisant pandas.read_csv(), vous pouvez transférer des données depuis des fichiers CSV en quelques étapes seulement dans Python.

Dans les exemples qui suivent, nous allons travailler avec un fichier CSV selon le modèle suivant :

1,Maxime Mortier,35,Paris,50000
2,Anna Frelon,29,Lyon,62000
3,Pierre Corbet,41,Marseille,58000
4,Lisa Beaufort,33,Toulouse,49000
5,Tom Verron,28,Bordeaux,52000

Étape 1 : importer la bibliothèque Pandas

Dans un premier temps, vous devez importer la bibliothèque Pandas dans votre script Python.

import pandas as pd

python

Étape 2 : charger le fichier CSV

Vous pouvez maintenant charger votre fichier CSV avec la fonction Python Pandas read_csv(). Pour cela, il suffit de passer le chemin de fichier à la fonction. Dans l’exemple de code suivant, nous considérons un fichier nommé data.csv, qui est enregistré dans le même répertoire que le script :

df = pd.read_csv(data.csv')

python

Le code sauvegarde le fichier dans un objet DataFrame df, avec lequel vous pouvez maintenant continuer à travailler. Pandas interprète automatiquement la première ligne comme des en-têtes de colonne, sauf indication contraire.

Étape 3 : afficher le fichier CSV

Pour s’assurer que le fichier a été correctement chargé, il est utile de visualiser les premières lignes du DataFrame. Pour cela, vous pouvez utiliser la fonction DataFrame.head(). Elle affiche par défaut les cinq premières lignes du DataFrame. Cela permet d’avoir un aperçu rapide de la structure des données :

print(df.head())

python

La sortie est alors la suivante :

0 1 Max Mortier 35 Paris 50000
1 2 Anna Frelon 29 Lyon 62000
2 3 Pierre Corbet 41 Marseille 58000
3 4 Lisa Beaufort 33 Toulouse 49000
4 5 Tom Verron 28 Bordeaux 52000

Étape 4 : modifier le nom des colonnes (facultatif)

Si votre fichier CSV n’a pas de ligne d’en-tête, vous pouvez définir manuellement les noms des colonnes :

df = pd.read_csv('data.csv', header=None, names=['Colonne1', 'Colonne2', 'Colonne3', 'Colonne4', 'Colonne5'])

python

Dans cet exemple, les colonnes ont été nommées manuellement Colonne1, Colonne2, Colonne3, Colonne4 et Colonne5. Le code renvoie le résultat :

Colonne1  Colonne2       Colonne3         Colonne4  Colonne5     Colonne6
0         1              Max Mortier      35        Paris        50000
1         2              Anna Frelon      29        Lyon         62000
2         3              Pierre Corbet    41        Marseille    58000
3         4              Lisa Beaufort    33        Toulouse     49000
4         5              Tom Verron       28        Bordeaux     52000

Note

Le fichier CSV utilisé comme exemple n’avait pas beaucoup de données et était donc plutôt petit. Cependant, si ce n’est pas le cas et que vous avez un fichier CSV très volumineux, vous devez lire le fichier par morceaux afin d’éviter les problèmes de mémoire. Pour cela, vous pouvez utiliser le paramètre pandas.read_csv()chunksize, qui indique combien de lignes doivent être lues par itération. Vous pouvez utiliser Python loop for pour itérer sur les morceaux créés.

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Pandas iterrows() : comment itérer sur les DataFrames ?

Pandas DataFrame.iterrows() est une fonction permettant d’itérer sur les lignes d’un DataFrame. Elle est particulièrement utilisée lorsqu’un traitement ligne par ligne est nécessaire, par exemple lors de l’exécution de calculs. Apprenez ici comment travailler avec la fonction…

Python Pandas

Mr. Kosalshutterstock

Pandas : comprendre l’index DataFrame

L’indexation des Pandas DataFrames est un outil puissant pour travailler efficacement avec les données. Différentes méthodes vous permettent d’accéder de manière ciblée aux données et aux sous-ensembles de votre DataFrame afin de les traiter. Découvrez ce qu’est l’index Pandas…

Python Pandas

BEST-BACKGROUNDSShutterstock

Nettoyer des données avec Pandas dropna()

La fonction Pandas DataFrame.dropna() est un outil puissant pour nettoyer les enregistrements en supprimant efficacement les valeurs manquantes. Elle offre une flexibilité grâce à différents paramètres, permettant aux programmeurs d’adapter le nettoyage des données selon leurs…

Python Pandas

Mr. Kosalshutterstock

Python : vue d’ensemble de Pandas any()

La méthode Pandas DataFrame any() est un outil efficace pour vérifier rapidement si au moins une valeur vraie (True) est présente dans un axe donné d’un DataFrame. Elle est particulièrement utile pour l’analyse et la validation des données. Nous vous montrons comment utiliser…

Python Pandas

ESB Professionalshutterstock

Pandas DataFrame : manipuler des tableaux en Python de façon efficace et intuitive

Le module Pandas est l’un des outils les plus puissants pour la manipulation de données en Python. L’une de ses structures de données centrales est le DataFrame, qui permet de manipuler des données structurées en deux dimensions de manière efficace et claire. Nous vous expliquons…

Python Pandas

UndreyShutterstock

Python Pandas : la propriété iloc[]

Lorsque vous travaillez avec des DataFrames dans Python Pandas, il peut arriver que toutes les lignes ou colonnes d’un DataFrame ne soient pas pertinentes pour l’analyse des données. La propriété iloc[] des DataFrames Pandas est donc un outil utile pour sélectionner les lignes ou…

Python Pandas

Pandas read_csv() : lire des fichiers CSV dans Python

Syntaxe de Python Pandas read_csv()

Paramètres pertinents

Guide pas à pas pour accéder aux fichiers CSV

Étape 1 : importer la bibliothèque Pandas

Étape 2 : charger le fichier CSV

Étape 3 : afficher le fichier CSV

Étape 4 : modifier le nom des colonnes (facultatif)

Syntaxe de Python Pandas `read_csv()`