La fonction Python Pandas DataFrame.mean() sert à calculer la valeur moyenne sur un ou plusieurs axes d’un DataFrame. Pandas mean() est essentielle pour l’analyse de données, car elle fournit des informations précieuses sur leur distribution et leurs moyennes.

Hébergement Web
Hébergement Web flexible, performant et sûr
  • Certificat SSL et protection DDoS
  • Sauvegarde et restauration des données
  • Assistance 24/7 et conseiller personnel

La syntaxe de la fonction DataFrame.mean() de Pandas

La fonction Pandas mean() accepte jusqu’à trois paramètres et suit une syntaxe de base simple :

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Quels sont les paramètres pertinents ?

À l’aide de différents paramètres, le comportement de DataFrame.mean() de Pandas peut être adapté à votre cas d’utilisation personnel.

Paramètres Description Valeur par défaut
axis Détermine si le calcul doit être effectué sur des lignes (axis=0) ou des colonnes (axis=1) 0
skipna Si True, les valeurs NaN sont ignorées True
numeric_only Si True, seuls les types de données numériques sont pris en compte dans le calcul False

Application de la fonction mean() de Pandas

La fonction DataFrame.mean() de Pandas peut être appliquée de différentes manières.

Calculer les moyennes pour chaque colonne

Dans les exemples de code ci-dessous, on considère un DataFrame Pandas avec les exemples de données suivants :

import pandas as pd
data = {
    'A' : [1, 2, 3, 4],
    'B' : [4, 5, 6, 7],
    'C' : [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Le DataFrame résultant est le suivant :

A     B     C
0  1     4     7
1  2     5     8
2  3     6     9
3  4     7    10

Pour calculer la valeur moyenne de chaque colonne, on peut utiliser la fonction Pandas mean() avec le paramètre par défaut axis=0 :

column_means = df.mean()
print(column_means)
python

De cette manière, les moyennes de chaque colonne (A, B et C) sont calculées en divisant la somme des éléments par le nombre d’éléments dans chaque colonne. Le résultat est la Serie Pandas suivante :

A 2.5
B 5.5
C 8.5
dtype: float64

Calculer les moyennes pour chaque ligne

Si l’on souhaite plutôt calculer la moyenne pour chaque ligne, il suffit de mettre le paramètre axis à 1 :

row_means = df.mean(axis=1)
print(row_means)
python

Les moyennes de chaque ligne sont calculées en utilisant la fonction mean() de Pandas, en divisant la somme des éléments par le nombre d’éléments dans chaque ligne. L’appel de la fonction donne la sortie suivante :

0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64

Ignorer les valeurs NaN

Dans l’exemple suivant, nous considérons un autre DataFrame qui contient quelques valeurs NaN (« Not a Number ») :

import pandas as pd
import numpy as np
data = {
    'A' : [1, 2, np.nan, 4],
    'B' : [4, np.nan, 6, 7],
    'C' : [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

Le résultat du code ci-dessus se trouve dans le DataFrame suivant :

A     B     C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Pour calculer la moyenne en tenant compte des valeurs NaN, on utilise le paramètre skipna. La valeur par défaut est True, ce qui signifie que les valeurs NaN sont automatiquement ignorées par la fonction mean(). Si skipna=False, la moyenne pour chaque colonne contenant au moins une valeur NaN serait également NaN.

mean_with_nan = df.mean()
print(mean_with_nan)
python

L’appel de fonction de Pandas mean() permet alors d’obtenir :

A 2.333333
B 5.666667
C 8.000000
dtype: float64
Cet article vous a-t-il été utile ?
Aller au menu principal