Pandas mean() : la fonction pour calculer les valeurs moyennes
La fonction Python Pandas DataFrame.mean() sert à calculer la valeur moyenne sur un ou plusieurs axes d’un DataFrame. Pandas mean() est essentielle pour l’analyse de données, car elle fournit des informations précieuses sur leur distribution et leurs moyennes.
- 3x plus rapide, 60 % d'économie
- Haute disponibilité >99,99 %
- Seulement chez IONOS : jusqu'à 500 Go inclus
La syntaxe de la fonction DataFrame.mean() de Pandas
La fonction Pandas mean() accepte jusqu’à trois paramètres et suit une syntaxe de base simple :
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonQuels sont les paramètres pertinents ?
À l’aide de différents paramètres, le comportement de DataFrame.mean() de Pandas peut être adapté à votre cas d’utilisation personnel.
| Paramètres | Description | Valeur par défaut |
|---|---|---|
axis
|
Détermine si le calcul doit être effectué sur des lignes (axis=0) ou des colonnes (axis=1)
|
0
|
skipna
|
Si True, les valeurs NaN sont ignorées
|
True
|
numeric_only
|
Si True, seuls les types de données numériques sont pris en compte dans le calcul
|
False
|
Application de la fonction mean() de Pandas
La fonction DataFrame.mean() de Pandas peut être appliquée de différentes manières.
Calculer les moyennes pour chaque colonne
Dans les exemples de code ci-dessous, on considère un DataFrame Pandas avec les exemples de données suivants :
import pandas as pd
data = {
'A' : [1, 2, 3, 4],
'B' : [4, 5, 6, 7],
'C' : [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonLe DataFrame résultant est le suivant :
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Pour calculer la valeur moyenne de chaque colonne, on peut utiliser la fonction Pandas mean() avec le paramètre par défaut axis=0 :
column_means = df.mean()
print(column_means)pythonDe cette manière, les moyennes de chaque colonne (A, B et C) sont calculées en divisant la somme des éléments par le nombre d’éléments dans chaque colonne. Le résultat est la Serie Pandas suivante :
A 2.5
B 5.5
C 8.5
dtype: float64Calculer les moyennes pour chaque ligne
Si l’on souhaite plutôt calculer la moyenne pour chaque ligne, il suffit de mettre le paramètre axis à 1 :
row_means = df.mean(axis=1)
print(row_means)pythonLes moyennes de chaque ligne sont calculées en utilisant la fonction mean() de Pandas, en divisant la somme des éléments par le nombre d’éléments dans chaque ligne. L’appel de la fonction donne la sortie suivante :
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64Ignorer les valeurs NaN
Dans l’exemple suivant, nous considérons un autre DataFrame qui contient quelques valeurs NaN (« Not a Number ») :
import pandas as pd
import numpy as np
data = {
'A' : [1, 2, np.nan, 4],
'B' : [4, np.nan, 6, 7],
'C' : [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonLe résultat du code ci-dessus se trouve dans le DataFrame suivant :
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNPour calculer la moyenne en tenant compte des valeurs NaN, on utilise le paramètre skipna. La valeur par défaut est True, ce qui signifie que les valeurs NaN sont automatiquement ignorées par la fonction mean(). Si skipna=False, la moyenne pour chaque colonne contenant au moins une valeur NaN serait également NaN.
mean_with_nan = df.mean()
print(mean_with_nan)pythonL’appel de fonction de Pandas mean() permet alors d’obtenir :
A 2.333333
B 5.666667
C 8.000000
dtype: float64
