R carré (R2) est une mesure d’erreur sta­tis­tique par­ti­cu­liè­re­ment utilisée pour la mesure de la qualité des ré­gres­sions linéaires. En pro­gram­ma­tion R , il peut être calculé en faisant appel à une fonction simple.

Pourquoi R2 en R est-il important ?

R carré est une mesure sta­tis­tique qui mesure la qualité de l’ajus­te­ment d’un modèle de ré­gres­sion linéaire aux données. Il accepte des valeurs entre 0 et 1, et constitue une mesure centrale pour la qualité des modèles de ré­gres­sion.

Une in­ter­pré­ta­tion de R carré indique la densité des données observées sur une ligne de ré­gres­sion calculée. Dans ce cas, plus la valeur de R carré est élevée, plus le modèle in­ter­prète bien les données. Une valeur de R carré plus basse démontre un ajus­te­ment inap­pro­prié du modèle.

Conseil

Avec R, vous pouvez pro­gram­mer une large gamme d’ap­pli­ca­tions dif­fé­rentes. Si vous souhaitez héberger l’une d’entre elles, disposer de votre propre hé­ber­ge­ment Web est la solution. Chez IONOS, vous pouvez louer un hé­ber­ge­ment Web adapté à vos exigences in­di­vi­duelles grâce à plusieurs tarifs.

Le R carré en R et la ré­gres­sion linéaire

R carré en R est souvent utilisé dans le contexte de la ré­gres­sion linéaire. R étant un langage de pro­gram­ma­tion souvent employé dans le domaine des sta­tis­tiques, il n’est pas étonnant que diverses fonctions R per­met­tent d’aider au calcul :

x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 5, 4, 5)
# Régression linéaire
model <- lm(y ~ x)
R

Dans l’exemple de code ci-dessus, dans un premier temps, deux vecteurs R nommés x et y sont créés, qui con­tien­nent les ensembles de données servant à l’exécution de la ré­gres­sion linéaire. Dans ce cas, la variable dé­pen­dante est la variable y. Le modèle de ré­gres­sion est ensuite calculé avec la fonction R « lm() » et en­re­gis­tré dans la variable model.

Calculate R-squared in R : calculer R2 en R

La valeur de R2 en R peut être obtenue à l’aide d’une fonction. Pour ce faire, vous n’avez besoin d’aucune con­nais­sance ma­thé­ma­tique ap­pro­fon­die, mais seulement de savoir comment utiliser la bonne fonction. C’est même un jeu d’enfant lorsque vous avez déjà les bases de la pro­gram­ma­tion.

La fonction qui peut être utilisée pour calculer la mesure sta­tis­tique s’appelle « summary() ». Comme son nom l’indique, elle ré­ca­pi­tule l’analyse de ré­gres­sion, y compris la valeur de R carré. L’exemple de code suivant, qui s’appuie sur la ré­gres­sion linéaire déjà calculée, illustre l’uti­li­sa­tion de la fonction « summary() » :

# Appeler la valeur de R carré
summary(model)$r.squared
R

Avec ce code, vous pouvez extraire la valeur de R carré du modèle de ré­gres­sion linéaire lm_model. La valeur de R carré indique dans quelle mesure le modèle in­ter­prète cor­rec­te­ment la variance dans la variable dé­pen­dante y, en se basant sur la variable in­dé­pen­dante x.

Dans l’exemple de code ci-dessus, la fonction « summary() » est utilisée avec un modèle de ré­gres­sion déjà calculé. Si­mul­ta­né­ment, l’opérateur R « $ » est utilisé afin d’afficher uni­que­ment la valeur de R carré parmi les valeurs qui re­tour­nent l’appel de la fonction. Dans notre exemple, la valeur est de 0,6.

Conseil

Vous souhaitez plonger plus pro­fon­dé­ment dans l’univers de la pro­gram­ma­tion R ? Des articles de notre guide vous y aident :

R-squared in R : in­ter­pré­ta­tion de la valeur

Une fois la valeur de R carré dé­ter­mi­née, il reste à savoir comment in­ter­pré­ter le résultat. Pour ce faire, vous devez trouver l’in­ter­valle spé­ci­fique qui peut accepter la valeur. Comme indiqué pré­cé­dem­ment, la plage de valeurs de la valeur de R2 se situe entre 0 et 1.

  • 0 (aucun ajus­te­ment) : une valeur de R carré de 0 signifie que le modèle n’est glo­ba­le­ment pas adapté aux données. Dans ce cas, il n’existe aucune relation linéaire entre les variables re­cher­chées.
  • 1 (ajus­te­ment parfait) : une valeur de R carré de 1 indique que toutes les ob­ser­va­tions sont par­fai­te­ment adaptées à la ligne de ré­gres­sion. C’est ex­trê­me­ment rare et peut parfois indiquer un su­ra­jus­te­ment.
  • 0,7 à 0,9 (bon ajus­te­ment) : une valeur de R carré dans cet in­ter­valle indique que le modèle est très pro­ba­ble­ment suf­fi­sam­ment bien décrit par les données.
  • 0,5 à 0,7 (ajus­te­ment ac­cep­table) : une valeur de R carré située dans la plage de 0,5 à 0,7 est ac­cep­table, mais indique toutefois qu’il reste une marge de pro­gres­sion. Le modèle cor­res­pon­dant peut donc être encore amélioré
  • Moins de 0,5 (ajus­te­ment inap­pro­prié) : une valeur de R carré in­fé­rieure à 0,5 indique que le modèle calculé ne décrit pas suf­fi­sam­ment pré­ci­sé­ment les données sous-jacentes. Dans ce cas, le modèle doit im­pé­ra­ti­ve­ment être ajusté afin de recevoir des résultats per­ti­nents.
Note

Une valeur de R carré su­pé­rieure ne suffit pas à elle seule à juger de la qualité de votre modèle. D’autres facteurs, comme la va­li­da­tion du modèle, l’analyse des résidus et l’ajus­te­ment aux exigences spé­ci­fiques des données, doivent également être respectés dans le cadre de la dé­ter­mi­na­tion de la qualité d’un modèle de ré­gres­sion. La fonction « summary() » déjà présentée ci-dessus fournit quelques in­di­ca­teurs sup­plé­men­taires que vous pouvez invoquer lors de l’éva­lua­tion.

Aller au menu principal