La fonction substring() de R est idéale pour la pré­pa­ra­tion de données en vue d’analyses, notamment lorsqu’il est né­ces­saire de trans­for­mer des données tex­tuelles en formats plus struc­tu­rés.

substring() function in R : c’est quoi ?

Dans R, substring() est une fonction intégrée qui sé­lec­tionne des sous-chaînes de ca­rac­tères dans une chaîne existante. Elle permet de définir pré­ci­sé­ment les index de début et de fin afin d’isoler la partie de la chaîne de ca­rac­tères souhaitée. R substring() trouve de nom­breuses ap­pli­ca­tions, du nettoyage de données à l’ex­trac­tion d’in­for­ma­tions spé­ci­fiques à partir de données tex­tuelles non struc­tu­rées. Vous pouvez par exemple utiliser cette méthode pour dé­ter­mi­ner des codes postaux à partir d’adresses ou pour extraire des com­po­santes de date à partir d’ho­ro­da­tages.

La fonction substring() en R offre une flexi­bi­lité ap­pré­ciable lorsqu’il est né­ces­saire d’exercer un contrôle précis sur la position et la longueur de la sous-chaîne à extraire. Cette capacité la rend par­ti­cu­liè­re­ment utile dans l’analyse de données et la pré­pa­ra­tion de textes pour des analyses plus ap­pro­fon­dies, en con­tri­buant à organiser les données de manière struc­tu­rée.

La syntaxe de la fonction substring() dans R

La fonction R substring() renvoie une chaîne de ca­rac­tères extraite. Elle accepte les pa­ra­mètres suivants :

substring(x, first, last)
R
  • x : c’est la chaîne de ca­rac­tères à partir de laquelle la sous-chaîne doit être extraite.
  • first : il s’agit de l’index du premier caractère de la chaîne à extraire.
  • last : cela re­pré­sente l’index du dernier caractère de la sous-chaîne à extraire.

Voici un exemple concret :

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Sortie : data
R

Nous sé­lec­tion­nons la sous-chaîne de l’index 1 à l’index 4 dans la chaîne de ca­rac­tères "data analysis" et la stockons dans la variable result. Le résultat est "data".

Uti­li­sa­tion pratique de R substring()

Lors du trai­te­ment d’en­re­gis­tre­ments, vous devez souvent sé­lec­tion­ner, manipuler ou supprimer certaines parties de chaînes de ca­rac­tères. La fonction substring() de R vous permet de le faire de dif­fé­rentes manières.

Extraire des ca­rac­tères avec la fonction R substring()

Il est possible d’assigner des indices à des variables et de les passer comme pa­ra­mètres à la fonction substring().

# Chaîne de caractères originale
original_string <- "Data Science"
# Définition des indices pour l’extraction
start_index <- 6
end_index <- 12
# Extraction d’une sous-chaîne avec substring()
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Sortie : Science
R

Cet exemple illustre l’uti­li­sa­tion de la fonction substring() dans R. À partir de la chaîne "Data Science", une sous-chaîne est extraite en dé­fi­nis­sant les variables start_index pour l’indice de départ et end_index pour l’indice de fin. La sous-chaîne "Science" est extraite en incluant le caractère à la position 12, car dans cet exemple, l’indice de fin est inclusif.

Manipuler des chaînes avec la fonction substring() dans R

Nous cons­ti­tuons un dataframe df contenant des iden­ti­fiants, ainsi que l’âge et la pro­fes­sion cor­res­pon­dants. Nous ap­pli­quons la fonction substring() pour insérer un espace à la deuxième position dans chaque chaîne de ca­rac­tères de la colonne "ID".

# Création d’un dataframe exemple
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Insertion d’un espace en seconde position dans la colonne "ID"
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Affichage du dataframe modifié
print("Dataframe modifié :")
print(df)
R

Dans cet exemple, substring(df$ID, 1, 1) extrait le premier caractère de chaque iden­ti­fiant tandis que substring(df$ID, 2) récupère le reste de la chaîne à partir du deuxième caractère. La fonction R paste() est utilisée pour insérer un espace entre ces deux segments. Le résultat est affiché dans la colonne ID du dataframe.

La sortie correcte devrait res­sem­bler à ceci :

Modified Data Frame:
    ID     Age  Occupation
1  0 1235  25    Engineer
2  0 2345  30    Doctor
3  0 4531  22    Teacher
R
Conseil

Pour tra­vail­ler avec des chaînes de ca­rac­tères dans R, nous vous re­com­man­dons également le tutoriel sur R gsub() et sub() de notre Digital Guide.

Hé­ber­ge­ment Web
Hé­ber­ge­ment Web de pointe au meilleur prix
  • 3x plus rapide, 60 % d'éco­no­mie
  • Haute dis­po­ni­bi­lité >99,99 %
  • Seulement chez IONOS : jusqu'à 500 Go inclus
Aller au menu principal