Le terme Data Mining désigne l’analyse ciblée de grandes quantités de données afin d’obtenir de nouvelles in­for­ma­tions po­ten­tiel­le­ment utiles. Découvrez ce qui se cache derrière ce terme et certaines de ses méthodes d’analyse.

Qu’est-ce que le Data Mining ?

La dé­fi­ni­tion du Data Mining est gé­né­ra­le­ment associée au Big Data. Le Big Data, c’est l’ensemble des données qui ne peuvent plus être gérées ma­nuel­le­ment, à cause de leur ampleur. Le trai­te­ment et l’analyse des données doivent donc être effectués à l’aide de méthodes in­for­ma­ti­sées.

Les con­nais­sances qui auront pu être acquises grâce au Data Mining font partie in­té­grante du po­si­tion­ne­ment stra­té­gique de tout modèle de commerce en ligne, ainsi que des décisions marketing qui en découlent. Les domaines d’ap­pli­ca­tion sont ca­rac­té­ri­sés par leur mul­ti­pli­cité.

Domaines d’in­ter­ven­tion du Data Mining

Le Data Mining offre l’op­por­tu­nité de pouvoir optimiser de manière scien­ti­fique les sites e-Commerce. Les grandes bases de données qui doivent être traitées dans le domaine de la vente en ligne peuvent ainsi servir de base aux pro­nos­tics. Une fois que ces données ont été tra­vail­lées et que des sta­tis­tiques ont pu être établies, les ad­mi­nis­tra­teurs de boutiques en ligne peuvent dresser une liste de facteurs clés de succès à exploiter et mettre en œuvre dif­fé­rentes stra­té­gies de marketing digital. Le Data Mining vise ainsi à :

  • Segmenter les marchés
  • Analyser le contenu des paniers
  • Dresser des profils d’acheteurs types
  • Calculer le prix des produits
  • Établir des pro­nos­tics
  • Dé­ter­mi­ner la durée des contrats
  • Analyser la demande
  • Iden­ti­fier les erreurs dans les processus de vente
Outils d'IA
Exploitez toute la puissance de l'in­tel­li­gence ar­ti­fi­cielle
  • Créez votre site Web en un temps record
  • Boostez votre activité grâce au marketing par IA
  • Gagnez du temps et obtenez de meilleurs résultats

Comment fonc­tionne le Data Mining ?

Le Data Mining est considéré comme une étape partielle de la Knowledge Discovery in Databases (KDD, en français : « dé­cou­verte de con­nais­sances dans les données »), qui comprend les processus suivants :

  • Définir les objectifs : il faut tout d’abord définir des questions concrètes aux­quelles l’analyse des données doit permettre de répondre. Il est ainsi plus facile pour les pro­fes­sion­nels en data science d’iden­ti­fier les données per­ti­nentes et les méthodes d’éva­lua­tion ap­pro­priées.
  • Pré­trai­te­ment des données : la qualité des in­for­ma­tions obtenues par l’ex­plo­ra­tion de données dépend de la nature de la base de données. Les données per­ti­nentes doivent donc être nettoyées avant l’analyse afin d’éliminer les doublons, les valeurs aber­rantes et autres dis­tor­sions. Il se peut également que les données nettoyées doivent être mises dans le format requis par la méthode d’analyse.
  • Analyse des données : l’analyse ma­thé­ma­tique des données pro­pre­ment dite a ensuite lieu. Les méthodes d’analyse à utiliser dépendent fortement des objectifs choisis et des ca­rac­té­ris­tiques des données. Il peut s’agir d’al­go­rithmes clas­siques d’analyse des données ou d’al­go­rithmes plus récents basés sur les réseaux neuronaux et le Deep Learning.
  • In­ter­pré­ta­tion des résultats : les résultats issus de l’analyse doivent être in­ter­pré­tés. Si les résultats sont com­pré­hen­sibles et ins­truc­tifs, il est possible d’iden­ti­fier de nouvelles cor­ré­la­tions et d’en tirer des en­seig­ne­ments qui pourront à leur tour in­fluen­cer les stra­té­gies com­mer­ciales futures.

Les dif­fé­rentes méthodes du Data Mining

Pour pouvoir extraire les données per­ti­nentes à une en­tre­prise parmi leur abondance, dif­fé­rentes méthodes sont mises en œuvre. Ces tech­niques se basent sur l’iden­ti­fi­ca­tion de liens logiques entre dif­fé­rents motifs et tendances, afin d’établir des sta­tis­tiques.

  • Détection des données aber­rantes (Outlier Detection) : dans le domaine des sta­tis­tiques, les données aber­rantes sont des ob­ser­va­tions ou des valeurs qui sont qua­li­fiées de « distantes ». C’est-à-dire que des ob­ser­va­tions dif­fé­rentes qui auront été ef­fec­tuées con­cer­nant un même phénomène con­tras­te­ront fortement avec les valeurs mesurées au préalable. En Data Mining, la détection de données aber­rantes est une méthode courante pour tenter d’iden­ti­fier la fraude par carte de crédit ou autres tran­sac­tions frau­du­leuses.
  • L’analyse de ty­po­lo­gies : les ty­po­lo­gies sont des clusters, c’est-à-dire un re­grou­pe­ment. Cette méthode consiste à segmenter un ensemble de personnes. Ainsi, il est possible par la suite de les regrouper par types d’individus. L’objectif de ce type d’analyse vise à segmenter les données non struc­tu­rées. Pour cela, des al­go­rithmes comme K-Nearest-Neighbor (KNN) sont appliqués. Les al­go­rithmes passent en revue les quantités de données, trouvent des si­mi­li­tudes struc­tu­relles, et iden­ti­fient ainsi dif­fé­rents clusters. Si certaines données ne peuvent pas être classées, cela peut relever de la catégorie des données aber­rantes. L’analyse des clusters est prin­ci­pa­le­ment utilisée afin de dé­ter­mi­ner les dif­fé­rents profils types des visiteurs d’un site, notamment dans le e-commerce.
  • Clas­si­fi­ca­tion : tandis que l’analyse de ty­po­lo­gies permet avant tout l’iden­ti­fi­ca­tion de nouveaux groupes, la clas­si­fi­ca­tion est un excellent moyen pour ca­té­go­ri­ser des groupes pré­dé­fi­nis. Leur ré­par­ti­tion s’effectue à partir de dif­fé­rentes spé­ci­fi­ci­tés qui se recoupent. La méthode la plus courante pour clas­si­fier au­to­ma­ti­que­ment des données consiste à avoir recours à un arbre de décision (decision tree). Ainsi, une spé­ci­fi­cité sera dégagée pour chaque nœud de données.
  • Technique d’as­so­cia­tion : cette méthode vise à iden­ti­fier des ensembles cohérents dans un dataset spé­ci­fique. Dans le domaine du e-commerce, cette méthode de Data Mining est appliquée afin de découvrir les cor­ré­la­tions entre dif­fé­rents produits dans des types de paniers. Par exemple : « si le produit A est acheté, il y aura un intérêt pour le produit B ». Cette technique permet donc d’effectuer de manière per­ti­nente des re­com­man­da­tions de produits auprès des visiteurs d’un site.
  • Analyse de ré­gres­sion : la ré­gres­sion est un ensemble de méthodes sta­tis­tiques. Ce modèle vise à expliquer une variable aléatoire à l’aide de dif­fé­rentes variables non aléa­toires. Le modèle de ré­gres­sion le plus connu est le modèle de ré­gres­sion linéaire, et permet par exemple d’effectuer un pronostic pour les ventes d’un produit en ef­fec­tuant une cor­ré­la­tion entre le prix en question et le revenu médian des clients du site e-commerce.

Les limites du Data Mining

Certes, les sta­tis­tiques entrent en jeu dans le Data Mining, et leur analyse objective permet d’établir une analyse des données exis­tantes. Mais les dif­fé­rents choix des méthodes ana­ly­tiques mises en œuvre sont néanmoins sub­jec­tifs, ce qui peut fausser les résultats. Il en va de même pour les choix appliqués aux al­go­rithmes et aux pa­ra­mètres. Le moyen le plus efficace pour s’assurer de la per­ti­nence et pour veiller à ce que les résultats ne soient pas biaisés consiste à avoir recours à un pres­ta­taire externe spé­cia­lisé en Data Mining.

Enfin, il faut noter que les résultats du Data Mining se pré­sen­tent sous forme de motifs et de con­nexions. Des éléments de réponse ne peuvent être apportés que lorsqu’une réflexion aura été portée et que les objectifs auront été iden­ti­fiés.

Aller au menu principal