De plus en plus d'en­tre­prises disposent de grandes quantités de données qui cons­ti­tuent des res­sources pré­cieuses pour la seg­men­ta­tion de la clientèle, la gestion des ventes ou le marketing ciblé. Cependant, tant que ces ensembles de données ne peuvent pas être suf­fi­sam­ment analysés et évalués, ils sont sans valeur pour une en­tre­prise. L'in­for­ma­tion est abondante, mais seuls ceux qui savent comment l'uti­li­ser peuvent en tirer profit. John Naisbitt, le chercheur sur les tendances, le souligne également avec sa phrase très citée :

Citation

"We are drowning in in­for­ma­tion, but starving for knowledge." John Naisbitt, chercheur sur les tendances et sur les volumes crois­sants de données nu­mé­riques

Les outils d'ex­plo­ra­tion de données aident à gérer les volumes de données et à iden­ti­fier les tendances et les modèles sensibles. À cette fin, les logiciels de data mining sont de plus en plus complexes et le choix d'outils s'élargit. Pour vous aider à suivre les pro­grammes de data mining les plus im­por­tants, nous vous pré­sen­tons une com­pa­rai­son.

Tech­niques, tâches et com­po­santes du data mining

L’ex­plo­ra­tion de données fait référence aux méthodes al­go­rith­miques d’éva­lua­tion des données qui sont ap­pli­quées à des ensembles de données par­ti­cu­liè­re­ment vastes et complexes. L’ex­plo­ra­tion de données est conçue pour extraire des in­for­ma­tions cachées dans un grand volume de données (surtout des données massives, dites « big data ») et ainsi iden­ti­fier encore mieux les cor­ré­la­tions cachées, les tendances et les modèles qui s’y reflètent. Les outils d’ex­plo­ra­tion de données sont donc utiles. Le terme de « data mining » ne désigne pas la gé­né­ra­tion de données ou les ensembles de données eux-mêmes, mais seulement la pratique de l’analyse de données. Bon nombre des méthodes utilisées pro­vien­nent de la sta­tis­tique : toutefois, l’ex­plo­ra­tion des données n’est pas un processus purement sta­tis­tique, mais un processus in­ter­dis­ci­pli­naire qui utilise des tech­niques d’ap­pren­tis­sage issues de l’in­for­ma­tique et des ma­thé­ma­tiques (surtout l’ap­pren­tis­sage non supervisé) et qui s’allie à l’in­tel­li­gence ar­ti­fi­cielle. Ces méthodes efficaces sont intégrées dans les logiciels de data mining pour permettre l’éva­lua­tion de grands ensembles de données.

Remarque

l’ex­plo­ra­tion de texte est une forme spéciale d’ex­plo­ra­tion de données, qui gagne en im­por­tance grâce à la po­pu­la­rité des logiciels de re­con­nais­sance vocale et de la tech­no­lo­gie lin­guis­tique. La recherche d’in­for­ma­tions ne se réfère pas ici aux en­re­gis­tre­ments de données, mais aux documents texte. Les énoncés de base sont extraits d’une grande quantité de textes (articles spé­cia­li­sés ou documents d’en­tre­prise). Cela signifie que l’ex­trac­tion de texte est utile pour les en­tre­prises, par exemple, lors de la recherche de nouveaux projets.

Néanmoins, les uti­li­sa­teurs doivent également avoir une bonne com­pré­hen­sion des en­re­gis­tre­ments de données pour réussir l'ex­plo­ra­tion des données. Ce n'est qu'alors qu'ils peuvent utiliser les outils d'ex­plo­ra­tion de données de manière sig­ni­fi­ca­tive, mais la con­nais­sance de la pro­gram­ma­tion n'est pas né­ces­saire. Il est pri­mor­dial de re­con­naître les in­ter­re­la­tions im­pli­cites, faire des pré­vi­sions sur les chiffres de ventes ou analyser le com­por­te­ment d'achat.

Tâches in­di­vi­duelles de data mining :

  • Clas­si­fi­ca­tion : affecte des objets de données in­di­vi­duels à certaines classes pré­dé­fi­nies (comme les chats ou les bi­cy­clettes) qui n’étaient au­pa­ra­vant pas affectés à ces classes : l’analyse d’un guide dé­ci­sion­nel convient par­ti­cu­liè­re­ment à la clas­si­fi­ca­tion.

  • Analyse des écarts : identifie les objets qui ne sont pas conformes aux règles des dé­pen­dances pour les objets ap­pa­ren­tés, ce qui vous permet de trouver les causes des écarts.

  • Analyse des grappes (clusters) : identifie des grappes de si­mi­li­tudes et forme ensuite des groupes d’objets qui sont plus sem­blables sur certains aspects que d’autres groupes : con­trai­re­ment à la clas­si­fi­ca­tion, les groupes (ou grappes) ne sont pas pré­dé­fi­nis et peuvent prendre des formes dif­fé­rentes selon les données analysées.

  • Analyse d’as­so­cia­tion : révèle les cor­ré­la­tions entre deux ou plusieurs éléments in­dé­pen­dants qui ne sont pas di­rec­te­ment liés, mais qui se pro­dui­sent plus souvent ensemble.

  • Analyse de ré­gres­sion : révèle les relations entre une variable dé­pen­dante (par exemple ventes de produits) et une ou plusieurs variables in­dé­pen­dantes (par exemple prix du produit ou revenu de la clientèle). Elle sert, entre autres, à faire des pré­vi­sions au sujet de la variable dé­pen­dante (par exemple la prévision des ventes).

  • Analyse pré­dic­tive : il s’agit en fait d’une tâche su­pé­rieure qui vise à faire des pré­dic­tions sur les tendances futures : elle utilise l’ex­plo­ra­tion de données, entre autres, et fonc­tionne avec une variable (pré­dic­teur) qui est mesurée pour des personnes in­di­vi­duelles ou des entités plus grandes.
Remarque

Grâce à l’analyse d’as­so­cia­tion, des cor­ré­la­tions in­for­ma­tives ont été créées dans les décisions d’achat de dif­fé­rents produits, ce qui a con­si­dé­ra­ble­ment amélioré l’analyse du panier d’achat. Cette méthode est utilisée pour dé­ter­mi­ner les achats re­com­man­dés auprès des en­tre­prises de vente par cor­res­pon­dance en ligne.

Les dif­fé­rentes méthodes peuvent être glo­ba­le­ment divisées en problèmes d’ob­ser­va­tion (analyse des écarts, analyse par grappes) et problèmes de prévision (analyse de ré­gres­sion, clas­si­fi­ca­tion).

Outils de data mining en com­pa­rai­son

Pour une com­pa­rai­son des meilleurs outils de data mining, nous vous pré­sen­tons main­te­nant les outils Ra­pid­Mi­ner, WEKA, Orange, KNIME et SAS. Il a été prouvé que les uti­li­sa­teurs utilisent des outils multiples parce que les outils d'ex­plo­ra­tion de données ont des forces dif­fé­rentes qui peuvent être combinées les unes aux autres. Les outils d'ex­plo­ra­tion de données sont souvent com­pa­tibles entre eux. Mais même avec un seul bon outil po­ly­va­lent, vous pouvez faire beaucoup de choses en tant que débutant.

Ra­pid­Mi­ner

Ra­pid­Mi­ner (au­pa­ra­vant : YALE, „Yet Another Learning En­vi­ron­ment“) est l’un des outils de data mining les plus po­pu­laires. En 2014, selon une étude de KDnuggets, c’était l’outil de data mining le plus utilisé, devant l’outil R. Il est ac­ces­sible gra­tui­te­ment et facile à utiliser, même sans con­nais­sances par­ti­cu­lières en pro­gram­ma­tion. Néanmoins, il offre un large choix d’opé­ra­teurs. Les start-ups en par­ti­cu­lier font un usage fréquent de cet outil.

Ra­pid­Mi­ner a été écrit en Java et contient plus de 500 opé­ra­teurs avec des approches dif­fé­rentes pour démontrer les con­nexions dans les données - entre autres, il y a des options pour l'ex­plo­ra­tion de données, l'ex­plo­ra­tion de texte et l'ex­plo­ra­tion Web, mais aussi pour l'analyse d'humeur (Analyse du sentiment, Opinion Mining). Le programme importe également des tableaux Excel, des fichiers SPSS et des ensembles de données à partir de nom­breuses bases de données et intègre également les outils d'ex­plo­ra­tion de données WEKA et R. Ceci en fait un outil po­ly­va­lent complet.

Ra­pid­Mi­ner supporte toutes les étapes du processus d'ex­plo­ra­tion de données, y compris la vi­sua­li­sa­tion des résultats. L'outil se compose de trois modules prin­ci­paux : Ra­pid­Mi­ner Studio, Ra­pid­Mi­ner Server et Ra­pid­Mi­ner Radoop, chacun d'entre eux exécutant dif­fé­rentes tech­niques de data mining. De plus, Ra­pid­Mi­ner prépare les données avant l'analyse et les optimise pour un trai­te­ment ultérieur rapide. Pour chacun de ces trois modules, une version gratuite ou payante est dis­po­nible.

La force par­ti­cu­lière de Ra­pid­Mi­ner réside dans l'analyse pré­dic­tive, c'est-à-dire la pré­dic­tion des dé­ve­lop­pe­ments futurs à partir des données col­lec­tées. En comparant les logiciels de data mining, Ra­pid­Mi­ner est l'un des outils les plus puissants.

WEKA

WEKA (Waikato En­vi­ron­ment for Knowledge Analysis) est un logiciel open source développé par l'Uni­ver­sité de Waikato. L'outil de data mining est basé sur Java et peut être utilisé avec Windows, MacOS et Linux. Reconnu pour ses capacités étendues d'ap­pren­tis­sage machine, il prend en charge toutes les prin­ci­pales tâches d'ex­plo­ra­tion de données telles que la mise en grappe, l'as­so­cia­tion, la ré­gres­sion ou la clas­si­fi­ca­tion. L'in­ter­face uti­li­sa­teur graphique facilite l'accès au logiciel. En outre, WEKA offre la connexion aux bases de données SQL et peut traiter les données demandées. La force de WEKA réside dans la clas­si­fi­ca­tion : l'outil de data mining est connu pour ses nom­breuses clas­si­fi­ca­tions, y compris les réseaux neuronaux ar­ti­fi­ciels, les arbres de décision, les al­go­rithmes ID3 ou C4.5. Cependant, WEKA est moins puissant dans d'autres tech­niques telles que l'analyse cluster. Seules les pro­cé­dures les plus im­por­tantes sont proposées ici. Un autre in­con­vé­nient : WEKA peut ren­con­trer des problèmes de trai­te­ment si de grandes quantités de données doivent être ma­ni­pu­lées ; en effet, l'outil d'ex­plo­ra­tion de données essaye de les charger toutes dans la mémoire de travail. Pour s'en sortir, WEKA propose une ligne de commande simple qui facilite le trai­te­ment de grandes quantités de données.

Remarque

En 2005, WEKA a reçu le "SIGKDD Service Award" de l'As­so­cia­tion for Computing Machinery pour sa haute con­tri­bu­tion à la recherche. Le premier ouvrage standard sur l'ap­pren­tis­sage machine publié en 1999 et intitulé « Data Mining: Practical Tools and Tech­niques for Machine Learning » par Eibe Frank et Ian H. Witten se réfère à ce logiciel. En com­pa­rai­son avec d'autres outils de data mining, WEKA s'est révélé par­ti­cu­liè­re­ment utile pour l'en­seig­ne­ment et la recherche.

Orange

L’outil de data mining Orange existe depuis plus de 20 ans et est un projet de l'Uni­ver­sité de Ljubljana. Le cœur du logiciel a été écrit en C++, mais très ra­pi­de­ment, le programme a été étendu par le langage de pro­gram­ma­tion Python, qui est main­te­nant utilisé comme langage d'accès. Les opé­ra­tions les plus com­pli­quées, par contre, sont toujours ef­fec­tuées en C++. Orange est un logiciel complet d'ex­plo­ra­tion de données qui montre tout ce que vous pouvez faire avec Python : il offre des ap­pli­ca­tions utiles pour l'analyse de données et de textes ainsi que des fonc­tion­na­li­tés pour l'ap­pren­tis­sage machine et dans le domaine du data mining. Il travaille avec des opé­ra­teurs pour la clas­si­fi­ca­tion, la ré­gres­sion, le clus­te­ring et bien plus encore. Cet outil de data mining intègre également la pro­gram­ma­tion visuelle.

Cet outil présente une par­ti­cu­la­rité : les uti­li­sa­teurs ont souligné à plusieurs reprises le plaisir qu'ils ont à utiliser ce logiciel de data mining comparé à d'autres. Les nouveaux arrivants et les uti­li­sa­teurs ex­pé­ri­men­tés sont toujours fascinés par Orange. Cette po­pu­la­rité est due à deux éléments : d’abord, la vi­sua­li­sa­tion de données at­trayante avec laquelle les gens aiment tra­vail­ler. Par ailleurs, la vitesse et la facilité avec les­quelles cette vi­sua­li­sa­tion s’opère. Le programme prépare vi­suel­le­ment les données d'entrée im­mé­dia­te­ment. La com­pré­hen­sion de ces gra­phiques ainsi que le trai­te­ment ultérieur des analyses de données sont re­la­ti­ve­ment faciles et per­met­tent de prendre des décisions d'af­faires rapides. Ceci fait d'Orange un outil de démarrage idéal pour le data mining.

Un autre avantage pour les nouveaux arrivants est qu’il y a de nombreux tutoriels en ligne dis­po­nibles pour l’outil. Une autre par­ti­cu­la­rité d’Orange est de connaître les pré­fé­rences de ses uti­li­sa­teurs dans le temps et de se comporter en con­sé­quence. Cela peut rendre l’uti­li­sa­tion de l’outil de data mining encore plus pratique.

KNIME

KNIME (Konstanz In­for­ma­tion Miner) a été développé par l'Uni­ver­sité de Constance et est main­te­nant populaire auprès d'une grande com­mu­nauté in­ter­na­tio­nale de dé­ve­lop­peurs. Bien que KNIME fût à l'origine destiné à un usage com­mer­cial, il est toujours dis­po­nible en tant que logiciel open source. Il a été écrit en Java et édité avec Eclipse. Si l'on regarde ce logiciel de data mining en com­pa­rai­son avec d'autres, on remarque tout d'abord son périmètre fonc­tion­nel : avec plus de 1 000 modules et des ap­pli­ca­tions prêtes à l'emploi, cet outil permet de découvrir les struc­tures de données cachées. Les modules peuvent être complétés par d'autres fonctions com­mer­ciales. Parmi les fonctions, l'analyse in­té­gra­tive des données est par­ti­cu­liè­re­ment con­vain­cante : KNIME est l'un des outils les plus puissants dans ce domaine et permet l'in­té­gra­tion de nom­breuses méthodes d'ap­pren­tis­sage machine et de data mining. Il est également par­ti­cu­liè­re­ment efficace dans le pré-trai­te­ment des données, c'est-à-dire l'ex­trac­tion, la trans­for­ma­tion et le char­ge­ment des données. Son pipeline modulaire en fait un outil d'ex­plo­ra­tion de données orienté flux de données. Utilisé dans la recherche phar­ma­ceu­tique depuis 2006, KNIME est également un puissant outil de data mining pour le secteur des données fi­nan­cières. Cependant, KNIME est également fré­quem­ment utilisé dans le domaine de la Business In­tel­li­gence (BI). Ici, KNIME est considéré comme l'outil que Pre­dic­tive Analytics met à la dis­po­si­tion des uti­li­sa­teurs inex­pé­ri­men­tés. L'outil est également in­té­res­sant pour les nouveaux arrivants, car malgré ses nom­breuses ca­rac­té­ris­tiques, il n'est associé qu'à une période de formation re­la­ti­ve­ment courte. KNIME est dis­po­nible sous forme de programme gratuit et payant.

SAS

SAS (Sta­tis­ti­cal Analysis System) est un produit de l'Ins­ti­tut SAS, l'une des plus grandes sociétés de logiciels privées au monde. SAS est le principal outil de data mining pour l'analyse d'en­tre­prise - et aussi le plus cher des pro­grammes listés ici. Cependant, c'est celui qui convient le mieux aux grandes en­tre­prises. SAS se distingue par­ti­cu­liè­re­ment bien dans le domaine du pronostic et de la vi­sua­li­sa­tion in­te­rac­tive des données, ce qui est idéal pour les grandes pré­sen­ta­tions. En principe, ce logiciel de data mining fournit une solution complète et complète pour un data mining réussi. L'outil se ca­rac­té­rise par une très grande évo­lu­ti­vité, ce qui lui permet d'aug­men­ter ses per­for­mances pro­por­tion­nel­le­ment en ajoutant du matériel ou d'autres res­sources. Ceci en fait également un outil puissant pour des solutions d'af­faires de haute qualité. Pour les uti­li­sa­teurs moins ex­pé­ri­men­tés tech­ni­que­ment, il dispose d'une interface uti­li­sa­teur graphique. Cependant, ce logiciel ne peut être utilisé gra­tui­te­ment que si vous obtenez une licence cor­res­pon­dante d'un éta­blis­se­ment public. En principe, SAS est toujours soumis à une redevance. Les coûts sont réglés sur demande, des con­di­tions spéciales, par exemple pour les autorités ou les éta­blis­se­ments d'en­seig­ne­ment sont possibles. Ceci implique que vous pouvez acheter une licence d'un an à partir de 5 500 euros environ, ce qui fait de SAS l'une des al­ter­na­tives les plus coûteuses parmi les outils com­mer­ciaux. Toutefois, il est possible de per­son­na­li­ser la gamme de fonctions et d'in­fluen­cer ainsi le prix. SAS est prin­ci­pa­le­ment utilisé dans les en­tre­prises phar­ma­ceu­tiques où il s'est imposé comme le standard. Il est également fré­quem­ment utilisé dans le secteur bancaire et offre des solutions optimales pour la BI et le web mining. L’outil dispose notamment de son propre logiciel de Business In­tel­li­gence. Cela en fait l'un des outils de data mining les plus puissants du marché.

Aperçu des outils de data mining

Après une com­pa­rai­son détaillée du logiciel de data mining, voici un aperçu de toutes les ca­rac­té­ris­tiques im­por­tantes des outils de data mining : 

Ca­rac­té­ris­tiques Langage de pro­gram­ma­tion Système d‘ex­ploi­ta­tion Coûts/Licence
Ra­pid­Mi­ner Puissant et po­ly­va­lent avec un avantage par­ti­cu­liè­re­ment dans l'analyse pré­dic­tive Java Windows, macOS, Linux Freeware, dif­fé­rentes versions payantes
WEKA Nom­breuses méthodes de clas­si­fi­ca­tion Java Windows, macOS, Linux Software libre (GPL)
Orange Crée des vi­sua­li­sa­tions de données par­ti­cu­liè­re­ment at­trayantes et in­té­res­santes sans con­nais­sances préa­lables ap­pro­fon­dies Logiciel core : C++, ex­ten­sions et langage d'accès : Python Windows, macOS, Linux Software libre (GPL)
KNIME Le principal outil de data mining ouvert que l’analyse pré­dic­tive a rendu ac­ces­sible au grand public Java Windows, macOS, Linux Software libre (GPL) (à partir de la version 2.1)
SAS Logiciel d’ex­plo­ra­tion de données puissant et coûteux pour les grandes en­tre­prises SAS Language Windows, macOS, Linux Freeware limité dis­po­nible dans les éta­blis­se­ments d'en­seig­ne­ment, prix sur demande seulement, dif­fé­rents modèles extensifs possibles
Aller au menu principal