Les systèmes d’aide à la décision sont une longue tradition dans le monde des affaires. Depuis les années 1960, les en­tre­prises utilisent des méthodes ana­ly­tiques afin d’obtenir des données dites dé­ci­sion­nelles ou utiles. L’objectif est de soutenir le ma­na­ge­ment avec des rapports, des modèles et des pré­vi­sions basés sur des données pour l’orien­ta­tion stra­té­gique des processus d’affaires et l’aide à la décision.

Les systèmes d’in­for­ma­tion ana­ly­tique qui four­nis­sent les fonc­tion­na­li­tés cor­res­pon­dantes re­grou­pent des concepts tels que le MIS (Ma­na­ge­ment In­for­ma­tion Systems), le DSS (Decision Support Systems) ou l’EIS (Executive In­for­ma­tion Systems) qui sont souvent dif­fi­ciles à dis­tin­guer les uns des autres et sont regroupés, depuis les années 1990 dans la pratique et dans la com­mer­cia­li­sa­tion des produits cor­res­pon­dants, sous le terme global d’in­for­ma­tique dé­ci­sion­nelle : en anglais Business In­tel­li­gence (BI).

Remarque

Business In­tel­li­gence (BI) ou in­for­ma­tique dé­ci­sion­nelle, sont des termes gé­né­riques pour la pré­pa­ra­tion et l’analyse assistées par or­di­na­teur des données brutes de l’en­tre­prise. L’in­for­ma­tique dé­ci­sion­nelle ou BI est censé générer des con­nais­sances qui servent de base à l’orien­ta­tion stra­té­gique de l’en­tre­prise.

La base de données des systèmes d’aide à la décision dans le cadre de l’in­for­ma­tique dé­ci­sion­nelle est aujourd’hui gé­né­ra­le­ment apportée par un entrepôt de données central, connu aussi sous le nom de data warehouse. Nous allons voir les bases des systèmes de data warehouse ainsi que l’ar­chi­tec­ture de référence d’un tel système d’in­for­ma­tion, et pré­sen­tons les éditeurs connus de solutions DWH com­mer­ciales ainsi que les al­ter­na­tives open-source gratuites.

Qu’est-ce qu’un data warehouse ?

Un data warehouse (DWH) est par dé­fi­ni­tion un système de base de données distinct d’un système de trai­te­ment de données opé­ra­tion­nelles, dans lequel les données provenant de diverses sources, parfois même très hé­té­ro­gènes, sont combinées, com­pres­sées et archivées à long terme. De nom­breuses en­tre­prises trans­fè­rent ré­gu­liè­re­ment les données his­to­riques des systèmes de trai­te­ment des données opé­ra­tion­nelles vers un tel entrepôt de données et les préparent pour des accès ul­té­rieurs afin d’effectuer des analyses stra­té­giques dans le cadre de l’in­for­ma­tique dé­ci­sion­nelle (ou BI). Les données opé­ra­tion­nelles de­vien­nent donc des données dé­ci­sion­nelles :

  • Données opé­ra­tion­nelles : ce sont des in­for­ma­tions orientées tran­sac­tions générées dans les en­tre­prises par l’activité quo­ti­dienne et produites notamment par les systèmes d’ad­mi­nis­tra­tion et de fac­tu­ra­tion. Les sources clas­siques de données sont les systèmes de trai­te­ment de données opé­ra­tion­nelles comme par exemple les pro­grammes de comp­ta­bi­lité, les pro­gi­ciels de gestion intégré (PGI ou ERP pour En­tre­prise Resource Planning) ou les systèmes d’in­for­ma­tion et de commande.
  • Données dé­ci­sion­nelles : lorsque les données opé­ra­tion­nelles sont ras­sem­blées en un seul endroit, stockées sur le long terme et préparées pour l’analyse, on parle alors de données dé­ci­sion­nelles.

Un DWH apporte aux analystes un aperçu complet des ensembles de données hé­té­ro­gènes et permet l’agré­ga­tion des sta­tis­tiques opé­ra­tion­nelles dans le cadre du trai­te­ment ana­ly­tique en ligne (en anglais Online Ana­ly­ti­cal Pro­ces­sing, OLAP). En tant que point central de collecte de toutes les données d’en­tre­prise per­ti­nentes, l’entrepôt de données est utilisé pour la gestion des con­nais­sances en interne. Les uti­li­sa­teurs n’ont gé­né­ra­le­ment accès qu’en lecture seule. Un DWH sert de base de données pour les méthodes d’ex­plo­ra­tion de données (data mining) et reste le support à toutes les études relatives à la gestion de la per­for­mance et à l’orien­ta­tion stra­té­gique de l’en­tre­prise.

Structure d’un DWH : ar­chi­tec­ture d’un data warehouse

Le processus de gestion et d’analyse d’un DWH est appelé data wa­re­hou­sing (ou en­tre­po­sage de données) et comporte les phases suivantes :

  1. Ac­qui­si­tion et in­té­gra­tion des données
  2. Stockage des données
  3. Eva­lua­tion et analyse des données

Les phases du data wa­re­hou­sing se reflètent dans la structure type, l’ar­chi­tec­ture dite de référence des systèmes d’en­tre­po­sage des données. Bien que l’ar­chi­tec­ture du système varie selon le produit et l’éditeur, sa structure technique repose sur un schéma modulaire qui peut être divisée en trois niveaux :

  • Collecte des données (data col­lec­tion
  • Dépôt et archivage des données (data re­po­si­tory
  • Four­ni­ture et trans­mis­sion des données (data provision)

Il existe en outre une com­po­sante de contrôle cen­tra­li­sée : c’est le data warehouse manager. Ce dernier affecte des fonctions spéciales d’ad­mi­nis­tra­tion à chaque niveau du DWH. Les com­po­sants in­di­vi­duels d’un data warehouse ne doivent pas né­ces­sai­re­ment provenir d’un seul four­nis­seur ; en effet, les services res­pec­tifs peuvent également provenir de dif­fé­rents logiciels ou solutions in­di­vi­duelles.

L’il­lus­tra­tion suivante re­pré­sente sché­ma­ti­que­ment l’ar­chi­tec­ture de référence d’un DWH.

Niveau de collecte des données (data col­lec­tion)

Avant que les données puissent être chargées vers le DWH, les in­for­ma­tions souvent très hé­té­ro­gènes doivent d’abord être unifiées pour une pré­sen­ta­tion uniforme. Un entrepôt de données s’alimente de manière autonome à partir des sources de données internes d’une en­tre­prise ainsi que des sources de données externes per­ti­nentes :

  • Données internes : système d’ex­ploi­ta­tion : progiciel de gestion intégré (PGI ou ERP), systèmes de gestion de la relation client (CRM) ; bases de données opé­ra­tion­nelles ; système de gestion de contenu (CMS) ; bases de données orientées texte, fichiers plats (par exemple Excel, CSV, fichiers textes), emails, etc.
  • Données externes : ap­pli­ca­tions et systèmes de four­nis­seurs de services externes, sites Web, médias sociaux, services de Cloud, etc.

Les systèmes au niveau de l’en­re­gis­tre­ment des données four­nis­sent des in­ter­faces pour les systèmes d’ex­ploi­ta­tion des en­tre­prises et sont utilisés dans la première phase du data wa­re­hou­sing. L’ac­qui­si­tion et l’in­té­gra­tion des données sont deux fonctions centrales de ces com­po­sants DWH.

Les tech­niques de collecte suivantes sont utilisées pour l’ex­trac­tion et l’ac­qui­si­tion des données :

  • Trigger ou dé­clen­cheur : si les systèmes opé­ra­tion­nels d’une en­tre­prise prennent en charge les dé­clen­cheurs de base de données, ils peuvent alors être utilisés pour au­to­ma­ti­ser l’ex­trac­tion des données. Les dé­clen­cheurs vous per­met­tent de définir des opé­ra­tions qui sont exécutées au­to­ma­ti­que­ment lorsque certains évé­ne­ments se pro­dui­sent. En règle générale, les évé­ne­ments dé­clen­cheurs se rap­por­tent à des chan­ge­ments dans la base de données du système source, qui con­dui­sent à une ex­trac­tion des données modifiées dans le DWH.  
  • Fichiers journaux : si le système d’ex­ploi­ta­tion ne prend pas en charge le trigger ou dé­clen­cheur, le niveau d’ac­qui­si­tion des données d’un DWH peut contenir des pro­grammes capables d’évaluer les fichiers journaux (ou fichiers log) des systèmes sources et d’extraire les opé­ra­tions en­re­gis­trées dans ces derniers.
  • Programme de mo­ni­to­ring : si pour l’ex­trac­tion il n’est pas possible de recourir au dé­clen­cheur ou aux fichiers journaux, les pro­grammes de mo­ni­to­ring sont alors gé­né­ra­le­ment utilisés. Ces derniers extraient les chan­ge­ments dans l’ensemble de données d’un système d’ex­ploi­ta­tion à l’aide d’al­go­rithmes qui créent des ins­tan­ta­nés des données à sur­veil­ler (snapshots) à in­ter­valles réguliers et les syn­chro­ni­sent avec les pré­cé­dents.

Si aucune des tech­niques décrites ci-dessus n’est prise en charge, car l’accès aux données dans le système d’ex­ploi­ta­tion n’est pas possible, ces mo­di­fi­ca­tions doivent être en­re­gis­trées de manière in­dé­pen­dante et les mo­di­fi­ca­tions cor­res­pon­dantes com­mu­ni­quées à l’entrepôt de données.

En matière d’in­té­gra­tion de données, la plupart des DWH offrent des fonc­tion­na­li­tés OLAP qui per­met­tent de présenter les fichiers dans des struc­tures mul­ti­di­men­sion­nelles. Le trai­te­ment ana­ly­tique en ligne (OLAP) est une méthode d’analyse utilisée pour comprimer les données et fichiers d’en­tre­prises per­ti­nents pour la gestion. Le fonc­tion­ne­ment est basé sur le processus ETL :

  • E = Ex­trac­tion : l’ex­trac­tion des données consiste à extraire des in­for­ma­tions per­ti­nentes de diverses sources de données. Ceci peut être mis en œuvre comme une stratégie Push and Pull. Si les données sont extraites dans le cadre d’une stratégie Push, les sources de données sont en­cou­ra­gées à générer des extraits à in­ter­valles réguliers et à les trans­mettre au DWH. Dans le cas d’une stratégie Pull, c’est le DWH qui initie, de sa propre ini­tia­tive, l’ex­trac­tion des données.
  • T = Trans­for­ma­tion : les données extraites sont ajustées lors d’une trans­for­ma­tion et traduites da manière uniforme dans le format de la base de données cible.
  • L = Loading (char­ge­ment) : la phase de char­ge­ment implique la sau­ve­garde des données trans­for­mées dans les bases de données cibles res­pec­tives du DWH.

Le niveau d’ac­qui­si­tion et de trai­te­ment de données d’un DWH peut contenir une zone dite de Staging Area (aussi appelée zone de pré­pa­ra­tion). Il s’agit d’une zone tem­po­raire de la base de données dans laquelle les données à charger sont pré­trai­tées. Un tel processus de trai­te­ment peut être par­ti­cu­liè­re­ment né­ces­saire dans les processus ETL complexes.

Comme un data warehouse rassemble des données provenant de sources très diverses, l’in­té­gra­tion des données est basée sur dif­fé­rents outils qui per­met­tent la trans­for­ma­tion et l’ajus­te­ment des données extraites. Ils peuvent être classés dans les ca­té­go­ries suivantes :

  • Outils de migration de données : les pro­grammes de migration de données vous per­met­tent de définir des règles de trans­for­ma­tion simples pour convertir des données sources hé­té­ro­gènes en un format cible uniforme.
  • Outils de nettoyage des données : pour le nettoyage des données, des pro­grammes basés sur la logique floue (fuzzy logic) ainsi que les réseaux neuronaux ar­ti­fi­ciels sont utilisés. L’objectif est d’améliorer la qualité des données en éliminant les erreurs, les lacunes et les ré­pé­ti­tions dans les ensembles de données grâce à l’im­plé­men­ta­tion de règles pré­dé­fi­nies, d’al­go­rithmes et de tables de cor­res­pon­dance (LUT). C’est ce que l’on nomme aussi le ma­na­ge­ment de la qualité (Quality Ma­na­ge­ment).
  • Outils d’audit des données : les outils de vé­ri­fi­ca­tion des données sont utilisés dans l’in­té­gra­tion des données pour dé­ter­mi­ner les règles et les relations entre les données. En outre, les pro­grammes de ce type vous per­met­tent aussi d’iden­ti­fier les données qui en­freig­nent les règles définies ce qui signifie qu’il s’agit pro­ba­ble­ment d’erreurs.

L’in­té­gra­tion des données est suivie par le transfert des données extraites dans la base de données centrale, le « core data warehouse ». Cette étape est supportée par des pro­grammes qui offrent les fonctions suivantes :

  • Vé­ri­fi­ca­tion des con­di­tions d‘intégrité 
  • Tri des données
  • Calcul des agré­ga­tions
  • Dé­ter­mi­na­tion des struc­tures d’accès 
  • Par­ti­tion­ne­ment des données pour un accès efficace

Niveau de dépôt et d’archivage des données (data re­po­si­tory)

Le niveau d’archivage des données est un élément central de l’entrepôt des données. Il s’agit de ce que l’on nomme le « Core Data Warehouse ». Les données extraites sont gé­né­ra­le­ment stockées dans le DWH sous forme de matrices mul­ti­di­men­sion­nelles, ce que l’on appelle des schémas en étoile ou en flocon, pour des analyses futures dans le cadre d’un archivage à long terme. Toutefois, cela fait rarement référence à l’ensemble du stock de données d’un DWH. Pour permettre une analyse efficace, il est donc d’usage de créer des segments de données de l’ensemble du ré­per­toire, connus sous le nom de datamart (aussi nommé magasin de données).

Un datamart est une copie d’une partie d’une base de données, qui est gé­né­ra­le­ment im­plé­men­tée de façon non per­sis­tante comme stockage tem­po­raire, in­ter­mé­diaire. Dans certains cas toutefois, des datamarts dits in­dé­pen­dants sont aussi utilisés, ce qui permet de disposer en per­ma­nence d’une section, d’un extrait de données séparé à long terme.

Un schéma en étoile est un type de diagramme entité-as­so­cia­tion ou Entity Re­la­tion­ship Diagram (ERD), c’est à dire une re­pré­sen­ta­tion graphique de la structure de table d’une base de données dans laquelle sont il­lus­trées les dif­fé­rentes entités ainsi que leur relation entre elles. Le schéma en étoile est donc utilisé pour vi­sua­li­ser des struc­tures de données mul­ti­di­men­sion­nelles.

Chaque schéma en étoile est constitué d’une table des faits et de plusieurs tables de dimension qui sont regroupés en forme d’étoile autour de la table de faits.

  • La table de faits contient ce que l’on appelle les faits : chiffres clefs et résultats d’une société qui sont en­re­gis­trés en per­ma­nence (par exemple le chiffre d’affaires).
  • La table de di­men­sions contient des attributs qui décrivent les données de la table de faits. Une table de dimension est un ensemble d’in­for­ma­tions de référence sur les évé­ne­ments stockées dans la table de faits.

Dans le modèle de données en étoile (star schema), seule la table des faits est liée à toutes les tables de di­men­sions par des relations clefs étran­gères. Les con­nexions entre les tables de di­men­sions in­di­vi­duelles ne sont pas établies. La figure suivante montre une re­pré­sen­ta­tion sim­pli­fiée d’une telle structure de données :

Dans le schéma en étoile ci-dessus, le fait « ventes » peut être re­pré­senté par exemple par rapport à un certain canal de vente, à un produit spé­ci­fique, à un vendeur, à une région ou bien en fonction de la période. Par exemple, une requête possible sur trois di­men­sions serait : quel est le chiffre d’affaires généré par un produit par­ti­cu­lier en 2016 via le canal de la vente en ligne ?

Le modèle de données dit « en flocon » (snowflake schema) est une variante du schéma en étoile. En effet, les tables de di­men­sions d’un schéma en étoile sont sous forme dé­nor­ma­li­sée, alors qu’avec le schéma en flocon, les in­for­ma­tions de référence sont stockées sous forme de 3D, les hié­rar­chies des schémas sont nor­ma­li­sées. Ainsi, les données sont clas­si­fiées et hié­rar­chi­sées, ce qui signifie que les in­for­ma­tions re­don­dantes sont ex­ter­na­li­sées et placées dans de nouvelles tables. Il en résulte une sorte de ra­mi­fi­ca­tion dis­tinc­tive qui prend alors l’aspect d’un flocon de neige.

Les schémas en flocon se ca­rac­té­ri­sent par une con­som­ma­tion d’espace de stockage plus faible que les schémas en étoile. Ceci résulte d’un stockage de données normalisé. Ici, la nor­ma­li­sa­tion se réfère au transfert des colonnes vers de nouvelles tables dans le but d’éviter les doublons. L’éli­mi­na­tion des re­don­dances réduit aussi le coût de main­te­nance et de gestion des données : dans le meilleur des cas, chaque in­for­ma­tion n’apparaît qu’une seule fois et ne doit donc être placée qu’une fois dans le schéma.

Toutefois, si les données sont trans­fé­rées dans des tables nor­ma­li­sées, ceci conduit iné­vi­ta­ble­ment à des struc­tures de données plus complexes, ce qui implique gé­né­ra­le­ment des durées de requête plus longues. Si les analystes veulent accéder aux données d’un schéma en flocon, les tables de di­men­sions multi-niveaux doivent d’abord être liées dans le cadre d’une jointure.

Remarque

une jointure est une opération de base de données qui permet de fusionner, dans certaines cir­cons­tances, des tables de base de données reliées via une clef étrangère.

Dans la pratique, la structure de données d’un DWH est gé­né­ra­le­ment basée sur le schéma en flocon, tandis que les datamarts in­di­vi­duels sont im­plé­men­tés en tant que schéma en étoile.

Dans les schémas en étoile ou en flocon, nous avons affaire à des tables de di­men­sions, car chaque table est vue comme une dimension d’un cube OLAP mul­ti­di­men­sion­nel. Ceci permet aux analystes de placer les faits stockés dans le DWH par rapport à autant d’in­for­ma­tions de référence qu’ils le sou­hai­tent, afin d’analyser les ratios com­mer­ciaux comme le chiffre d’affaires, de manière mul­ti­di­men­sion­nelle sur la base de divers aspects et de les examiner à dif­fé­rents niveaux de détail.

L’il­lus­tra­tion suivante montre la re­pré­sen­ta­tion sché­ma­tique d’un cube OLAP tri­di­men­sion­nel dont les bords re­couvrent les di­men­sions ligne de produit (product), canal de vente (sales channel) et la période (time period). La longueur des arêtes du cube est dé­ter­mi­née par le nombre de cellules. Chaque cellule du cube contient exac­te­ment une valeur, par exemple, le chiffre d’affaires de la ligne de produits d’assurance res­pon­sa­bi­lité civile (insurance liability) en 2016 via le canal de vente des suc­cur­sales (indiqué en bleu clair dans l’il­lus­tra­tion).

Le processus OLAP n’est pas limité à trois di­men­sions. Un tel cube de données est structuré de manière n-di­men­sion­nelle et peut en théorie contenir autant de di­men­sions que vous le souhaitez.

Remarque

en fonction de la tech­no­lo­gie de stockage sur laquelle le Core data warehouse est basé, on distingue dif­fé­rents processus OLAP. Si le cube accède à des données à partir d’une base de données re­la­tion­nelle, il est appelé ROLAP (Re­la­tion­nal OLAP). Les cubes basés sur des bases de données mul­ti­di­men­sion­nelles sont appelés MOLAP (multi-di­men­sio­nal OLAP).

Niveau de livraison des données

Ce niveau de données sert d’interface avec les ap­pli­ca­tions finales et les outils de pré­sen­ta­tion, ce qui facilite l’analyse des données et les méthodes d’éva­lua­tion qui per­met­tent d’extraire des in­for­ma­tions des entrepôts de données et de les traiter sous dif­fé­rentes formes de pré­sen­ta­tion pour les uti­li­sa­teurs finaux. La gamme comprend notamment les outils de rapports et d’in­ter­ro­ga­tion, les outils de col­la­bo­ra­tion et d’ex­plo­ra­tion de données, le trai­te­ment ana­ly­tique en ligne (OLAP), les systèmes d’in­for­ma­tion exécutive (EIS) et les outils de prévision et de si­mu­la­tion.

Outils de requêtes et de rapports

Les outils de reporting offrent à l’uti­li­sa­teur final dif­fé­rentes fonctions pour créer des rapports standards pré­dé­fi­nis (Pre­de­fi­ned Re­por­tings). Les rapports peuvent être au­to­ma­ti­que­ment émis à in­ter­valles réguliers ou sur demande. Pour que l’uti­li­sa­teur final puisse fa­ci­le­ment demander des ren­seig­ne­ments au DWH, ces requêtes peuvent être pré­dé­fi­nies à l’aide d’outils de recherche (query tools).

Outils de col­la­bo­ra­tion

Les outils de col­la­bo­ra­tion sou­tien­nent la com­mu­ni­ca­tion et la col­la­bo­ra­tion des uti­li­sa­teurs finaux avec l’analyse des données. L’éventail des fonctions offert par cette gamme d’outils comprend, par exemple, la sau­ve­garde des an­no­ta­tions et l’échange des résultats d’analyse.

Outils de data mining

Le terme de data mining couvre toutes les méthodes d’analyse non dirigées et par­tiel­le­ment au­to­ma­ti­sées qui visent à iden­ti­fier les modèles, tendances et relations per­ti­nentes dans la base de données. Les outils d’ex­plo­ra­tion de données sont basés sur des méthodes sta­tis­tiques et ma­thé­ma­tiques ainsi que sur l’in­tel­li­gence ar­ti­fi­cielle (AI) et les tech­niques d’ap­pren­tis­sage de la machine. La quantité de données que les en­tre­prises génèrent, traitent et fu­sion­nent dans un DWH à des fins d’analyse croît de manière ex­po­nen­tielle. Le volume moyen des données dans le monde double tous les deux ans. Dans ce contexte, les méthodes d’ex­plo­ra­tion des données prennent une im­por­tance crois­sante dans le cadre de l’en­tre­po­sage de données.

Outils de trai­te­ment ana­ly­tique en ligne (OLAP)

Parmi les outils d’analyse et d’éva­lua­tion des données dis­po­nibles, les ap­pli­ca­tions OLAP se sont par­ti­cu­liè­re­ment imposées comme des in­ter­faces uti­li­sa­teurs standard pour le data wa­re­hou­sing. Les outils qui sont utilisés dans le contexte du trai­te­ment ana­ly­tique en ligne apportent aux uti­li­sa­teurs diverses fonctions afin de formuler des requêtes à l’entrepôt de données. Ils sont utilisés pour naviguer dans l’ensemble mul­ti­di­men­sion­nel de données.

L’affichage via OLAP permet de modéliser des données formatées en fonction d’un nombre quel­conque de di­men­sions pré­dé­fi­nies. Les analystes peuvent utiliser diverses opé­ra­tions de base afin d’éditer un cube OLAP.

  • Slicing : le « slicing » est un processus qui délimite une dimension d’un cube OLAP à un sous-ensemble. C’est une ex­trac­tion d’un bloc du cube de données qui est visualisé sé­pa­ré­ment.

L’image suivante montre la dimension de la période (time period) avec la section de 2015 mise en évidence. Ainsi, la partie surlignée indique le chiffre d’affaires de tous les produits d’assurance vendus par tous les canaux de dis­tri­bu­tion au cours de l‘année 2015.

  • Dicing : si un cube OLAP est découpé en plusieurs di­men­sions par des opé­ra­tions si­mul­ta­nées de Slicing, on parle alors de « Dicing ». Le processus de Dicing crée un cube plus petit qui est alors un sous-ensemble du cube total.

L’il­lus­tra­tion suivante montre une opération de dicing, où le cube total a été réduit à un sous-ensemble dans les trois di­men­sions.

  • Pivoting : la rotation du cube de données de sorte qu’au moins une autre dimension soit visible est appelée pivoting.
  • Drill-down et roll-up : si les agrégats d’un objet d’in­for­ma­tion doivent être dé­com­po­sés en valeurs plus dé­tail­lées, l’opération Drill-down ou forage vers le bas est alors utilisée. Cela permet aux analystes de zoomer sur un cube OLAP et d’augmenter ainsi la gra­nu­la­rité des données ; c‘est donc une re­pré­sen­ta­tion plus détaillée. Au contraire, un roll-up ou forage vers le haut consiste à re­pré­sen­ter les données du cube à un niveau de gra­nu­la­rité supérieur et est donc utilisé pour comprimer les in­for­ma­tions sur les niveaux hié­rar­chiques su­pé­rieurs. Le drill-down et le roll-up sont utilisés pour la na­vi­ga­tion dans des struc­tures hié­rar­chiques mul­ti­di­men­sion­nelles.

Le graphique suivant montre un drill-down de l’objet d’in­for­ma­tion chiffre d’affaire dans la dimension des lignes de produits. La gra­nu­la­rité est augmentée de sorte que les chiffres d’affaires en­re­gis­trés dans le DWH peuvent être in­ter­pré­tés et analysés en fonction des produits in­di­vi­duels.

  • Drill-out/Split : le drill-out (ou split ou division) permet aux analystes d’ajouter une dimension sup­plé­men­taire à un cube OLAP. Il en résulte des données plus dé­tail­lées. Cependant, con­trai­re­ment à l’opération Drill-Down, le niveau de détail n’est pas augmenté en termes de gra­nu­la­rité, mais c’est plutôt un gain d’in­for­ma­tion résultant de l’in­for­ma­tion de référence sup­plé­men­taire de la dimension ajoutée.
     
  • Drill-in/Merge : en op­po­si­tion au drill-out, le niveau de détail du cube OLAP est réduit en sup­pri­mant les di­men­sions. Con­trai­re­ment au roll-up, la perte d’in­for­ma­tions dans cette opération ne résulte pas d’un chan­ge­ment de plan de vi­sua­li­sa­tion, mais de la perte d’in­for­ma­tions di­men­sion­nelles. La gra­nu­la­rité reste donc la même.
     
  • Drill-across : l’opération de données Drill-across ou « jointure » est aussi utilisée pour analyser l’ensemble de données. Alors que les opé­ra­tions vues jusqu’à présent font toujours référence à un cube OLAP, la procédure de jointure est appliquée à plusieurs cubes de données afin de permettre des analyses globales. N’importe quel nombre de tables de faits avec au moins une dimension commune peut être analysé sur le même niveau hié­rar­chique et de gra­nu­la­rité, tout en main­te­nant le niveau de vi­sua­li­sa­tion.
     
  • Drill-through : c’est une opération au cours de laquelle un analyste sé­lec­tionne une seule cellule d’un cube de données et l’examine au plus haut niveau de détail. Con­trai­re­ment au drill-down, le drill-through accède aux données sources de la cellule du cube sé­lec­tion­née. Cela signifie que le résultat du Drill-through est dérivé des cellules du tableau qui sous-tendent la cellule du cube sé­lec­tion­née.

Executive In­for­ma­tion System (EIS)

Comme pour OLAP, les outils EIS apportent aux uti­li­sa­teurs dif­fé­rentes façons de formuler des requêtes et de modéliser les données. Cependant, con­trai­re­ment à OLAP, le terme EIS est aujourd’hui surtout utilisé pour désigner les systèmes d’ap­pli­ca­tion complets et prêts à l’emploi qui four­nis­sent des rapports pré­dé­fi­nis pour certains domaines d’activité comme la vente, le marketing ou encore la pla­ni­fi­ca­tion fi­nan­cière.

Outils de prévision et de si­mu­la­tion

Les outils de prévision et de si­mu­la­tion per­met­tent aux uti­li­sa­teurs de mettre à jour les données stockées dans le DWH et de dé­ve­lop­per des modèles de prévision.

Data warehouse ma­na­ge­ment

Des outils spéciaux sont actifs à tous les niveaux du DWH et sont regroupés sous le terme de warehouse ma­na­ge­ment. Le rôle de ces com­po­sants consiste à mettre en place, maintenir et exploiter toutes les fonctions d’ad­mi­nis­tra­tion né­ces­saires à l’en­tre­po­sage des données. Les prin­ci­pales tâches du « res­pon­sable DWH » sont la pla­ni­fi­ca­tion des processus DWH, la gestion des mé­ta­don­nées, la gestion de la sécurité ainsi que la gestion du système.

  • Sche­du­ling : ceci comprend le contrôle des processus DWH. Les fonctions d’ad­mi­nis­tra­tion dans le contexte de l’or­don­nan­ce­ment peuvent être classées comme suit en fonction des niveaux de l’ar­chi­tec­ture de l’entrepôt des données :
     
    • Collecte et entrée des données : au niveau de la collecte des données, le manager DWH est res­pon­sable de la con­cep­tion et de la per­son­na­li­sa­tion des processus ETL. Des fonctions d’ad­mi­nis­tra­tion sont aussi prévues pour contrôler les mises à jour et la gestion de la qualité.
       
    • Stockage et archivage des données : au niveau du stockage des données, le manager DWH surveille l’uti­li­sa­tion de la mémoire, construit des tables d’agré­ga­tion et effectue des opé­ra­tions d’archivage et de sau­ve­garde.
       
    • Four­ni­ture et trans­mis­sion des données : les fonctions d’ad­mi­nis­tra­tion à ce niveau com­por­tent la gestion des uti­li­sa­teurs et le suivi des temps d’exécution des requêtes.
       
  • Ma­na­ge­ment des méta-données : le dépôt de mé­ta­don­nées (metadata re­po­si­tory) est un élément central du manager DWH. Il contient toutes les in­for­ma­tions né­ces­saires à la con­cep­tion et au fonc­tion­ne­ment des in­for­ma­tions relatives à la base de données du DWH. Les mé­ta­don­nées stockées dans le ré­fé­ren­tiel com­pren­nent, par exemple, la dé­fi­ni­tion du schéma de base de données sous-jacent, des in­for­ma­tions sur les struc­tures de sau­ve­garde, les chemins d’accès avec la taille des fichiers, les méta-données sur la des­crip­tion des données sources, mais aussi les temps de mise à jour, les règles sur le nettoyage des données ainsi que la trans­for­ma­tion des données, les index et les tables de par­ti­tions. En outre, le ges­tion­naire DWH s’occupe de l’échange des mé­ta­don­nées entre les dif­fé­rentes com­po­santes de l’entrepôt de données et apporte ainsi une base homogène pour les mé­ta­don­nées.
     
  • Gestion de la sécurité : le ma­na­ge­ment de la sécurité comporte divers services d’au­then­ti­fi­ca­tion, d’au­to­ri­sa­tion des uti­li­sa­teurs et de cryptage. 
     
  • Gestion du système : dans le cadre de la gestion du système, le manager DWH assure  diverses fonctions d’ad­mi­nis­tra­tion pour le fonc­tion­ne­ment du DWH. Il s’agit par exemple du mo­ni­to­ring (per­for­mance, uti­li­sa­tion etc.), de l’archivage ou de la sau­ve­garde des données.

L’en­tre­po­sage des données et la question de la pro­tec­tion des données

L’agré­ga­tion, le stockage à grande échelle de données opé­ra­tion­nelles, com­mer­ciales et clients dans un entrepôt de données et l’analyse de cette masse de données à l’aide de méthodes de data mining  ou d’ap­pli­ca­tions OLAP offrent aux en­tre­prises des op­por­tu­ni­tés pour optimiser du­ra­ble­ment leurs processus com­mer­ciaux. Outre les avantages des analyses de données pour la prise de décisions, certains tirent toutefois la sonnette d’alarme sur les risques im­por­tants de ces analyses de données en matière de pro­tec­tion de la vie privée.

Selon les critiques, les analyses qui per­met­tent de créer des profils de per­son­na­lité et des pré­dic­tions au­to­ma­ti­sées de com­por­te­ments et d’actions sont par­ti­cu­liè­re­ment sensibles. Le débat se concentre en effet sur le potentiel de ma­ni­pu­la­tion de l’in­for­ma­tion à partir des analyses de données.

En France, le cadre légal qui régit l‘ex­ploi­ta­tion et le stockage des données et leur pro­tec­tion se trouve dans le texte de loi In­for­ma­tique et Libertés. Ce cadre légal national est aussi renforcé au niveau européen avec le RGPD (règlement général sur la pro­tec­tion des données). Dans ce contexte, les con­di­tions de bases suivantes s’ap­pli­quent au stockage et au trai­te­ment ultérieur des données à caractère personnel :

  • Af­fec­ta­tion et finalité des données per­son­nelles : les données per­son­nelles ne peuvent être col­lec­tées, stockées et traitées que dans le cadre d’objectifs lé­ga­le­ment autorisés et d’accord mutuels. Les objectifs doivent être formulés avant la collecte. Mais selon certains dé­fen­seurs de la pro­tec­tion des données, le stockage de données per­son­nelles dans un entrepôt de données s’écarte bien souvent de la finalité initiale d’uti­li­sa­tion et re­pré­sente bien souvent un stockage abusif et contraire à l’objectif initial.
     
  • Chan­ge­ment de finalité uni­que­ment avec le con­sen­te­ment de l’intéressé : les mo­di­fi­ca­tions de la finalité de stockage des données per­son­nelles ne sont au­to­ri­sées qu’avec le con­sen­te­ment des personnes. Ces dernières doivent de plus être informées de la portée du con­sen­te­ment. Les pro­cé­dures de collecte de données à caractère personnel doivent respecter le fait que les personnes puissent évaluer les risques et surtout exercer leurs droits. En effet, le con­sen­te­ment doit pouvoir être retiré à tout moment puisque d’après la loi, chacun doit pouvoir décider et contrôler les usages des données per­son­nelles le con­cer­nant.
     
  • Mi­ni­mi­sa­tion de la collecte : les systèmes de trai­te­ment et de collecte de données doivent être conçus de manière à collecter le moins de données à caractère personnel possible. Uni­que­ment les données stric­te­ment né­ces­saires à la réa­li­sa­tion de l’objectif doivent être col­lec­tées. De plus, les pro­cé­dures ano­ny­mi­sées voire pseu­do­ny­mi­sées sont plus inof­fen­sives et plus res­pec­tueuses.
  • Un stockage permanent de données per­son­nelles n’est pas autorisé lors de l’archivage de données per­son­nelles. Les délais légaux de con­ser­va­tion doivent être respectés. Si ce délai est dépassé et prolongé sans au­to­ri­sa­tion, ce stockage devient alors illégal.
     
  • Le profilage et les décisions in­di­vi­duelles au­to­ma­ti­sées : parfois les pro­cé­dures de data mining sont utilisées dans le contexte des décisions in­di­vi­duelles au­to­ma­ti­sées. Or une telle approche, y compris le profilage, est désormais contraire au nouveau règlement européen sur la pro­tec­tion des données sauf dans des cas limités et si des mesures strictes sont prises pour garantir le respect des droits de la personne.

Il est re­com­mandé aux éditeurs et aux uti­li­sa­teurs d’utiliser des systèmes de stockage de données et de pro­cé­dures de data mining basés sur des tech­niques qui res­pec­tent la pro­tec­tion des données et qui évitent le stockage de données à caractère personnel par le biais, par exemple, de l’ano­ny­mi­sa­tion ou de la pseu­do­ny­mi­sa­tion.

Logiciels de data warehouse

L’en­tre­po­sage de données a depuis longtemps cessé d’être réservé uni­que­ment aux grandes en­tre­prises. Les petites et moyennes en­tre­prises (PME) voient aussi désormais un potentiel sur l’op­ti­mi­sa­tion des processus d’affaires grâce à des analyses de données poussées. En sus des suites BI coûteuses et des solutions DWH complètes intégrées, des produits d’entrée de gamme à faible coût allant de services de Cloud flexibles à des ap­pli­ca­tions open source sont depuis plusieurs années sur le marché. Ces produits ciblent en par­ti­cu­lier les en­tre­prises de taille moyenne.

Produits d’en­tre­po­sage de données payants

Les logiciels com­mer­ciaux de BI (Business In­tel­li­gence) clas­siques se ca­rac­té­ri­sent gé­né­ra­le­ment par une grande fiabilité, une gamme de services convenus dans le cadre d’accords de niveau de service (SLA pour Service Level Agreement) et une as­sis­tance pro­fes­sion­nelle. Cependant, les uti­li­sa­teurs doivent planifier un budget pour leur ac­qui­si­tion ou pour l’uti­li­sa­tion de ces services basés sur le Cloud.

La liste suivante donne un aperçu des produits de data wa­re­hou­sing payants des prin­ci­paux four­nis­seurs et éditeurs (par ordre al­pha­bé­tique).

Editeurs de logiciels pro­prié­taires Produits d’en­tre­po­sage de données
Amazon Web Services Amazon Redshift
Cloudera Cloudera En­ter­prise
Hewlett Packard En­ter­prise HP Vertica, HP ArcSight Data-Platform, HP Haven OnDemand, HP IDOL, HP Key View
IBM IBM Netezza, IBM PureData System, IBM In­foS­phere DataStage
Microsoft SQL Server, Microsoft Analytics Platform System, Azure HDInsight for Hadoop
Oracle Oracle Business In­tel­li­gence, Oracle Database, Oracle Exadata Database Machine, Oracle NoSQL Database,Oracle TimesTen In-Memory Database, Oracle Big Data Appliance
Pivotal Software Pivotal Greenplum, Pivotal Big Data Suite, Pivotal HDB (powered by Apache HAWQ), Pivotal HDP (OEM Hor­tons­works Data Platform)
SAP SAP NetWeaver Business In­tel­li­gence, SAP IQ, SAP HANA En­ter­prise Cloud
SAS SAS Data Ma­na­ge­ment, SAS Access Interface to Hadoop, SAS Fe­de­ra­tion Server, SAS Data Loader for Hadoop, SAS Event Stream Pro­ces­sing
Snowflake Computing Snowflake
Teradata Teradata Active En­ter­prise Data Warehouse, Teradata Data Warehouse Appliance, Teradata Appliance for Hadoop, Teradata In­te­gra­ted Big Data Platform, Teradata Aster Big Analytics Appliance

Solutions open-source

En plus des produits payants, le marché des logiciels de BI offre dif­fé­rentes solutions open source qui apportent gra­tui­te­ment des fonc­tion­na­li­tés d’en­tre­po­sage de données. Vous trouverez ci-dessous une vue d’ensemble des outils open source de Business In­tel­li­gence. Le tableau montre non seulement les pro­grammes BI open source les plus courants, mais aussi l’étendue des ap­pli­ca­tions offertes par chacun d’entre eux. Plus d’in­for­ma­tions sur les outils de Business In­tel­li­gence open source peuvent être trouvées dans cet article en anglais du site Internet Open­Source.com.

Logiciels de BI Ex­trac­tion de données brutes Tran­for­ma­tion de données brutes Char­ge­ment de données trans­for­mées OLAP Data mining Tableau de bord Rapports
Pentaho DI - - - -
Talend OS - - - -
Jasper ETL - - - -
Pentaho Mondrian - - - -
Jedox - - -
BIRT - - - -
SQL Power Wabit - - -
KNIME -
Ra­pid­Mi­ner
Weka -   -
Jas­per­Soft  
Pentaho
SpagoBI

Les pro­grammes open source listés peuvent être assignés aux domaines de l’ETL, OLAP, data mining et du reporting selon les domaines d’ap­pli­ca­tion. En outre, il existe des solutions de BI intégrées couvrant tous les domaines ré­per­to­riées.

Solutions ETL

Les pro­grammes open source Pentaho DI, Talend OS et Jasper ETL sont idéaux pour l’ac­qui­si­tion de données et pour une in­té­gra­tion dans un processus ETL (ex­trac­tion, trans­for­ma­tion, char­ge­ment).

  • Pentaho DI : l’outil ETL Pentaho Data In­te­gra­tion (DI), également connu sous le nom de Kettle, fait partie de la suite BI de Penthao, mais peut aussi être utilisé comme ap­pli­ca­tion autonome dans les ar­chi­tec­tures d’entrepôt de données, in­dé­pen­dam­ment des autres com­po­sants Pentaho. L’outil d’ac­qui­si­tion et d’in­té­gra­tion de données dispose d’une interface uti­li­sa­teur graphique qui permet aux uti­li­sa­teurs sans con­nais­sances en pro­gram­ma­tion de gérer les processus ETL. Pentaho DI offre un vaste choix de dif­fé­rents modules de processus avec lesquels les dif­fé­rentes étapes du processus ETL peuvent être définies. L’outil d’in­té­gra­tion de données prend en charge tous les systèmes de base de données courants. Les fichiers plats comme CSV, Excel, ou les fichiers texte peuvent aussi être utilisés comme sources de données. De plus, l’outil apporte des in­ter­faces vers des suites BI pro­prié­taires de SAS ou SAP ainsi que vers des logiciels d’analyse comme Google Analytics notamment.
  • Talend OS : com­pa­rable à Pentaho DI, c’est l’outil ETL open source de l’éditeur de logiciels Talend. Talend Open Studio (OS) permet aussi aux uti­li­sa­teurs de définir des processus d’ac­qui­si­tion et d‘in­té­gra­tion de données à l’aide de modules pa­ra­mé­trés (qui sont appelés « jobs »). Le programme offre des in­ter­faces vers toutes les sources de données communes et diverses fonctions de trans­for­ma­tions de données. Un éditeur de cartes permet aux uti­li­sa­teurs de trans­fé­rer des données brutes hé­té­ro­gènes dans une structure cible pré­dé­fi­nie. Comme avec Pentaho DI, les uti­li­sa­teurs de Talend OS sans con­nais­sances en pro­gram­ma­tion bé­né­fi­cient d’une interface uti­li­sa­teur graphique.
     
  • Jasper ETL : Jasper ETL est le résultat d’une coo­pé­ra­tion entre les fa­bri­cants de logiciel Jas­per­soft et Talend. L’outil ETL est es­sen­tiel­le­ment basé sur Talend OS, l’outil d’in­té­gra­tion de données open source leader sur le marché. Il est par­ti­cu­liè­re­ment adapté si d’autres produits BI de Jas­per­soft sont utilisés dans le contexte de l’ar­chi­tec­ture DWH.

Ap­pli­ca­tions OLAP

Les outils OLAP réputés sous licence open source sont Pentaho Mondrian et Jedox.

  • Pentaho Mondrian : Mondrian est un serveur OLAP basé sur Java. Développé à l’origine comme un projet open source in­dé­pen­dant, Mondrian fait partie depuis 2006 de la suite BI de Pentaho. Les uti­li­sa­teurs peuvent continuer à utiliser le logiciel en tant qu’ap­pli­ca­tion in­dé­pen­dante. Mondrian est également utilisé dans les solutions BI d’autres éditeurs de logiciels libres comme Jas­per­soft. Les uti­li­sa­teurs bé­né­fi­cient d’un re­grou­pe­ment de res­sources open source qui permet de réaliser des projets communs tels que le Mondrian Schema Workbench ou l’interface OLAP4J. Le projet Mondrian suit une technique basée sur structure re­la­tion­nelle (ROLAP). La base de données est une base de données re­la­tion­nelle, dont les tables sont or­ga­ni­sées en étoile ou en flocon. L’accès prend la forme de requêtes mul­ti­di­men­sion­nelles (MDX), via XML pour l’analyse (XMLA) ou via l’interface Java OLAP4J. Le Mondrian Schema Workbench apporte aux uti­li­sa­teurs une interface uti­li­sa­teur graphique. Les schémas Mondrian peuvent être fa­ci­le­ment dé­ve­lop­pés et testés sur le bureau.
     
  • Jedox : avec la suite BI du même nom, l’éditeur de logiciels Jedox offre une solution complète pour les ap­pli­ca­tions de Business In­tel­li­gence et de gestion de la per­for­mance. Le composant central du logiciel est un puissant serveur OLAP en mémoire qui peut aussi être intégré dans d’autres en­vi­ron­ne­ments logiciels via des in­ter­faces pour Java, PHP, C/C++ ou .NET. Pour les PME, utiliser Jedox est par­ti­cu­liè­re­ment adapté en raison de l’add-in Excel, qui peut aussi être utilisé afin de faire fonc­tion­ner le serveur OLAP à l’aide du célèbre logiciel tableau de Microsoft. En effet, les ap­pli­ca­tions Office sont largement utilisées par les petites et moyennes en­tre­prises, où elles cons­ti­tuent souvent la base de la gestion des données. L’in­té­gra­tion d’Excel réduit ainsi le temps et les efforts né­ces­saires notamment à la formation des employés.

Data mining

Des produits open source sont également dis­po­nibles pour les uti­li­sa­teurs dans le domaine du data mining sous une licence open source. La BMWI re­com­mande KNIME, Ra­pid­Mi­ner et Weka.

  • KNIME : KNIME est l’abré­via­tion de « Konstanz In­for­ma­tion Miner ». C’est un outil de data mining développé comme logiciel libre à l’uni­ver­sité de Constance en Allemagne. Il offre aux uti­li­sa­teurs, en plus de ses propres méthodes d’analyse, de nom­breuses pos­si­bi­li­tés d’in­té­gra­tion pour dif­fé­rents al­go­rithmes de data mining et d’ap­pren­tis­sage au­to­ma­tique (machine learning). Les dif­fé­rentes étapes de pré­trai­te­ment de données (ETL), de la mo­dé­li­sa­tion, de l’analyse et de la vi­sua­li­sa­tion peuvent être définies via une interface uti­li­sa­teur graphique en glissant et déposant les modules res­pec­tifs dans la zone de travail. KNIME.com, AG basée à Zurich, propose un té­lé­char­ge­ment gratuit du logiciel. Si né­ces­saire, les uti­li­sa­teurs peuvent aussi y obtenir un soutien technique pro­fes­sion­nel et des services de con­sul­ta­tion. Le programme écrit en Java est proposé sous la forme de plugins pour l’outil de pro­gram­ma­tion Eclipse (IDE).
     
  • Ra­pid­Mi­ner : la pla­te­forme d’analyse Ra­pid­Mi­ner de l’éditeur de logiciels du même nom offre aux uti­li­sa­teurs un en­vi­ron­ne­ment intégré pour l’ap­pren­tis­sage au­to­ma­tique, le data mining, les analyses des tendances et les modèles de prévision dans un modèle open core. Le support couvre toutes les étapes du processus de data mining dont la pré­pa­ra­tion, la vi­sua­li­sa­tion, la va­li­da­tion et l’op­ti­mi­sa­tion des données. Les uti­li­sa­teurs pour lesquels la version com­mu­nau­taire gratuite, avec un seul pro­ces­seur logique et une portée d’analyse allant jusqu’à 10 000 en­re­gis­tre­ments de données n’est pas suf­fi­sante, peuvent choisir la licence En­tre­prise payante. Le programme est écrit en Java, et offre une interface uti­li­sa­teur graphique avec laquelle le workflow d’analyse peut être fa­ci­le­ment défini et exécuté en quelques clics de souris.
     
  • Weka : Weka (Waikato En­vi­ron­ment for Knowledge Analysis) est un projet open source de l’uni­ver­sité de Waikato en Nouvelle-Zélande. L’outil d’analyse apporte aux uti­li­sa­teurs dif­fé­rents al­go­rithmes dans le domaine de l’ap­pren­tis­sage au­to­ma­tique. Outre les méthodes clas­siques de data ming comme la clas­si­fi­ca­tion, l’as­so­cia­tion ainsi que la ré­gres­sion ou l’analyse de cluster, Weka comporte divers modules de vi­sua­li­sa­tion et de pré­trai­te­ment des données. Le programme écrit en Java offre une interface uti­li­sa­teur graphique. Les fonc­tion­na­li­tés du logiciel peuvent s’exécuter aussi via les lignes de commande. Si besoin, Weka peut être intégré à vos propres solutions lo­gi­cielles via une interface Java.

Systèmes de reporting

Les outils de reporting open-source re­com­man­dés sont BIRT et SQL Power Wabit. Outre les rapports mensuels, tri­mes­triels et annuels clas­siques, ces rapports offrent aussi des fonctions d’analyse ad hoc per­met­tant de fournir des in­for­ma­tions per­ti­nentes en temps réel.

  • BIRT : BIRT (Business In­tel­li­gence and Reporting Tools) est un projet open source de la fondation à but non lucratif Eclipse Foun­da­tion, qui fournit des fonc­tion­na­li­tés de reporting BI pour « clients riches (RCP) » et ap­pli­ca­tions Web. Le logiciel est adapté aux ap­pli­ca­tions basées sur Java et couvre un large éventail de vi­sua­li­sa­tion et de rapports de données. Les rapports BIRT sont créés via une interface uti­li­sa­teur graphique basée sur l’outil de pro­gram­ma­tion open source Eclipse et sau­ve­gar­dés sous forme de fichiers XML.
     
  • SQL Power Wabit : avec l’outil de reporting SQL Power Wabit, les uti­li­sa­teurs peuvent créer des rapports basés sur des requêtes clas­siques de base de données. Les cubes OLAP ne sont pris en charge que s’il existe une des­crip­tion de la structure de données. L’outil prend en charge les rapports standards, les requêtes ad hoc, les pages de synthèse définies par l’uti­li­sa­teur et les opé­ra­tions de recherche dans le cadre du trai­te­ment ana­ly­tique en ligne. Avec des fonctions comme le contrôle par glisser-déposer, la mise à jour des rapports de résultats en temps réel, la recherche globale et un éditeur WYSIWYG pour la rédaction de rapports, SQL Power Wabit convient également aux uti­li­sa­teurs qui n’ont pas de con­nais­sances en SQL. Grâce à cela, des rapports détaillés peuvent être fa­ci­le­ment créés et si né­ces­saire, adaptés in­di­vi­duel­le­ment en ce qui concerne la police, les couleurs et la mise en page.

Solutions de BI intégrées

En plus des suites de Business In­tel­li­gence d’éditeurs réputés comme SAP, Oracle, IBM, SAS, HP ou Microsoft, il existe aussi des projets logiciels sur le marché open source qui apportent aux uti­li­sa­teurs des solutions d’en­tre­po­sage de données sous forme de col­lec­tions de pro­grammes intégrés. Pentaho CE, Jas­per­soft et SpagoBI sont pour cela re­com­man­dés.

  • Pentaho Community Edition (CE) : en plus des dé­ve­lop­pe­ments internes, la suite Pentaho BI comporte aussi des projets open source existants qui ont été pro­gres­si­ve­ment achetés puis intégrés dans le por­te­feuille de produits. Le projet se concentre sur l’in­té­gra­tion des données et l’au­to­ma­ti­sa­tion des rapports. La col­lec­tion du programme comprend :
     
    • Pentaho Business Analytics Platform : la pla­te­forme Business Analytics est une ap­pli­ca­tion Web qui permet aux uti­li­sa­teurs de regrouper toutes les in­for­ma­tions dans une pla­te­forme centrale.
       
    • Pentaho Data In­te­gra­tion : Pentaho DI se réfère à l’outil ETL décrit ci-dessus.
       
    • Pentaho Report Designer (PRD) : PRD est un dé­ve­lop­pe­ment du projet JFree­Re­port. La solution de reporting open source prend en charge dif­fé­rents formats de sortie comme PDF, Excel, HTML, Text, Rich-Text-File, XML et CSV.
       
    • Pentaho Mar­ket­place : le Mar­ket­place permet aux uti­li­sa­teurs d’ajouter des plugins à la pla­te­forme Pentaho en un simple clic.
       
    • Pentaho Ag­gre­ga­tion Designer (PAD) : avec PAD, les uti­li­sa­teurs peuvent créer et optimiser le contenu des bases de données. Le cœur de l’outil est le serveur OLAP Mondrian.
       
    • Pentaho Schema Workbench (PSW) : PSW est une interface de con­cep­tion graphique qui offre la pos­si­bi­lité aux uti­li­sa­teurs de créer et de tester les schémas pour les cubes OLAP Mondrian.
       
    • Pentaho Metadata Editor (PME) : PME est utilisé pour décrire dans le détail les struc­tures de données sous-jacentes à l’aide d’un fichier XML.

Pentaho En­ter­prise Edition (EE) est une version payante de la suite de BI avec des fonc­tion­na­li­tés étendues et un support pro­fes­sion­nel.

  • Jas­per­soft : Jas­per­soft propose diverses ap­pli­ca­tions DWH dans une solution de BI intégrée. La col­lec­tion du programme comprend donc : 
    • Jas­per­Re­ports Server : le serveur Jas­per­Re­ports est un serveur de rapports qui apporte une fonc­tion­na­lité OLAP par l’in­ter­mé­diaire d’un serveur Mondrian ajusté.
    • Jas­per­Re­ports Library : Jas­per­soft fournit une bi­blio­thèque Java pour la création de rapports.
    • Jas­per­soft Studio : avec Jas­per­soft Studio, la suite de BI fournit un éditeur de rapports.  
    • Jas­per­soft ETL : l’outil ETL basé sur Talend OS déjà décrit ci-dessus.
    • Mobile BI : Mobile BI est une ap­pli­ca­tion native pour iPhone et Android qui apporte un accès mobile aux rapports et tableaux de bord.

Jas­per­soft est aussi dis­po­nible avec une gamme étendue de fonctions dans une version com­mer­ciale payante.

  • SpagoBI : con­trai­re­ment à Penthao et Jas­per­soft, qui com­mer­cia­li­sent leurs produits avec un système de double licence, Spa­go­World offre sa suite de BI ex­clu­si­ve­ment sous la forme de solution open source. Les en­tre­prises ont cependant la pos­si­bi­lité d’utiliser une con­fi­gu­ra­tion et une adap­ta­tion pro­fes­sion­nelle du logiciel via un service payant. La col­lec­tion du programme comprend les éléments suivants :
    • SpagoBI Server : le cœur de la suite de BI open source est le serveur SpagoBI, qui fournit tous les outils et fonc­tion­na­li­tés d’analyse.
    • SpagoBI Studio : SpagoBI Studio est un en­vi­ron­ne­ment de dé­ve­lop­pe­ment intégré.
    • SpagoBI Meta : SpagoBI Meta apporte aux uti­li­sa­teurs un en­vi­ron­ne­ment de gestion des mé­ta­don­nées.
    • SpagoBI SDK : avec SpagoBI SDK, la suite Spago BI dispose d’une couche d’in­té­gra­tion qui permet d’intégrer dif­fé­rents outils externes, tels que Talend OS (ETL), Jedox ou Mondrian (OLAP), Weka ou R (da­ta­mi­ning) ainsi que BIRT ou Jas­per­Re­ports Library (reporting).

Archivage des données

Les uti­li­sa­teurs ont également diverses al­ter­na­tives aux systèmes de gestion de bases de données pro­prié­taires tels que Microsoft SQL Server, IBM DB2 ou les solutions d’Oracle et Teradata dis­po­nibles en tant que projets de logiciels libres dans le domaine de la gestion des données. Les prin­ci­paux magasins de données sont les systèmes de bases de données re­la­tion­nelles MySQL et MariaDB ou le système de gestion de base de données re­la­tion­nel/objet Post­greSQL. Le dernier est publié par Pivotal sous le nom de Greenplum Database en tant que dé­ve­lop­pe­ment optimisé, en par­ti­cu­lier pour les ar­chi­tec­tures d’entrepôt de données sous licence open source.

Con­clu­sion : l’en­tre­po­sage de données dans les en­tre­prises de taille moyenne

Le data wa­re­hou­sing est arrivé sur le marché dit in­ter­mé­diaire. Le marché des solutions de BI et des systèmes de data warehouse offre, en plus des solutions En­tre­prise payantes, un large éventail de projets open source uti­li­sables. Pour les petites et moyennes en­tre­prises, l’obstacle financier associé à l’analyse de données vo­lu­mi­neuses diminue ainsi.

Il est re­com­mandé aux petites et moyennes en­tre­prises de se con­cen­trer d’abord sur le reporting lors de l’in­tro­duc­tion de solutions de BI. Les en­tre­pre­neurs ob­tien­nent une valeur ajoutée en combinant les données exis­tantes avec des dépenses simples. Si des lacunes dans la base de données de­vien­nent ap­pa­rentes au cours de l’analyse, la prochaine étape devrait être de réor­ga­ni­ser la collecte de données à l’aide des outils ETL ou OLAP présentés ici. L’in­té­gra­tion d’une ar­chi­tec­ture d’entrepôt de données (DWH) dans l’in­fras­truc­ture in­for­ma­tique res­pec­tive est complétée par des outils de data mining, qui peuvent iden­ti­fier de nouvelles tendances et des con­nexions croisées grâce à des analyses plus poussées (par exemple, des analyses de panier d’achat) et apporter ainsi une con­tri­bu­tion cruciale pour la prise de décision stra­té­gique.

Les en­tre­prises de taille moyenne qui en­vi­sa­gent de créer un entrepôt de données devraient s’attacher dès le départ à mettre en œuvre la stratégie de BI en se con­for­mant et en res­pec­tant les règles en matière de pro­tec­tion des données.

Aller au menu principal