Solutions ETL
Les programmes open source Pentaho DI, Talend OS et Jasper ETL sont idéaux pour l’acquisition de données et pour une intégration dans un processus ETL (extraction, transformation, chargement).
- Pentaho DI : l’outil ETL Pentaho Data Integration (DI), également connu sous le nom de Kettle, fait partie de la suite BI de Penthao, mais peut aussi être utilisé comme application autonome dans les architectures d’entrepôt de données, indépendamment des autres composants Pentaho. L’outil d’acquisition et d’intégration de données dispose d’une interface utilisateur graphique qui permet aux utilisateurs sans connaissances en programmation de gérer les processus ETL. Pentaho DI offre un vaste choix de différents modules de processus avec lesquels les différentes étapes du processus ETL peuvent être définies. L’outil d’intégration de données prend en charge tous les systèmes de base de données courants. Les fichiers plats comme CSV, Excel, ou les fichiers texte peuvent aussi être utilisés comme sources de données. De plus, l’outil apporte des interfaces vers des suites BI propriétaires de SAS ou SAP ainsi que vers des logiciels d’analyse comme Google Analytics notamment.
- Talend OS : comparable à Pentaho DI, c’est l’outil ETL open source de l’éditeur de logiciels Talend. Talend Open Studio (OS) permet aussi aux utilisateurs de définir des processus d’acquisition et d‘intégration de données à l’aide de modules paramétrés (qui sont appelés « jobs »). Le programme offre des interfaces vers toutes les sources de données communes et diverses fonctions de transformations de données. Un éditeur de cartes permet aux utilisateurs de transférer des données brutes hétérogènes dans une structure cible prédéfinie. Comme avec Pentaho DI, les utilisateurs de Talend OS sans connaissances en programmation bénéficient d’une interface utilisateur graphique.
- Jasper ETL : Jasper ETL est le résultat d’une coopération entre les fabricants de logiciel Jaspersoft et Talend. L’outil ETL est essentiellement basé sur Talend OS, l’outil d’intégration de données open source leader sur le marché. Il est particulièrement adapté si d’autres produits BI de Jaspersoft sont utilisés dans le contexte de l’architecture DWH.
Applications OLAP
Les outils OLAP réputés sous licence open source sont Pentaho Mondrian et Jedox.
- Pentaho Mondrian : Mondrian est un serveur OLAP basé sur Java. Développé à l’origine comme un projet open source indépendant, Mondrian fait partie depuis 2006 de la suite BI de Pentaho. Les utilisateurs peuvent continuer à utiliser le logiciel en tant qu’application indépendante. Mondrian est également utilisé dans les solutions BI d’autres éditeurs de logiciels libres comme Jaspersoft. Les utilisateurs bénéficient d’un regroupement de ressources open source qui permet de réaliser des projets communs tels que le Mondrian Schema Workbench ou l’interface OLAP4J. Le projet Mondrian suit une technique basée sur structure relationnelle (ROLAP). La base de données est une base de données relationnelle, dont les tables sont organisées en étoile ou en flocon. L’accès prend la forme de requêtes multidimensionnelles (MDX), via XML pour l’analyse (XMLA) ou via l’interface Java OLAP4J. Le Mondrian Schema Workbench apporte aux utilisateurs une interface utilisateur graphique. Les schémas Mondrian peuvent être facilement développés et testés sur le bureau.
- Jedox : avec la suite BI du même nom, l’éditeur de logiciels Jedox offre une solution complète pour les applications de Business Intelligence et de gestion de la performance. Le composant central du logiciel est un puissant serveur OLAP en mémoire qui peut aussi être intégré dans d’autres environnements logiciels via des interfaces pour Java, PHP, C/C++ ou .NET. Pour les PME, utiliser Jedox est particulièrement adapté en raison de l’add-in Excel, qui peut aussi être utilisé afin de faire fonctionner le serveur OLAP à l’aide du célèbre logiciel tableau de Microsoft. En effet, les applications Office sont largement utilisées par les petites et moyennes entreprises, où elles constituent souvent la base de la gestion des données. L’intégration d’Excel réduit ainsi le temps et les efforts nécessaires notamment à la formation des employés.
Data mining
Des produits open source sont également disponibles pour les utilisateurs dans le domaine du data mining sous une licence open source. La BMWI recommande KNIME, RapidMiner et Weka.
- KNIME : KNIME est l’abréviation de « Konstanz Information Miner ». C’est un outil de data mining développé comme logiciel libre à l’université de Constance en Allemagne. Il offre aux utilisateurs, en plus de ses propres méthodes d’analyse, de nombreuses possibilités d’intégration pour différents algorithmes de data mining et d’apprentissage automatique (machine learning). Les différentes étapes de prétraitement de données (ETL), de la modélisation, de l’analyse et de la visualisation peuvent être définies via une interface utilisateur graphique en glissant et déposant les modules respectifs dans la zone de travail. KNIME.com, AG basée à Zurich, propose un téléchargement gratuit du logiciel. Si nécessaire, les utilisateurs peuvent aussi y obtenir un soutien technique professionnel et des services de consultation. Le programme écrit en Java est proposé sous la forme de plugins pour l’outil de programmation Eclipse (IDE).
- RapidMiner : la plateforme d’analyse RapidMiner de l’éditeur de logiciels du même nom offre aux utilisateurs un environnement intégré pour l’apprentissage automatique, le data mining, les analyses des tendances et les modèles de prévision dans un modèle open core. Le support couvre toutes les étapes du processus de data mining dont la préparation, la visualisation, la validation et l’optimisation des données. Les utilisateurs pour lesquels la version communautaire gratuite, avec un seul processeur logique et une portée d’analyse allant jusqu’à 10 000 enregistrements de données n’est pas suffisante, peuvent choisir la licence Entreprise payante. Le programme est écrit en Java, et offre une interface utilisateur graphique avec laquelle le workflow d’analyse peut être facilement défini et exécuté en quelques clics de souris.
- Weka : Weka (Waikato Environment for Knowledge Analysis) est un projet open source de l’université de Waikato en Nouvelle-Zélande. L’outil d’analyse apporte aux utilisateurs différents algorithmes dans le domaine de l’apprentissage automatique. Outre les méthodes classiques de data ming comme la classification, l’association ainsi que la régression ou l’analyse de cluster, Weka comporte divers modules de visualisation et de prétraitement des données. Le programme écrit en Java offre une interface utilisateur graphique. Les fonctionnalités du logiciel peuvent s’exécuter aussi via les lignes de commande. Si besoin, Weka peut être intégré à vos propres solutions logicielles via une interface Java.
Systèmes de reporting
Les outils de reporting open-source recommandés sont BIRT et SQL Power Wabit. Outre les rapports mensuels, trimestriels et annuels classiques, ces rapports offrent aussi des fonctions d’analyse ad hoc permettant de fournir des informations pertinentes en temps réel.
- BIRT : BIRT (Business Intelligence and Reporting Tools) est un projet open source de la fondation à but non lucratif Eclipse Foundation, qui fournit des fonctionnalités de reporting BI pour « clients riches (RCP) » et applications Web. Le logiciel est adapté aux applications basées sur Java et couvre un large éventail de visualisation et de rapports de données. Les rapports BIRT sont créés via une interface utilisateur graphique basée sur l’outil de programmation open source Eclipse et sauvegardés sous forme de fichiers XML.
- SQL Power Wabit : avec l’outil de reporting SQL Power Wabit, les utilisateurs peuvent créer des rapports basés sur des requêtes classiques de base de données. Les cubes OLAP ne sont pris en charge que s’il existe une description de la structure de données. L’outil prend en charge les rapports standards, les requêtes ad hoc, les pages de synthèse définies par l’utilisateur et les opérations de recherche dans le cadre du traitement analytique en ligne. Avec des fonctions comme le contrôle par glisser-déposer, la mise à jour des rapports de résultats en temps réel, la recherche globale et un éditeur WYSIWYG pour la rédaction de rapports, SQL Power Wabit convient également aux utilisateurs qui n’ont pas de connaissances en SQL. Grâce à cela, des rapports détaillés peuvent être facilement créés et si nécessaire, adaptés individuellement en ce qui concerne la police, les couleurs et la mise en page.
Solutions de BI intégrées
En plus des suites de Business Intelligence d’éditeurs réputés comme SAP, Oracle, IBM, SAS, HP ou Microsoft, il existe aussi des projets logiciels sur le marché open source qui apportent aux utilisateurs des solutions d’entreposage de données sous forme de collections de programmes intégrés. Pentaho CE, Jaspersoft et SpagoBI sont pour cela recommandés.
- Pentaho Community Edition (CE) : en plus des développements internes, la suite Pentaho BI comporte aussi des projets open source existants qui ont été progressivement achetés puis intégrés dans le portefeuille de produits. Le projet se concentre sur l’intégration des données et l’automatisation des rapports. La collection du programme comprend :
- Pentaho Business Analytics Platform : la plateforme Business Analytics est une application Web qui permet aux utilisateurs de regrouper toutes les informations dans une plateforme centrale.
- Pentaho Data Integration : Pentaho DI se réfère à l’outil ETL décrit ci-dessus.
- Pentaho Report Designer (PRD) : PRD est un développement du projet JFreeReport.La solution de reporting open source prend en charge différents formats de sortie comme PDF, Excel, HTML, Text, Rich-Text-File, XML et CSV.
- Pentaho Marketplace : le Marketplacepermet aux utilisateurs d’ajouter des plugins à la plateforme Pentaho en un simple clic.
- Pentaho Aggregation Designer (PAD) : avec PAD, les utilisateurs peuvent créer et optimiser le contenu des bases de données. Le cœur de l’outil est le serveur OLAP Mondrian.
- Pentaho Schema Workbench (PSW) : PSW est une interface de conception graphique qui offre la possibilité aux utilisateurs de créer et de tester les schémas pour les cubes OLAP Mondrian.
- Pentaho Metadata Editor (PME) : PME est utilisé pour décrire dans le détail les structures de données sous-jacentes à l’aide d’un fichier XML.
Pentaho Enterprise Edition (EE) est une version payante de la suite de BI avec des fonctionnalités étendues et un support professionnel.
- Jaspersoft : Jaspersoft propose diverses applications DWH dans une solution de BI intégrée. La collection du programme comprend donc :
- JasperReports Server : le serveur JasperReports est un serveur de rapports qui apporte une fonctionnalité OLAP par l’intermédiaire d’un serveur Mondrian ajusté.
- JasperReports Library : Jaspersoft fournit une bibliothèque Java pour la création de rapports.
- Jaspersoft Studio : avec Jaspersoft Studio, la suite de BI fournit un éditeur de rapports.
- Jaspersoft ETL : l’outil ETL basé sur Talend OS déjà décrit ci-dessus.
- Mobile BI : Mobile BI est une application native pour iPhone et Android qui apporte un accès mobile aux rapports et tableaux de bord.
Jaspersoft est aussi disponible avec une gamme étendue de fonctions dans une version commerciale payante.
- SpagoBI : contrairement à Penthao et Jaspersoft, qui commercialisent leurs produits avec un système de double licence, SpagoWorld offre sa suite de BI exclusivement sous la forme de solution open source. Les entreprises ont cependant la possibilité d’utiliser une configuration et une adaptation professionnelle du logiciel via un service payant. La collection du programme comprend les éléments suivants :
- SpagoBI Server : le cœur de la suite de BI open source est le serveur SpagoBI, qui fournit tous les outils et fonctionnalités d’analyse.
- SpagoBI Studio : SpagoBI Studio est un environnement de développement intégré.
- SpagoBI Meta : SpagoBI Meta apporte aux utilisateurs un environnement de gestion des métadonnées.
- SpagoBI SDK : avec SpagoBI SDK, la suite Spago BI dispose d’une couche d’intégration qui permet d’intégrer différents outils externes, tels que Talend OS (ETL), Jedox ou Mondrian (OLAP), Weka ou R (datamining) ainsi que BIRT ou JasperReports Library (reporting).
Archivage des données
Les utilisateurs ont également diverses alternatives aux systèmes de gestion de bases de données propriétaires tels que Microsoft SQL Server, IBM DB2 ou les solutions d’Oracle et Teradata disponibles en tant que projets de logiciels libres dans le domaine de la gestion des données. Les principaux magasins de données sont les systèmes de bases de données relationnelles MySQL et MariaDB ou le système de gestion de base de données relationnel/objet PostgreSQL. Le dernier est publié par Pivotal sous le nom de Greenplum Database en tant que développement optimisé, en particulier pour les architectures d’entrepôt de données sous licence open source.