Big data : définition et exemples

Le Big Data est depuis longtemps sur toutes les lèvres et fais l’objet d’un vif débat. Alors que ses partisans soulignent la grande utilité de ces mégadonnées apparues avec la digitalisation, les critiques portent quant à elles sur la confidentialité des informations. Cependant, depuis l’affaire concernant les pratiques d’espionnage divulguées par le lanceur d’alertes Edward Snowden, les utilisateurs sont de de plus en plus soucieux pour leurs données personnelles. Ce que le citoyen peut entendre et lire sur le phénomène du Big Data est souvent négatif. Pourtant, la notion est bien plus complexe qu’elle ne le parait et c’est pourquoi une définition du Big Data s’impose.

Le big data, c’est quoi ?

Le Big Data, soit littéralement « grosses données » est aussi nommé magédonnées voire données massives. Ces données sont tellement complexes qu’un logiciel ou un disque dur classique n’est pas à même de les traiter. De plus, la notion de Big Data est vague étant donné qu’elle peut également faire référence à des quantités de données plutôt anodines provenant de la recherche. Sachant que les données rassemblées portent sur les comportements de consommation ou de communication des internautes, la notion est mal perçue. Les critiques considèrent cette collecte de données comme une atteinte à leur droit privé.

Quelle est la taille du Big Data ?

La notion de Big Data désigne des ensembles de données qui n’ont pas de taille proprement définie. Dans la pratique, le Big Data est souvent synonyme d’un important volume de données car même l’unité de mesure gigabit ne suffit pas à le mesurer.

Comment le Big Data est-il apparu ?

Le volume des données numériques a pris une proportion considérable. Dix minutes en 2014 ont suffi pour générer autant de données que celles créées par l’humanité depuis 2002. D’après les pronostics, cette montagne de données est en croissance continue et a doublé en l’espace de deux ans. Son flux est dû à la numérisation croissante dans tous les domaines du Web. Le Big Data est né au moyen de la fusion de diverses sources de données telles que :

  • L’utilisation d’Internet sur les mobiles
  • Les réseaux sociaux
  • La géolocalisation
  • Le cloud
  • La mesure des données vitales
  • Le streaming des médias

Le Big Data ne fait pas seulement référence à des données mais aussi à leur analyse et leur utilisation. On essaye de trouver des modèles ainsi que ce qui les relie pour les placer dans un contexte réel. Le défi n’est pas seulement représenté par le grand volume de données mais aussi par la rapidité des traitements et la diversité des informations. Le flux est continu au sein de données non structurées. Elles sont collectées, stockées et travaillées si possible en temps réel. Une infrastructure importante de données est donc nécessaire pour pouvoir les lire et les mettre correctement en rapport.

Comment utiliser le Big Data ?

D’après la définition du Big Data, les volumes de ces données sont si importants qu’un logiciel classique ne peut les travailler. En traitant ces données massives, le programme se voit imposer certaines exigences techniques. Seuls certains Frameworks ont la capacité de les analyser. Le logiciel doit travailler plusieurs lignes de données en une seule fois et faire en sorte de pouvoir importer ce grand volume de données le plus rapidement possible. Par ailleurs, il faut que le logiciel mette les données à la disposition des utilisateurs en temps réel et si possible qu’il réponde en même temps à plusieurs requêtes de bases de données.

Hadoop est une solution open source connue. Son implémentation est complexe et ne se fait pas sans l’aide d’experts, les fameux « data scientists ». D’autres solutions provenant du cloud sont possibles. Voici un article qui vous permettra d’y voir plus clair sur les outils de Big Data.

Exemples d’utilisation de Big Data

Le Big Data est appliqué dans tous les domaines ayant rapport au Web. Un exemple d’outil de Big Data dans le domaine de l’e-commerce est la fameuse phrase « ceux qui ont acheté le produit X ont aussi acheté… ». Ces recommandations naissent à partir de l’évaluation de millions de données d’achats d’autres clients.

Voici les autres domaines qui profitent du Big Data :

  • La recherche médicale : grâce à l’évaluation des données massives, les médecins peuvent trouver de meilleures solutions de thérapie et de traitement pour leurs patients.
  • L’industrie : grâce à l’utilisation des données de machines, les entreprises peuvent augmenter l’efficacité de leur production et travailler de manière plus durable.
  • Économie : le Big Data permet aux entreprises de mieux connaître leurs clients et de leur proposer des offres mieux adaptées à leurs besoins.
  • Énergie : les données sur la consommation d’énergie permettent à long terme d’adapter l’offre aux besoins des utilisateurs dans le but de rendre l’approvisionnement énergétique plus durable.
  • Marketing : le Big Data est utilisé dans le domaine du marketing pour mieux cibler les clients. Le but est d’améliorer les relations avec les consommateurs et d’augmenter le taux de conversion via diverses mesures de marketing.
  • Lutte contre la criminalité : le gouvernement et les services de sécurité ont également recours au Big Data, par exemple dans le cadre de la lutte antiterroriste.

Ce que l’on reproche au Big Data

La plupart des critiques concernent la protection des données. Les grandes bases de données permettent aux entreprises et aux marques de mieux adapter leurs stratégies marketing. Néanmoins, il est aussi possible d’établir des profils d’utilisateurs précis grâce aux données utilisées pour le ciblage. Les personnes responsables de la protection des données voient cela comme une atteinte à la vie privée des internautes. Celui qui travaille avec le Big Data doit renseigner les clients et les utilisateurs de son site sur sa politique d’utilisation des données

Une autre critique est la « dictature des données ». En effet, le domaine des données massives fait face à ce qu’on appelle en anglais les « big players ». Il s’agit d’entreprises qui travaillent depuis un certain nombre d’années avec des données et qui en font des bénéfices (comme Google et d’autres moteurs de recherche). Ainsi, ces sociétés ont un monopole en matière de données. Cette souveraineté est souvent critiquée et qualifiée d’atteinte à la vie privée à grande échelle. En effet, si aucune règle claire sur a protection des données personnelles n’est établie et compte tenu de l’anonymisation de ces informations récupérées, il n’est pas étonnant qu’une utilisation abusive des données des internautes soit possible.

Pour une utilisation responsable du Big Data

En dépit de toutes les critiques sur le Big Data, son utilisation n’en demeure pas moins pertinente mais à condition bien entendu que sa technologie soit utilisée correctement. Certains progrès scientifiques tels que la recherche sur le cancer n’auraient par exemple jamais étés possibles sans avoir recours au Big Data. Cela vaut également pour l’approvisionnement en énergie mais aussi pour les prévisions de trafic qui sont régulièrement optimisés et qui nous permettent une sécurité primordiale au quotidien. Cependant, malgré les opportunités dans ces domaines, beaucoup de questions d’éthique demeurent. En effet, il est par exemple possible de prévoir la contraction d’une maladie et cela génère des inquiétudes pour beaucoup. La population reste réservée et craint de plus en plus les sites que l’on nomme « pieuvres avides de données ».

Faces à ces questions sociétales, les autorités publiques se préoccupent également du problème du Big Data. Elles considèrent que la confiance et la transparence des acteurs du Web est actuellement centrale. Pourtant, la compréhension des codes informatiques est si complexe que la politique du « tout savoir » n’est pas pertinente. La vraie question repose aujourd’hui sur l’éducation des citoyens, afin qu’ils puissent réagir de manière intelligente face au Big Data.