Le Big Data, d'un mythe à la réalité

J’entends très souvent cette notion de Big Data comme étant une nouveauté. Un résultat non contrôlé suite à l’essor d’internet. Or, j’estime que cette notion n’est en rien nouvelle. Pour cela, je vais exposer les différentes évolutions du Big Data afin de pouvoir cibler correctement et de remettre dans le contexte actuel de l’informatique la volumétrie exponentielle des données que l’on observe finalement depuis des années.

Le bouche à oreille, des milliers d’années en arrière

Depuis des milliers d’années, l’homme n’a de cesse de transmettre son savoir. Avant toute forme d’écriture, la transmission du savoir se faisait uniquement par oral, alors que l’écriture n’existait pas, celle-ci était orale. Afin de représenter la densité de ce savoir que l’on pouvait transmettre, je vais lui associer la valeur de un. D’un homme à un autre, la transmission était limitée dans le temps – un décès équivaut à une perte de l’information ce qui ne lui permet pas d’être pérenne. L’information retransmise n’était pas toujours conforme à l’original et, je pense qu’il arrivait fréquemment que d’une personne à une autre, on vienne à changer un mot ou une tournure de phrase. De plus, cette donnée n’avait pas la vocation d’être rapide à transmettre et l’accès à celle-ci était limité. Enfin, je n’imagine pas qu’il puisse y avoir une variété dans l’information transmise puisqu’il était difficile de coupler, croiser et comparer une multitude de points de vue.

Même avec une densité d’information égale à un, l’homme avait des problématiques face à cette donnée. Il fallait faire en sorte que celle-ci soit stockée un minimum de fois – supérieur à une personne – pour espérer la conserver le plus longtemps possible et que celle-ci soit l’a plus conforme possible.

L’invention de l’écriture, un nouvel enjeu

C’est alors que l’homme inventa l’écriture. De fait, si je dois reprendre chacun des points évoqués ci-dessus que l’on pourrait résumer par : la vélocité, la variété, la pérennité, la conformité de l’information, je m’aperçois que chacune de ces caractéristiques évoluent et ce, de manière exponentielle par rapport à mon premier scénario.

En effet, il est beaucoup plus facile d’accéder à l’information une fois que celle-ci est écrite. L’écriture étant retranscrite sur un support, il suffit d’accéder à celui-ci – en estimant que l’on a connaissance de son lieu – pour parvenir au savoir. La durée de vie d’un écrit est bien plus grande que celle d’un homme et le fait que cette donnée soit « gravée dans le marbre » lui permet d’être conforme à l’original de manière éternelle. Enfin, une fois ce savoir établi, j’imagine qu’il était alors beaucoup plus facile de développer de nouvelles thèses et de comparer de nouvelles informations : développer la variété de ces données.

L’homme pouvait se permettre de se « vider la mémoire » en écrivant sa pensée afin qu’il puisse se concentrer sur de nouvelles choses. Je fais là un parallèle avec la mémoire d’un ordinateur qui a su évoluer dans le temps également. En l’espace de dix ans, nous sommes passés d’une carte SD de 128Mo à 128Go. Certes, la carte SD n’a pas besoin de se concentrer sur autre chose mais, nous pouvions lui fournir plus d’informations sans se soucier de la limite de sa capacité.

Dorénavant, si je multiplie les années depuis l’invention de l’écriture par le nombre de données produites, j’établis que la densité de l’information a été multipliée par 1 000 000. De fait, nous étions bien dans le phénomène du Big Data : une volumétrie des données extrêmes. A une échelle tout aussi importante à cette époque qu’à la notre. Les problématiques ont été les mêmes et elles ont été résolues. Comment stocker une information multipliée par 1 000 000 ? Comment accéder à celle-ci toujours de manière plus rapide ? Pouvons-nous traiter ce million de données ? Pour quoi faire ? Dans quel but ? Pouvons-nous l’a distribuer au monde entier ?

L’homme a su répondre à ces problématiques grâce à différentes avancées technologiques. Nous avons inventé l’imprimerie afin de multiplier la donnée. Des bibliothèques se sont construites afin de pouvoir stocker l’information et l’a trier. Des livres ont été édités dans l’unique but de regrouper des domaines d’activités comme pour les études. Des kiosques permettent de distribuer les livres dans des lieux différents. Et, dans quel but ? Afin d’améliorer et d’affiner sans cesse la transmission de la donnée, nous aider dans nos choix stratégiques, d’innover et d’inventer encore et encore.

Les nouvelles technologies de l’information et de communications : NTIC

L’internet de l’époque

Aujourd’hui sont apparus les NTIC que l’on appelle plus couramment maintenant les TIC. L’informatique est la dernière évolution majeure que je note pour présenter le contexte du Big Data d’aujourd’hui. Je peux même aller jusqu’à scinder deux périodes distinctes : l’avant et l’après Internet.

Avant l’arrivée d’internet, nous avons pu commencer à informatiser nos systèmes d’informations. De fait, tous les écrits d’une bibliothèque pouvaient – petit à petit, en fonction de l’évolution de nos espaces de stockages – rentrer dans un ordinateur. Sur une surface donnée, nous pouvions augmenter la quantité des connaissances stockées de manière exponentielle. Le critère concernant la volumétrie est donc parfaitement rempli. De plus, les ordinateurs permettent également d’accéder de plus en plus vite à la donnée. Encore une fois, l’évolution de la puissance de ces outils va faire varier – positivement – le critère de vélocité. Enfin, il arrive fréquemment que nous ayons des copies de nos données. Pour ma part, j’ai un disque dur dédié à mes sauvegardes. La donnée est dupliquée et devient plus pérenne. Évidement, je prends toujours en compte l’évolution de la technologie informatique et il est normal qu’il y a 20 ans, un disque dur d’un téra n’était pas imaginable.

C’est justement là que je veux accentuer un point fort et essentiel de l’évolution humaine et du phénomène du Big Data dont on prend de plus en plus la mesure – avant de passer à l’après Internet.

L’homme a mis des milliers d’années pour parvenir à l’écriture, multiplier les supports et sa connaissance. Il a mis quelques centaines d’années pour développer l’imprimerie et des infrastructures pour stocker toutes ces informations. Dorénavant, nous avons mis quelques dizaines d’années pour parvenir à une volumétrie des données qui nous semble extrême. Une vingtaine a suffit, depuis que les réseaux de télécommunications se sont popularisés avec l’apparition du World Wide Web, plus connu sous le nom d’Internet. Aujourd’hui, sur mon échelle de valeur de départ, je pense que l’on multiplie la donnée par 1 000 000 exposant « inconnu » à ce jour. Je ne pourrai pas m’avancer sur cette échelle mais j’aime admettre que l’exposant équivaut au nombre d’années depuis l’apparition du web d’aujourd’hui soit : 20.

L’arrivée du World Wide Web jusqu’au Web 4.0

Actuellement, internet a provoqué de manière exponentielle la multiplication des données et leur utilisation. A tel point qu’il m’arrive fréquemment d’entendre : « Google est ton ami », « On trouve tout sur internet ». Dorénavant, je peux moi-même faire difficilement quelque chose sans cet outil. La question des 4 « V » du Big Data ne se pose plus :

Variété : que nos informations soient variées.
Volume : avoir un stock conséquent de données.
Vélocité : pouvoir accéder rapidement à notre information.
Valeur : afin de créer une vraie valeur ajoutée.

Nous avons la vélocité, le volume et la variété pour que créer de la valeur avec notre donnée. Cependant, nous sommes dans un contexte qui évolue tellement rapidement que beaucoup d’entre nous se posent les mêmes problématiques que j’ai pu exposer au dessus. A quelque chose près que nous nous attardons beaucoup plus sur un point précis : l’utilisation de ces données. Nous savons désormais anticiper les problématiques de vitesse et de stockage. Le vrai point d’orgue est : qu’allons-nous faire avec ces données ?

Je pense maintenant que ces données ont vocation à nous aider dans tous les domaines. C’est pour moi le pétrole de demain. Je peux aisément récolter un nombre d’informations considérable sur une personne dès lors que je lui demande de s’inscrire sur un site web ou d’utiliser une application me permettant de l’a configurer afin de pouvoir récupérer les informations que je souhaite. Par exemple, si je met en place une connexion sur mon site via la connexion Facebook, je peux récupérer sa date de naissance, sa localisation – sans parler du système de géolocalisation que l’on retrouve dans les applications mobiles et web, son nom, son prénom, son numéro de téléphone, son adresse postale, … En résumé, je peux tout savoir sur son environnement.

Pour présenter l’importance que peut avoir l’exploitation de ces données récoltées, voici un exemple. Au web 1.0, il était possible de s’inscrire sur mon site web en remplissant un formulaire reprenant les informations basiques : nom, prénom, adresse, email afin de pouvoir commander un lit pour bébé. Dés lors, je pouvais éventuellement envoyer de la publicité dans une boite aux lettres d’un de mes acheteurs avec la possibilité de lui proposer le même genre d’articles achetés précédemment. Ma base de données est simple, unique et non partagée.

Arrive le web 2.0, mon site évolue et nous faisons face au dynamisme des sites web : l’internaute peut interagir sur notre application. Mon acheteur peut alors poser un commentaire sur l’article acheté ainsi qu’une note. A présent, mes nouveaux internautes détiennent de l’information supplémentaire et pour ma part, je suis au courant du degré de satisfaction de mon client. Mes données se multiplient et m’offrent de plus en plus de variété.

Apparaît le web 3.0 et les réseaux sociaux. Facebook explose et il est désormais possible de s’inscrire sur mon site via son compte Facebook. C’est ce que j’appelle la connexion entre les base de données. En effet, avec une inscription via un compte d’un réseau social quelconque, j’obtiens des informations de la part de l’internaute sans que je n’ai besoin de lui demander. Il n’a plus qu’à saisir ses identifiants et je peux venir filtrer un certain nombre d’informations qu’il m’est possible d’avoir en fonction de l’application dédiée. Avant, sur mon site, je n’avais pas besoin de la date de naissance. Aujourd’hui, je l’a détiens sans même l’avoir demandé. ( A adapter au contexte de la RGPD, bien évidemment )

Enfin, nous arrivons au web 4.0 dans lequel j’associe la géolocalisation et, de manière générale, toutes ces données plus abstraites. Mon site géolocalise désormais les internautes qui achètent un article. Maintenant, je sais que mon acheteur est âgé de 25ans, qu’il vient d’acheter un lit pour bébé dans le secteur de Lyon et qu’il estime que ce lit n’est pas destiné pour les garçons puisqu’il le trouve plus adapté visuellement comme étant un lit pour fille.

A partir de là, je peux croiser mes données et me rendre compte qu’il y a beaucoup de naissances chez les jeunes gens dans le secteur de Lyon en ce moment. Serait-ce alors le temps d’employer une stratégie de marketing distinctif et d’adapter un futur besoin potentiel chez mes acheteurs, comme des vêtements pour bébé ?

La question qui se pose aujourd’hui est de savoir si “tout ça” est acceptable. Est-ce une atteinte à la vie privée que d’avoir ces informations et d’en faire usage à but commercial ? N’est-ce que le cas depuis toujours en réalité mais avec une échelle de valeur totalement différente ? Devons-nous tout accepter ? Pouvons-nous s’y prémunir ? Tant de questions qui vont devoir trouver des réponses à l’avenir. Mais quand on voit la mise en place de la RGPD par exemple, on peut se dire qu’il y a quand même une prise de conscience sur les risques potentiels du “Big Data”. Nous nous adaptons et nous continuerons de le faire.