Big data et open source, un livre blanc par Stefane Fermigier

Le web constitue une des plus importantes machines à générer des données que l’humanité ait pu créer. Ce sont tous les jours des quantités astronomiques de données qui transitent et sont stockées sur des serveurs au travers du monde. Face à cette problématique, l’open source apporte aujourd’hui son lot de solutions. Stefane Fermigier propose au travers d’un livre blanc de nous en décrire le paysage.

Big data ou la gestion des “grosses données”

NoSQL données big data Inutile de dire que la traduction de ce terme en français donne un résultat peu satisfaisant. Je parlerais plus de “nombreuses données” dont la totalité représente un volume potentiellement gigantesque. N’oublions pas qu’aujourd’hui, un disque dur “classique” permet de stocker 1Tera-octet soit 1 125 899 906 842 624 “caractères”. A titre de comparaison, la Bible contient 4 000 000 de caractères. Il est donc possible de stocker plus de 280 millions d’exemplaires de celle-ci sur un disque de ce type.

Ces chiffres aussi impressionnants soient-ils ne sont rien en comparaison du volume de données que compte l’ensemble des centres de données ou datacenter de la planète. Une étude de novembre 2011 réalisée par l’IDC prévoyait un volume de données mondiale de 1,8 zéttaoctet en 2011 soit 1 800 milliards de gigaoctets. L’étude IDC montre aussi que d’ici 2020, les entreprises (au plan mondial) connaîtront : une explosion du nombre de serveurs, ils seront multipliés par dix ; un accroissement du volume d’informations à traiter, cette fois c’est multiplié par 50 ; des fichiers et des conteneurs 7 fois plus nombreux.

Quelles solutions pour le Big data ?

Le livre blanc de Stéfane dénombre les défis technologiques que posent ces outils :

  • Volume: les données dépassent les limites de la scalabilité verticale des outils classiques, nécessitant des solutions de stockage distribuées et des outils de traitement parallèles.
  • Variété: les données sont hétérogènes ce qui rend leur intégration complexe et coûteuse.
  • Vélocité: les données doivent être traitées et analysées rapidement eut égard à la vitesse de leur capture.
  • Variabilité: le format et le sens des données peuvent varier au fil du temps.

Le stockage des données est dans ce cas là souvent confié à des bases de données de la famille NoSQL. Une famille elle-même sous divisée en plusieurs catégories :

Vous trouverez d’autres références pour compléter ce panorama dans l’annexe du livre blanc.

Face à la montée en puissance des bases NoSQL, les bases de données relationnelles communément utilisées dans les entreprises cherchent à faire évoluer leurs solutions pour supporter davantage de données sans pour autant renoncer à ce qui fait leur spécificité.

L’analyse des données suppose aussi des outls adaptés. De nouvelles techniques sont apparues comme MapReduce un framework de développement informatique, introduit par Google, dans lequel sont effectués des calculs parallèles, et souvent distribués. Citons dans cette famille Apache Hadoop développée à l’origine par Yahoo! en Java et placée ensuite sous l’égide de la Fondation Apache.

L’indexation et la recherche dans de grands volumes de données furent abordés dés la naissance des premiers moteurs de recherche sur le web. Il nous semble aujourd’hui naturel de taper une série de mots et d’obtenir dans la seconde un résultat de recherche. Nous n’avons plus conscience de la quantité de données dans laquelle cette recherche a été effectuée et la prouesse que cela représente de nous fournir un résultat de façon aussi instantanée. Les solutions d’indexation et de recherche open source ne manquent pas, on peut citer Apache Lucene ou encore des outils comme Yacy.

Il reste enfin à essayer de valoriser toutes ces données. Les techniques de machine learning et de statistiques sont alors essentielles. On peut citer respectivement des projets comme Mahout une bibliothèque Java de machine learning et de data mining qui utilise Hadoop et du côté des statistiques la montée en puissance de projets comme R ou Pandas.

Bien évidemment, pour faire fonctionner tous ces outils, il faut une infrastructure extrêmement souple et capable de monter en charge rapidement. Les outils open source trouvent là une place naturelle. Leur adaptabilité leur confère un avantage significatif. Ainsi 71.8% des grandes entreprises interrogées récemment envisagent de faire appel à des serveurs Linux pour faire face à leurs besoins de Big Data, contre seulement 35.9% pour Windows.

Les acteurs du Big Data en France

Terminons par un rapide tour d’horizon des acteurs de ce secteur en France et  dans l’open source. On retrouve les sociétés de services qui commencent à proposer des prestations dans ce domaine comme OpenWide, Smile ou Zenika…

Quelques éditeurs ont également pris pied sur ce secteur comme Core-Techs, DataPublica, Nexedi, Nuxeo ou Open Search Server… N’hésitez pas à compléter ces listes dans les commentaires.

La recherche est également présente au travers de l’ANR (Agence Nationale de la Recherche) et de son document de programmation 2012.

Vous trouverez des informations plus complètes et détaillées dans le livre blanc de Stefane Fermigier que vous pouvez télécharger sur son site. Le document est placé sous une licence licence CC BY-SA 3.0.

Crédit image Certains droits réservés par NeoSpire


Réagir à cet article

Article original écrit par Philippe Scoffoni le 18/03/2012. | Lien direct vers cet article

Cette création est mise à disposition sous un contrat Creative Commons BY à l'exception des images qui l'illustrent (celles-ci demeurent placées sous leur mention légale d'origine).

.

Vus : 2564
Publié par Philippe Scoffoni : 544