Introduction au Big Data

Big Data, Machine Learning, Intelligence Artificielle, Data Visualisation, Data Mining …

Derrière ces noms un peu barbares se cachent des sujets qui sont en train de changer le monde, révolutionner la façon dont les hommes et les entreprises interagissent avec leurs entourage.

Dans ce blog on va pouvoir expliquer et décortiquer ces sujets sont passionnants, et encore peu connus de tout le monde.

Pendant ce premier article, on va essayer de dresser un peu le paysage du big data, à la fois sur le point de vue USAGE et TECHNOLOGIE.

Qu’est-ce que le Big Data ?

Pour résumer, les big datas représentent une forme complémentaire des outils que les entreprises utilisent déjà (qui reposent sur du BI classique : ETL, data warehouse, cubes …). Ces nouveaux formats de données ne respectent plus les schémas habituels de stockage de données transactionnelles (Data warehouse, transactions, SQL …) et  requiert souvent plus de capacité de stockage (+ 500% en moyenne) et plus de capacité d’analyse et de traitement.

Un premier exemple d’usage serait de croiser le chiffre d’affaire d’une entreprise (données structurées récupérées d’une base de données du simple CRM ou de tout le data warehouse) avec les données des clients sur les réseaux sociaux (nouveaux formats de données récupérées, filtrées et stockées. La jointure entre ces deux types de données, pourrait donner une idée sur les habitudes de ses clients, ainsi que des correlations qu’on connaissait pas et qui peuvent représenter des opportunités commerciales pour l’entreprise.

Pourquoi c’est devenu un sujet d’actualité  ?

La raison simple est que les technologies actuelles permettent de faire beaucoup plus de choses qu’auparavant, à coût égal. Ces nouvelles technologies nous permettent en fait d’aller chercher ces nouveaux formats de données, et de s’intéresser à l’individu particulièrement. Ce qui veut dire qu’on est capable de collecter beaucoup plus de données concernant l’individu, de les stocker, traiter, analyser et en tirer des conclusions sur les habitudes et comportements humains.

Ce qui a entrainé un changement d’usage dans les entreprises. Alors que dans le passé l’équipe marketing par exemple, en utilisant des outils BI classiques, se basait sur des données purement financières sur les ventes des produits par région, par segment, les parts de marché etc … Les big data leur permettent d’ajouter d’autres niveaux d’information issus des données massives, et d’intégrer dans les mécaniques d’aide à la décision des informations plus pointus et pertinentes. Ce qui fait ressortir plusieurs sujets métiers très intéressants qui gravitent autour du sujet.

Machine Learning

Quand on s’intéresse aux big data, on ne peut pas omettre le machine learning. Lorsqu’on a beaucoup de données à manipuler, les requêtes classiques des bases de données ne sont plus pertinentes, car on ne sait plus quels données chercher exactement. Donc on se voit contraint à construire des algorithme qui puissent collecter et analyser les données d’une manière plus intelligente.

La croissance de la puissance de calcul ont facilité ces dernières années l’exploration du machine learning pour concevoir des systèmes autonomes, intelligents et même prédictifs. L’abondance des données a pour sa part contribué à la pertinence et à la suffisance des algorithmes conçus. En d’autres termes, les algorithmes ont assez de données et parcourent tellement de possibilités (convergeant vers tous les cas possibles de la réalité) qu’ils sont de plus en plus pertinents statistiquement parlant.