De la véritable Big Data

Le chercheur John Beleier s’est servi de la base de données GDELT pour cartographier tous les événements majeurs survenus dans le monde depuis 1979. Cliquez sur l’image pour visionner l’historique des événements sur carte interactive.

Comme plusieurs termes ayant été à la mode, l’expression Big Data commence à être utilisée un peu à toutes les sauces, au point où il est presque impensable pour une agence de dire qu’elle a des données et non des grosses données.

Je vous ai déniché ici ce que je crois être un des meilleurs exemples possible de la véritable Big Data. Le chercheur de la Georgetown University Kalev Leetaru et son équipe ont mis sur pied une gigantesque base de données qui sera accessible à quiconque ayant les compétences nécessaires à son utilisation. Il s’agit du Global Database of Events, Language, and Tone (GDELT).

Cette initiative très ambitieuse vise à rassembler le plus de données possibles sur les événements courants de partout dans le monde afin de prédire (et idéalement prévenir) des conflits potentiellement violents, les épidémies et autres crises par des algorithmes prenant en compte une infinité de données provenant de centaines de catégories à ce jour. Le chercheur croit qu’on pourrait ainsi dévoiler des modèles en politique et en économie jusqu’ici cachés.

À ce jour, ce sont plus de 250 millions d’événements qui sont enregistrées dans le GDELT et de 30 000 à 100 000 événements ajoutés automatiquement chaque jour. Pour l’instant, les données proviennent des médias d’information couvrant tout le globe[1] mais comprendra éventuellement toutes données et informations disponibles publiquement (sites web, réseaux sociaux, sondages d’opinion, etc.)

On tente de dévoiler l’existence de tendances et de connexions entre les événements et de les prédire, ce qui se fait en analysant les interactions entre plusieurs variables, révélant des corrélations positives ou négatives (l’influence du taux de chômage sur le nombre d’émeutes, par exemple, ou encore l’effet du nombre de réfugiés ou leur provenance sur l’apparition de certaines maladies). On entend établir puis cartographier les liens entre les événements, les personnes impliquées, les idées qui circulent, le contexte, les raisons de l’événement, les facteurs d’influence et plus encore, des émeutes jusqu’au prix de la nourriture en passant par les discours de leaders, les attentats suicides et les événements financiers. Les événements sont classés en quatre catégories (conflits matériaux, coopération matérielle, conflits verbaux et coopération verbale) divisées ensuite en quelque 300 sous-catégories.

Par exemple, le chercheur Kalev Leetaru prétend que si cette base de données avaient été disponible tôt en 2011, la crise en Égypte de cette année-là aurait pu être prédite. Le ton de la couverture médiatique dans le pays s’est détérioré pour atteindre son plus bas depuis 20 ans, et ce, malgré un PIB qui progressait bien à l’époque (qui est habituellement une bonne mesure de la stabilité sociopolitique d’un pays). Par un autre exemple, un chercheur a pu cerner un certain lien entre l’éclatement de la violence et le prix des narcotiques en Afghanistan parmi d’autres facteurs (assurance toutefois limitée en raison d’un manque de données au niveau sous-étatique du pays).

Cette constellation interactive de noms des personnes ayant été les plus mentionnés dans les médias (et leurs liens mutuels) d'avril à octobre 2013 a été réalisée grâce à la base de données GDELT. Cliquez sur l'image pour la carte interactive.
Cette constellation interactive composée des noms des 25 000 personnes ayant été les plus mentionnées dans les médias (et leurs liens mutuels) d’avril à octobre 2013 a été réalisée grâce à la base de données GDELT. Cliquez sur l’image pour la carte interactive.

Il est encore trop tôt pour évaluer la performance de la Big Data GDELT puisque très peu de chercheurs ont eu l’occasion de l’expérimenter à ce jour (elle a été publicisée il y a moins d’un an) et le système n’est pas simple d’utilisation. Néanmoins, cette initiative est novatrice par rapport à son échelle spatio-temporelle gigantesque. Cette base de données est la première du genre à couvrir tout le globe (d’autres bases existaient déjà mais ne couvraient que des régions particulières). Ce qui marque encore plus une cassure est le fait qu’elle est entièrement libre d’accès à toutes fins académiques, commerciales ou gouvernementales, représentant bien le goût de notre ère pour les logiciels libres et les données ouvertes. C’est ce qui me fait croire qu’un certain humanisme ait motivé cette initiative (bien qu’on puisse s’attendre à ce que la base de données serve éventuellement aussi à des fins moins nobles). Et si l’on considère l’amplitude de données couvrant toutes sortes de sujets en sciences humaines, on peut s’attendre à ce que cette base de données contribue significativement à la connaissance, la science et au progrès. Nous sommes encore loin de pouvoir prédire des événements très précis et locaux, mais cette innovation suggère que nous nous rapprochons d’une époque où absolument tout, tout et tout pourra être converti en données (pour vous en convaincre, lire cet excellent article à propos de la Big Data plus largement).

Pour en savoir plus:

Le site Web officiel de la GDELT: http://www.gdeltproject.org/

Le monde selon la Big Data que représente Twitter: http://ideas.foreignpolicy.com/posts/2013/05/08/mapping_the_world_with_tweets

Le problème de la dépendance aux reportages médias en tant que données: http://themonkeycage.org/2013/07/09/how-computers-can-help-us-track-violent-conflicts-including-right-now-in-syria/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+themonkeycagefeed+%28The+Monkey+Cage%29

Le GDELT à propos de la présente situation en Syrie: http://ideas.foreignpolicy.com/posts/2013/07/09/how_well_does_gdelt_follow_events_in_syria

Le Global Knowledge Graph, l’extension de données plus détaillées et contextuelles du GDELT http://blog.gdeltproject.org/gdelt-global-knowledge-graph/

Autre article sur les recherches de Kalev Leetaru, avant la base de données GDELT: http://www.foreignpolicy.com/articles/2011/09/16/can_a_supercomputer_predict_a_revolution


[1] Cette façon de faire présente évidemment des lacunes, puisque tous les événements importants ne sont pas couverts par les médias qui font toujours des choix (par exemple, un conflit armé de la Syrie sera plausiblement couvert tandis qu’un affrontement dans l’Est du Congo ne le sera probablement pas). Le chercheur est conscient de ce problème et envisage d’intégrer d’autres sources de données en temps réel, par exemple le site Web Ushahidi et le réseau Twitter (bien que cela engendre d’autres problèmes : qualité et exactitude des informations). Les chercheurs pourront toujours compléter leurs analyses par d’autres bases de données.

One thought on “De la véritable Big Data”

  1. Vraiment intéressant. C’est un très bon exemple, très bien vulgarisé et très concret. Je trouve particulièrement fascinant l’aspect “vue d’ensemble” que permet le big data.
    Les possibilités sont infinies et encore méconnues. Après quelques recherches, je suis tombée sur ce texte, sur l’utilisation du big data pour les ressources humaines et les entreprises. Il y a certainement des vocations moins nobles, mais quand même, il fallait y penser!

Répondez ou commentez