Twitter est une source inépuisable d’informations. Peut-être plus que vous le pensez. Preuve en est, des universitaires américains sont parvenus à mettre au point un nouvel algorithme capable de déterminer si une personne se trouve sous l’emprise de l’alcool en fonction… de ses tweets. Et non, il ne s’agit ni d’une vaste blague, ni même d’un poisson d’avril. Pas encore.
Cet algorithme a été développé par une équipe de plusieurs chercheurs travaillant pour l’Université de Rochester, dans l’état de New York.

Il repose sur un système de machine learning, ou apprentissage automatique en bon français. En d’autres termes, il va bien plus loin que la plupart de ses congénères et il est ainsi doué d’intelligence.
Un algorithme intelligent pour analyser nos tweets
Après l’avoir développé, les chercheurs ont du lui apprendre à reconnaître les tweets alcoolisés. Pour se faire, ils ont simplement commencé par collecter des messages publics géolocalisés émis en 2014 dans la ville de New York et dans le Comté de Monroe.
Afin de supprimer le maximum de bruit, les chercheurs ont appliqué plusieurs filtres pour ne retenir que les tweets contenant des mots-clés très… hem… spécifiques tels que “alcool”, “saoul”, “bière”, “bourré”, “déchiré”, “lol gé tro picolé”. La liste n’est pas exhaustive, bien entendu.
Ensuite, ils ont fait appel à la plateforme Amazon Mechanical Turk pour les aider dans leur tâche. Si vous ne connaissez pas ce service, sachez qu’il rémunère les internautes pour des analyses de données.
Chacun des messages retenus a été étudié par trois personnes différentes, des personnes qui devaient tout simplement dire si le tweet en question faisait ou non référence à de l’alcool et si l’auteur était le consommateur.
Derrière, ils devaient aussi indiquer si l’internaute était en train de boire au moment où il envoyait le message.
Nos tweets en disent long sur notre état d’ébriété
Cette étape a permis aux chercheurs de construire une base de données regroupant pas moins de 11 000 messages. Il faut croire que les new-yorkais aiment bien faire la fête.
Mais ils n’en sont pas restés là car ils ont aussi cherché à déterminer l’endroit où ces personnes consommaient de l’alcool en s’appuyant sur la localisation de leurs messages et en s’appuyant sur d’autres mots-clés comme “maison”, “douche” ou même “j’suis coincé dan la cave ptdr”.
Et ensuite ? L’algorithme s’est chargé de faire le ménage dans toutes ces données pour déterminer les quartiers où les gens consomment le plus d’alcool. Il a aussi appris à reconnaître les tweets alcoolisés.
Cette expérience peut sembler amusante mais elle ouvre en réalité de nombreuses perspectives car cet algorithme est potentiellement capable de fonctionner en temps réel et il pourrait ainsi permettre aux autorités de mieux comprendre les problématiques liées à l’alcool.
En outre, le programme peut parfaitement s’appliquer à d’autres domaines d’étude.