Facebook, Twitter : un modèle statistique pour déterminer la crédibilité des publications partagées par les internautes

Facebook, Twitter et tous les autres brassent des millions d’utilisateurs chaque semaine. Ils viennent discuter, échanger ou même partager leurs points de vue. Sur ces plateformes, le public est en effet libre de partager et de communiquer comme il le souhaite. Cependant, en marge, les internautes publient aussi de plus en plus d’informations erronées. Certains colportent même de fausses rumeurs.

Les questions se posent donc sur la manière de détecter la crédibilité de ces informations. Pour résoudre ce problème, une équipe de chercheurs du Georgia Institute of Technology a travaillé sur un modèle statistique capable de déterminer la fiabilité d’une publication en se référant aux mots utilisés par l’auteur du message.

Linguistique fact checking

Et si la linguistique permettait d’identifier les informations erronées ?

Pour cela, les chercheurs n’ont pas hésité à exploiter tous les moyens possibles afin de catégoriser les indicateurs positifs et négatifs.

Des démarches nécessitant de grands moyens

Dans le cadre de leur étude, les scientifiques se sont basés sur 66 millions de tweets en anglais en rapport avec 1400 événements marquants comme la tuerie de Boston, l’Ebola en Afrique ou encore Charlie Hebdo. Ils ont ensuite confié les tâches d’évaluation de la crédibilité des publications à des travailleurs indépendants.

Ces derniers ont été amenés à classer chaque message sur cinq échelles allant de “certainement exact” à “certainement faux”.

Les résultats ont été envoyés aux informaticiens et ces derniers les ont ensuite catégorisés en une quinzaine de critères linguistiques pour évaluer la crédibilité de ces messages.

La façon d’écrire en dit long sur la fiabilité des informations relayées

Ils ont conclu que les messages les plus fiables sont ceux comportant des mots d’amplification comme « certain » ou « indéniable », ou encore ceux qui indiquent un « sentiment positif. »

Les messages les plus nuancés, comme ceux comportant l’expression “peut-être” posent généralement plus de doutes et sont moins crédibles. Il est évidemment difficile d’être surpris par ces conclusions.

Fait intéressant, les médias sont eux aussi concernés par cet état de fait. Les publications utilisent des termes nuancés dans le titre de leurs articles paraissent souvent moins crédibles sur les réseaux sociaux.

Enfin, pour les chercheurs, les messages soigneusement écrits et longs sont aussi plus fiables. Quant aux messages très repartagés, ils sont jugés peu crédibles, car pour eux, c’est peut-être une manière « d’échapper au raisonnement collectif pendant les périodes où l’incertitude prévaut. »