
Quand une IA fait de nouvelles découvertes en analysant d’anciens articles scientifiques
Grâce à l’apprentissage automatique, ou machine learning, un algorithme a permis la découverte de matériaux encore inconnus jusqu’ici. Le programme y est parvenu après avoir analysé une base de données tirée de 3,3 millions d’extraits d’articles liés à la science des matériaux. Le nom de cette intelligence artificielle est Word2Vec.
Elle a été conçue par des chercheurs de la Lawrence Berkeley National Library.

Concrètement, les chercheurs ont intégré un glossaire d’environ 500 000 mots provenant de 3,3 millions d’extraits d’articles à Word2Vec. L’IA semble avoir compris des notions complexes comme la table des éléments et la structure chimique des molécules. En faisant le lien entre les mots, elle a pu établir une liste d’éventuels nouveaux matériaux thermoélectriques.
Les matériaux prédits par l’algorithme n’ont été décrits dans aucun article scientifique. Il s’agit essentiellement de matériaux utilisés pour le chauffage ou la réfrigération. Les résultats de l’étude ont été publiés dans Nature.
L’IA fait des liens qu’aucun scientifique ne pourrait faire
Anubhav Jain, un chercheur qui a participé à l’étude, a expliqué que Word2Vec est capable de « lire n’importe quel article scientifique, et donc faire des liens qu’aucun scientifique ne pourrait faire. »
Les chercheurs ont enseigné au réseau neuronal à reconnaître un mot précis et à prédire les mots qui suivent chaque mot. Ils pensent que certains des matériaux cités par l’IA pourraient être meilleurs que ceux que l’on connaît déjà aujourd’hui.
« On ne contrôle pas l’algorithme, il fait les connexions tout seul », ont-ils écrit dans l’article.
La promesse de nombreuses autres découvertes ?
Voulant s’assurer de la réelle capacité de Word2Vec à prédire les découvertes scientifiques, l’équipe lui a fait passer un test en effaçant les données récentes. En se basant sur l’analyse d’anciens articles, l’IA a réussi l’évaluation.
Par exemple, elle a pu prédire la découverte de l’un des meilleurs matériaux thermoélectriques existants aujourd’hui. D’après la simulation informatique, si les chercheurs disposaient de cet outil à l’époque, le matériau en question aurait pu être trouvé quatre ans avant sa découverte « officielle » en 2012.
L’équipe estime que ce nouvel usage de l’apprentissage automatique pourrait avoir des applications dans différents domaines. « On pourrait s’en servir à des fins médicales, ou dans la recherche médicamenteuse », a-t-elle écrit. « L’information est là, nous n’avons juste pas encore fait les liens parce qu’on ne peut pas lire tous les articles. »