Grâce au machine learning, les contenus visuels de 16 millions de vieux journaux américains sont maintenant numérisés et indexés

Les supports physiques, comme les journaux et les livres peuvent se décomposer au fil du temps. Mais avec la découverte de la numérisation, les convertir afin d’archiver les données sous forme numérique est devenue chose aisée. D’ailleurs, ce procédé permet de conserver un tas de supports (journaux, magazines, livres, images et différentes formes de prises de note) tout en gardant leur authenticité.

Mais quand vous êtes chercheur ou simplement amateur, et n’avez à disposition que de vieux documents, vous devez les consulter méticuleusement pour retrouver la référence lambda qui vous intéresse et qui permettra d’illustrer vos propos. Et là, c’est plus difficile, car la technologie capable de vous aider à ces fins n’est pas encore disponible. Enfin, jusqu’à maintenant.

Crédits Pixabay

En effet, Ben Lee, chercheur à l’Université de Washington a eu la bonne idée de numériser les contenus visuels de documents de la Bibliothèque de Congrès, soit environ 16 millions de pages de journaux. Et il est allé plus loin, car en s’aidant d’un système d’apprentissage automatique, ces références seront désormais indexées et accessibles en un clic.

Des millions d’images couvrant trois siècles, rassemblés en une base de données

Lee et son équipe se sont en fait inspirés du projet Chronicling America, consistant à sélectionner et à collecter une à une les informations de vieux journaux, afin de les numériser tout en les classant via les légendes et les références qui s’y rapportent. Et tout cela est réalisé par un agent humain.

Cette fois, pour faire de même avec les illustrations et les contenus visuels publiés dans des journaux américains datant de 1789 à 1963, les chercheurs se sont aidés d’un programme informatique d’apprentissage automatique basé sur le même principe qu’ils ont conçu.

19 jours de travail ont ainsi permis de traiter 16 millions de pages de journaux, de quoi rendre Lee fier. « C’est le plus grand travail informatique que j’ai jamais exécuté » déclare-t-il à juste titre.

Au cours de l’opération, les images sont scannées et les légendes enregistrées comme des descriptions fiables, puis transformées en métadonnées. Cela permet de trier convenablement les contenus visuels traités afin de les indexer.

De cette façon, il suffira ultérieurement de taper les bons mots clés sur une espèce de moteur de recherche baptisé Newspaper Navigator, afin de trouver les contenus visuels voulus en juste un clic.

Newspaper Navigator pourra servir de modèle pour numériser d’autres types de contenus

La présente recherche est une grande étape pour affiner les techniques d’indexation de différents documents, plus particulièrement ceux historiques.

Plus important, Lee et son équipe ne se sont pas contentés de réaliser l’exploit, mais proposent également aux autres chercheurs de partir de son concept pour créer leurs propres systèmes d’indexation et de navigation, afin d’en faire bénéficier tout le monde.

D’ailleurs, les images et les résultats obtenus en utilisant Newspaper Navigator sont gratuits et peuvent être utilisés librement. Pour information, l’outil sera disponible cet été.

Mots-clés machine learning