Google poursuit l’introduction de l’intelligence artificielle dans son écosystème d’applications. Cette initiative touche à la fois les ordinateurs et les mobiles. Cette fois, c’est YouTube qui est concerné, plus précisément YouTube Shorts.
Google DeepMind utilise désormais l’un de ses modèles de langage visuel (VLM) baptisé Flamingo, afin de générer des descriptions pour les courts métrages de YouTube. Cela aidera à rendre ces vidéos plus consultables.

Des descriptions de métadonnées générées par l’IA
Google a récemment fusionné DeepMind et Google Brain, et est devenu Google DeepMind. Ce dernier servira à améliorer YouTube. Les courts-métrages de YouTube Shorts incluront désormais des descriptions de métadonnées générées par l’IA. Ces informations décrivent ce qui est affiché à l’écran. Cette nouvelle fonctionnalité contribuera à améliorer la manière dont ces vidéos courtes sont regardées et découvertes. Elle est le fruit du constat que comme celles-ci manquent de descriptions et de titres, elles sont plus difficiles à trouver par le biais de la recherche. Notons que la plateforme enregistre une audience quotidienne moyenne de 50 milliards.
Concrètement, Flamingo analyse les images et décrit ce qui se passe à l’écran. La description générée sera transformée en métadonnées et sera stockée dans YouTube et aidera à « mieux classer les vidéos et de faire correspondre les résultats de recherche aux requêtes des internautes ». Ensuite, la plateforme les classera par catégories et se chargera de les suggérer, correctement, lorsque les utilisateurs cherchent quelque chose à regarder.
Des descriptions conformes aux « normes de responsabilité »
Pour le moment, Flamingo n’est appliqué qu’à YouTube Shorts, c’est-à-dire à tous les courts métrages nouvellement téléchargés, et ce pour « un large corpus de vidéos existantes, y compris les vidéos les plus regardées », selon Duncan Smith, porte-parole de DeepMind. Ce type de vidéo souffre du manque d’incitation à ajouter des métadonnées, précise Todd Sherman, directeur de la gestion des produits pour Shorts.
Sherman souligne que les descriptions générées ne sont pas présentées aux créateurs et restent « dans les coulisses ». Toutefois, il ajoute que « beaucoup d’efforts sont déployés pour s’assurer qu’elles sont exactes ». Afin de garantir l’exactitude de chacune d’elles et d’éviter toute dérive, « tous les textes descriptifs seront alignés sur nos normes de responsabilité » affirme-t-il, tout en précisant qu’« il est très peu probable qu’un texte descriptif soit généré pour présenter une vidéo sous un mauvais jour ».