
Des images 2D transformées en 3D rapidement grâce à une IA révolutionnaire
Les hommes sont capables de voir une image en deux dimensions et imaginer ce qu’il en est réellement en trois dimensions, mais les machines non. Un nouveau dispositif inventé par des scientifiques du MIT peut cependant transformer des images en trois dimensions en partant d’images 2D. L’outil est environ 15 000 fois plus rapide que les anciens dispositifs.

Les scientifiques ont pu faire recours à des systèmes neuronaux pour déterminer des images en dimensions réelles à partir d’images 2D. Toutefois, cette méthode d’apprentissage automatique est un peu trop lente pour être applicables dans plusieurs travaux pratiques.
Un dispositif sensé communiqué avec son entourage doit pouvoir déterminer une des images en 3D à partir d’images en 2D. Les faisceaux lumineux mis au point par les scientifiques sont capables de reproduire un faisceau lumineux après une seule observation d’une image.
Comment ça marche ?
La technique reproduit les images par un ensemble de rayons lumineux à 360 degrés, passant par tous les points et suivant tous les axes. L’ensemble de rayons est encodé dans une canalisation neuronale, permettant ainsi d’avoir le résultat souhaité beaucoup plus rapidement.
Lorsqu’un ordinateur voulait faire cette opération, l’obtention d’un objet 3D en partant d’une image implique de cartographier de nombreux faisceaux lumineux envoyés par l’appareil photo. Actuellement, il est possible de procéder de la sorte, mais ce processus implique de nombreux calculs et donc un long moment d’attente.
Un réseau de champs lumineux (LFN) est capable de transformer le faisceau lumineux d’une image 3D. Ensuite, il associe à chacun des rayons de l’appareil photo dans le faisceau lumineux la couleur aperçue par ce rayon. Cependant, pour reconstituer l’ensemble des rayons, le réseau neuronal doit d’abord cerner les matières des faisceaux lumineux.
Les scientifiques ont donc mis à l’épreuve leur dispositif à l’aide de plusieurs images en deux dimensions. Dès que l’exemple a appris la forme d’un champ lumineux, il a pu transformer une image 3D à partir d’une seule image.
Des rendus plus rapides ?
Les scientifiques ont expérimenté leur dispositif en reconstituant des faisceaux lumineux à 360 degrés à partir de nombreuses images simples. Ils ont constaté que les LFN peuvent donner des rendus de scène à une vitesse d’environ 500 images par seconde. En outre, les objets 3D rendus par les LFN sont beaucoup plus clairs que ceux donnés par les anciens systèmes.
Un LFN demande aussi moins de mémoire de stockage, avec environ 1,6 mégaoctet, soit 146 mégaoctets pour un dispositif beaucoup plus vieux. À l’avenir, les scientifiques voudraient avoir un dispositif plus performant dans le but d’en faire usage pour des situations un peu plus complexes que celles du moment.