Optimiser l'IA multimodale

Une équipe de l'EPFL (Lausanne) a développé 4M, un cadre d’entrainement de nouvelle génération pour l’IA. En libre accès, il permet de mettre au point des modèles de fondation multimodaux polyvalents et évolutifs, qui vont bien au-delà du langage.

Mots clés: #artificielle, #génération, #IA, #intelligence, #modèle

Lire plus

research

( Photo: 2025 EPFL - CC-BY-SA 4.0 )

ENGINEERINGNET.BE - Les grands modèles de langage (LLM) tels que ChatGPT d’OpenAI ont transformé la manière dont beaucoup d’entre nous accomplissent certaines tâches quotidiennes.

Ces robots conversationnels basés sur l’intelligence artificielle générative sont entraînés avec un langage – des centaines de téraoctets de texte «copié» sur Internet et avec des milliards de paramètres.

A l’avenir, les «moteurs» qui alimenteront l’intelligence artificielle générative seront des modèles multimodaux non seulement entraînés sur du texte, mais aussi capables de traiter diverses autres types d’information, notamment des images, des vidéos, des sons et des éléments d’autres domaines tels que les données biologiques ou atmosphériques.

Jusqu’à récemment, l’entraînement d’un modèle unique afin de traiter un vaste ensemble de modalités – les inputs – et de tâches – les outputs – se heurtait à de grandes difficultés.

Dans le cadre d’un projet pluriannuel mené avec le soutien d’Apple en Californie, une équipe du Laboratoire d’intelligence et d’apprentissage visuels (VILAB) de la Faculté informatique et communications (IC) de l’EPFL a développé 4M, pour modélisation masquée massivement multimodale, l’un des réseaux neuronaux uniques les plus avancés au monde, capable de traiter un vaste ensemble de tâches et de modalités.

Avec 4M, on dispose désormais d’un modèle riche qui peut interpréter plus que le langage.

Amir Zamir, responsable du VILAB: «Lorsque nous passons à la modélisation multimodale, nous n’avons pas à nous limiter au langage. Nous apportons d’autres modalités, y compris des capteurs. Par exemple, nous pouvons communiquer sur une orange à l’aide du mot “orange”, comme dans les modèles de langage, mais aussi par une collection de pixels, indiquant à quoi ressemble l’orange, ou par le sens du toucher, capturant la sensation de toucher une orange. Si vous assemblez différentes modalités, vous obtenez une encapsulation plus complète de la réalité physique que nous essayons de modéliser». (Auteur: Tanya Petersen - Source: EPFL)