Les grands modèles de langage et la "flèche du temps"

Dans une phrase, les grands modèles de langage comme GPT-4 arrivent mieux à prédire les mots à venir que les mots précédents. Cet effet de «flèche du temps» pourrait redéfinir la manière dont ces modèles comprennent le langage naturel.

Mots clés: #artificielle, #chat, #IA, #intelligence

Lire plus

Actualités

( Photo: markoaliaksandr - 123RF )

ENGINEERINGNET.BE - Les grands modèles de langage (LLM) comme GPT-4 sont devenus indispensables pour des tâches telles que la création de texte, le codage, l’exploitation de robots conversationnels et la traduction.

Ils prédisent le mot suivant d’une phrase en fonction des mots précédents – une idée simple mais efficace qui est à l’origine de la plupart de leurs fonctionnalités.

Mais que se passe-t-il si l’on demande à ces modèles de prédire les mots d’un texte à rebours, c’est-à-dire de revenir en arrière et de déterminer le mot précédent à partir des mots suivants?

Cette question a amené Clément Hongler titulaire de la Chaire de théorie des champs statistiques de l’EPFL, et Jérémie Wenger de Goldsmiths (Londres) à étudier si les LLM pouvaient créer une histoire à l’envers, c’est-à-dire en commençant par la fin.

En collaboration avec Vassilis Papadopoulos, chercheur en intelligence artificielle à l’EPFL, ils ont fait une découverte étonnante: les LLM sont systématiquement moins précis lorsqu’ils prédisent à l’envers.

Les trois chercheurs ont testé des LLM de différentes architectures et tailles. Pour tous les modèles, un effet de biais de «flèche du temps» apparaît, révélant une asymétrie fondamentale dans la manière dont les LLM traitent les textes.

Cette découverte montre que si les LLM sont assez efficaces pour prédire le mot suivant et le mot précédent dans un texte, ils sont toujours légèrement moins efficaces à l’envers.

Ce phénomène est universel: il apparaît dans toutes les langues et peut être observé avec n’importe quel grand modèle de langage.

Il est en outre  lié à une propriété profonde de la structure du langage qui a été découverte seulement avec l’émergence des grands modèles de langage au cours des cinq dernières années. (Auteur: Nik Papageorgiou - Source: EPFL)