La langue de l'IA est-elle l'anglais?

Des scientifiques de l’EPFL (Lausanne) ont montré que les grands modèles de langage semblent utiliser l’anglais en interne même lorsqu’ils sont sollicités dans une autre langue, ce qui pourrait avoir des conséquences en termes linguistiques et culturels.

Mots clés: #artificielle, #intelligence, #langue

Lire plus

research

( Photo: lishchyshyn - 123RF )

ENGINEERINGNET.BE - Les grands modèles de langage (LLM) ont conquis le monde et surprennent par leur capacité à comprendre les utilisatrices et utilisateurs et à leur répondre avec un discours en apparence naturel.

Bien qu’il soit possible d’interagir avec ces LLM dans n’importe quelle langue, ces derniers sont entraînés avec des centaines de milliards de paramètres textuels, principalement en anglais.

Certaines personnes ont émis l’hypothèse qu’ils effectuaient la majeure partie de leur traitement interne en anglais et traduisaient ensuite dans la langue cible au tout dernier moment. Mais il y avait peu de preuves de cela, jusqu’à aujourd’hui.

Des chercheuses et chercheurs de l’EPFL, l’institut technologique de Lausanne, ont étudié le LLM open source Llama-2 pour essayer de déterminer quelles langues étaient utilisées à quels stades de la chaîne informatique.

Dans la première phase des calculs, aucune probabilité n’est attribuée à l’un ou l’autre mot. Dans la seconde phase, où l’anglais domine, les chercheuses et chercheurs pensent que le modèle se trouve dans une sorte d’espace sémantique abstrait où il ne raisonne pas sur des mots isolés mais sur des concepts, qui sont universels dans toutes les langues.

On suppose que cette représentation du monde en termes de concepts est biaisée en faveur de l’anglais, ce qui serait très logique car les données utilisées pour entraîner ces modèles sont à environ 90% en anglais.

Cette domination de l’anglais pose des questions.  Les chercheuses estiment que cette recherche a vraiment touché un point sensible, car les gens s’inquiètent de plus en plus de ce genre de problème de monoculture potentielle.

Les modèles étant meilleurs en anglais, bon nombre de chercheuses et chercheurs étudient aujourd’hui la possibilité d’introduire un contenu en anglais et de le traduire dans la langue souhaitée.

D’un point de vue technique, cela pourrait fonctionner, mais il semble que nous perdions beaucoup de nuances. (Auteur: Tanya Petersen - Source: EPFL)