banner

Nouvelles

Jan 31, 2024

Les scientifiques ont décidé

Les chercheurs commencent à percer l'un des plus grands mystères derrière les modèles de langage d'IA qui alimentent les outils de génération de texte et d'image comme DALL-E et ChatGPT.

Depuis un certain temps déjà, les experts en apprentissage automatique et les scientifiques ont remarqué quelque chose d'étrange à propos des grands modèles de langage (LLM) comme le GPT-3 d'OpenAI et le LaMDA de Google : ils sont inexplicablement bons pour effectuer des tâches pour lesquelles ils n'ont pas été spécifiquement formés. C'est une question déroutante, et juste un exemple de la façon dont il peut être difficile, voire impossible dans la plupart des cas, d'expliquer comment un modèle d'IA arrive à ses sorties avec des détails fins.

Dans une étude à paraître publiée sur le serveur de préimpression arXiv, des chercheurs du Massachusetts Institute of Technology, de l'Université de Stanford et de Google explorent ce phénomène "apparemment mystérieux", appelé "apprentissage en contexte". Normalement, pour accomplir une nouvelle tâche, la plupart des modèles d'apprentissage automatique doivent être recyclés sur de nouvelles données, un processus qui peut normalement obliger les chercheurs à saisir des milliers de points de données pour obtenir le résultat souhaité, une entreprise fastidieuse et chronophage.

Mais avec l'apprentissage en contexte, le système peut apprendre à effectuer de nouvelles tâches de manière fiable à partir de quelques exemples seulement, en acquérant essentiellement de nouvelles compétences à la volée. Une fois invité, un modèle de langage peut prendre une liste d'entrées et de sorties et créer de nouvelles prédictions, souvent correctes, sur une tâche pour laquelle il n'a pas été explicitement formé. Ce type de comportement est de très bon augure pour la recherche sur l'apprentissage automatique, et comprendre comment et pourquoi il se produit pourrait fournir des informations inestimables sur la façon dont les modèles de langage apprennent et stockent les informations.

Mais quelle est la différence entre un modèle qui apprend et ne se contente pas de mémoriser ?

"L'apprentissage est lié aux connaissances [existantes]", a déclaré Ekin Akyürek, auteur principal de l'étude et doctorant au MIT, à Motherboard. "Nous montrons qu'il est possible pour ces modèles d'apprendre à la volée à partir d'exemples sans aucune mise à jour des paramètres que nous appliquons au modèle."

Cela signifie que le modèle ne se contente pas de copier des données d'entraînement, il s'appuie probablement sur des connaissances antérieures, tout comme le feraient les humains et les animaux. Les chercheurs n'ont pas testé leur théorie avec ChatGPT ou tout autre outil d'apprentissage automatique populaire dont le public est devenu si amoureux ces derniers temps. Au lieu de cela, l'équipe d'Akyürek a travaillé avec des modèles plus petits et des tâches plus simples. Mais parce qu'il s'agit du même type de modèle, leur travail offre un aperçu des rouages ​​d'autres systèmes plus connus.

Les chercheurs ont mené leur expérience en donnant au modèle des données synthétiques ou des invites que le programme n'aurait jamais pu voir auparavant. Malgré cela, le modèle linguistique a pu généraliser puis extrapoler les connaissances à partir d'eux, a déclaré Akyürek. Cela a conduit l'équipe à émettre l'hypothèse que les modèles d'IA qui présentent un apprentissage en contexte créent en fait des modèles plus petits à l'intérieur d'eux-mêmes pour accomplir de nouvelles tâches. Les chercheurs ont pu tester leur théorie en analysant un transformateur, un modèle de réseau de neurones qui applique un concept appelé « auto-attention » pour suivre les relations dans des données séquentielles, comme des mots dans une phrase.

En l'observant en action, les chercheurs ont découvert que leur transformateur pouvait écrire son propre modèle d'apprentissage automatique dans ses états cachés, ou dans l'espace entre les couches d'entrée et de sortie. Cela suggère qu'il est à la fois théoriquement et empiriquement possible pour les modèles de langage d'inventer apparemment, par eux-mêmes, "des algorithmes d'apprentissage bien connus et largement étudiés", a déclaré Akyürek.

En d'autres termes, ces modèles plus grands fonctionnent en créant et en entraînant en interne des modèles de langage plus petits et plus simples. Le concept est plus facile à comprendre si vous l'imaginez comme un scénario d'ordinateur à l'intérieur d'un ordinateur à la Matryoshka.

Parmi les résultats de l'équipe, le scientifique de Facebook AI Research, Mark Lewis, a déclaré dans un communiqué que l'étude est "un tremplin pour comprendre comment les modèles peuvent apprendre des tâches plus complexes, et aidera les chercheurs à concevoir de meilleures méthodes de formation pour les modèles de langage afin d'améliorer encore leurs performances".

Alors qu'Akyürek convient que les modèles de langage comme GPT-3 ouvriront de nouvelles possibilités pour la science, il dit qu'ils ont déjà changé la façon dont les humains récupèrent et traitent les informations. Alors qu'auparavant, taper une invite dans Google ne récupérait que des informations et que nous, les humains, étions responsables de choisir (lire : cliquer) quelles informations fonctionnaient le mieux pour répondre à cette requête, "Maintenant, GPT peut récupérer les informations sur le Web mais aussi les traiter pour vous", a-t-il déclaré à Motherboard. "C'est pourquoi il est très important d'apprendre à utiliser ces modèles pour les cas de données que vous souhaitez résoudre."

Bien sûr, laisser le traitement de l'information à des systèmes automatisés s'accompagne de toutes sortes de nouveaux problèmes. Les chercheurs en éthique de l'IA ont montré à plusieurs reprises comment des systèmes comme ChatGPT reproduisent des préjugés sexistes et racistes difficiles à atténuer et impossibles à éliminer complètement. Beaucoup ont fait valoir qu'il n'est tout simplement pas possible d'empêcher ce préjudice lorsque les modèles d'IA approchent la taille et la complexité de quelque chose comme GPT-3.

Bien qu'il y ait encore beaucoup d'incertitude sur ce que les futurs modèles d'apprentissage pourront accomplir et même sur ce que les modèles actuels peuvent faire aujourd'hui, l'étude conclut que l'apprentissage en contexte pourrait éventuellement être utilisé pour résoudre de nombreux problèmes auxquels les chercheurs en apprentissage automatique seront sans aucun doute confrontés.

En vous inscrivant, vous acceptez les conditions d'utilisation et la politique de confidentialité et de recevoir des communications électroniques de Vice Media Group, qui peuvent inclure des promotions marketing, des publicités et du contenu sponsorisé.

PARTAGER