Les outils linguistiques ChatGPT et AI interdits par la conférence AI pour la rédaction d'articles

Par James Vincent, un journaliste senior qui a couvert l'IA, la robotique et plus pendant huit ans à The Verge.

L'une des conférences d'apprentissage automatique les plus prestigieuses au monde a interdit aux auteurs d'utiliser des outils d'IA comme ChatGPT pour rédiger des articles scientifiques, déclenchant un débat sur le rôle du texte généré par l'IA dans le milieu universitaire.

La Conférence internationale sur l'apprentissage automatique (ICML) a annoncé la politique plus tôt cette semaine, déclarant : "Les articles qui incluent du texte généré à partir d'un modèle de langage à grande échelle (LLM) tel que ChatGPT sont interdits à moins que le texte produit ne soit présenté dans le cadre de l'analyse expérimentale de l'article". La nouvelle a suscité de nombreuses discussions sur les réseaux sociaux, des universitaires et des chercheurs en IA défendant et critiquant la politique. Les organisateurs de la conférence ont répondu en publiant une déclaration plus longue expliquant leur pensée. (L'ICML a répondu aux demandes de commentaires de The Verge en nous dirigeant vers cette même déclaration.)

Selon l'ICML, la montée en puissance de modèles de langage d'IA accessibles au public comme ChatGPT - un chatbot d'IA à usage général lancé sur le Web en novembre dernier - représente un développement "excitant" qui s'accompagne néanmoins de "conséquences imprévues [et] de questions sans réponse". L'ICML dit que celles-ci incluent des questions sur qui possède la sortie de ces systèmes (ils sont formés sur des données publiques, qui sont généralement collectées sans consentement et régurgitent parfois ces informations textuellement) et si le texte et les images générés par l'IA doivent être "considérés comme nouveaux ou de simples dérivés de travaux existants".

Les outils d'écriture d'IA ne sont-ils que des assistants ou quelque chose de plus ?

Cette dernière question est liée à un débat délicat sur la paternité - c'est-à-dire qui "écrit" un texte généré par l'IA : la machine ou son contrôleur humain ? Ceci est particulièrement important étant donné que l'ICML n'interdit que les textes "entièrement produits" par AI. Les organisateurs de la conférence disent qu'ils n'interdisent pas l'utilisation d'outils comme ChatGPT "pour éditer ou peaufiner le texte écrit par l'auteur" et notent que de nombreux auteurs ont déjà utilisé des "outils d'édition semi-automatisés" comme le logiciel de correction grammaticale Grammarly à cette fin.

"Il est certain que ces questions, et bien d'autres, trouveront une réponse au fil du temps, car ces modèles génératifs à grande échelle sont plus largement adoptés. Cependant, nous n'avons encore de réponses claires à aucune de ces questions", écrivent les organisateurs de la conférence.

En conséquence, l'ICML déclare que son interdiction des textes générés par l'IA sera réévaluée l'année prochaine.

Cependant, les questions auxquelles l'ICML s'attaque peuvent ne pas être facilement résolues. La disponibilité d'outils d'IA comme ChatGPT est source de confusion pour de nombreuses organisations, dont certaines ont répondu par leurs propres interdictions. L'année dernière, le site de questions-réponses sur le codage Stack Overflow a interdit aux utilisateurs de soumettre des réponses créées avec ChatGPT, tandis que le ministère de l'Éducation de la ville de New York a bloqué l'accès à l'outil pour toute personne sur son réseau cette semaine.

Les modèles de langage d'IA sont des outils de saisie semi-automatique sans sens inhérent de la factualité

Dans chaque cas, il existe différentes craintes concernant les effets néfastes du texte généré par l'IA. L'une des plus courantes est que la sortie de ces systèmes n'est tout simplement pas fiable. Ces outils d'IA sont de vastes systèmes de saisie semi-automatique, formés pour prédire quel mot suit le suivant dans une phrase donnée. En tant que tels, ils n'ont pas de base de données codée en dur de "faits" sur lesquels s'appuyer - juste la capacité d'écrire des déclarations à consonance plausible. Cela signifie qu'ils ont tendance à présenter de fausses informations comme des vérités, car le fait qu'une phrase donnée semble plausible ne garantit pas sa factualité.

Dans le cas de l'interdiction par ICML des textes générés par l'IA, un autre défi potentiel consiste à faire la distinction entre l'écriture qui n'a été que « polie » ou « éditée » par l'IA et celle qui a été « entièrement produite » par ces outils. À quel moment un certain nombre de petites corrections guidées par l'IA constituent-elles une réécriture plus importante ? Que se passe-t-il si un utilisateur demande à un outil d'IA de résumer son article dans un résumé accrocheur ? Est-ce que cela compte comme du texte fraîchement généré (parce que le texte est nouveau) ou un simple polissage (parce que c'est un résumé des mots que l'auteur a écrits) ?

Avant que l'ICML ne clarifie les attributions de sa politique, de nombreux chercheurs craignaient qu'une éventuelle interdiction des textes générés par l'IA ne soit également préjudiciable à ceux qui ne parlent ni n'écrivent l'anglais comme première langue. Le professeur Yoav Goldberg de l'Université Bar-Ilan en Israël a déclaré à The Verge qu'une interdiction générale de l'utilisation des outils d'écriture de l'IA serait un acte de contrôle contre ces communautés.

"Il y a un biais inconscient clair lors de l'évaluation des articles dans l'examen par les pairs pour préférer les plus fluides, et cela joue en faveur des locuteurs natifs", explique Goldberg. "En utilisant des outils comme ChatGPT pour aider à exprimer leurs idées, il semble que de nombreux locuteurs non natifs pensent qu'ils peuvent "uniformiser les règles du jeu" autour de ces questions." De tels outils peuvent aider les chercheurs à gagner du temps, a déclaré Goldberg, ainsi qu'à mieux communiquer avec leurs pairs.

Mais les outils d'écriture d'IA sont également qualitativement différents des logiciels plus simples comme Grammarly. Deb Raji, chercheuse en intelligence artificielle à la Fondation Mozilla, a déclaré à The Verge qu'il était logique que l'ICML introduise une politique spécifiquement destinée à ces systèmes. Comme Goldberg, elle a déclaré avoir entendu des anglophones non natifs dire que de tels outils peuvent être "incroyablement utiles" pour la rédaction d'articles, et a ajouté que les modèles linguistiques ont le potentiel d'apporter des modifications plus drastiques au texte.

"Je vois les LLM comme tout à fait distincts de quelque chose comme la correction automatique ou la grammaire, qui sont des outils correctifs et éducatifs", a déclaré Raji. "Bien qu'ils puissent être utilisés à cette fin, les LLM ne sont pas explicitement conçus pour ajuster la structure et la langue du texte déjà écrit - ils ont également d'autres capacités plus problématiques, telles que la génération de nouveaux textes et de spam."

"En fin de compte, les auteurs signent sur le papier et ont une réputation à tenir."

Goldberg a déclaré que même s'il pensait qu'il était certainement possible pour les universitaires de générer des articles entièrement à l'aide de l'IA, "ils sont très peu incités à le faire".

"En fin de compte, les auteurs signent sur le papier et ont une réputation à tenir", a-t-il déclaré. "Même si le faux article passe d'une manière ou d'une autre par un examen par les pairs, toute déclaration incorrecte sera associée à l'auteur et restera avec lui pendant toute sa carrière."

Ce point est particulièrement important étant donné qu'il n'existe aucun moyen totalement fiable de détecter le texte généré par l'IA. Même l'ICML note qu'une détection infaillible est "difficile" et que la conférence n'appliquera pas son interdiction de manière proactive en exécutant les soumissions via un logiciel de détection. Au lieu de cela, il n'enquêtera que sur les soumissions qui ont été signalées par d'autres universitaires comme suspectes.

En d'autres termes : en réponse à l'essor des technologies perturbatrices et nouvelles, les organisateurs s'appuient sur des mécanismes sociaux traditionnels pour faire respecter les normes académiques. L'IA peut être utilisée pour peaufiner, éditer ou écrire du texte, mais il appartiendra toujours aux humains d'évaluer sa valeur.

/ Inscrivez-vous à Verge Deals pour recevoir quotidiennement des offres sur les produits que nous avons testés.

Blog

Les outils linguistiques ChatGPT et AI interdits par la conférence AI pour la rédaction d'articles