ChatGPT : comment détecter que le texte a été écrit par le renseignement…

Photo of author
Written By Sophie Ledont

Rédactrice passionnée qui a vécu dans plus de 25 pays toujours à la recherche de la dernière information.

Stéphane Bonvallet, enseignant handicap à la faculté de Lyon, avait demandé à ses étudiants de travailler sur « l’approche médicale du handicap en Europe ». Lorsqu’il corrige les copies, le doute l’assaille. « Il ne s’agissait pas de copier-coller. Mais les copies ont été construites exactement de la même manière », raconte-t-il dans Le Progrès. « Nous retrouvons ici les mêmes constructions grammaticales. Le raisonnement a été fait dans le même ordre, avec les mêmes qualités et avec les mêmes défauts. Enfin, ils étaient tous illustrés d’un exemple personnel, lié à une grand-mère ou un grand-père… » Si ces copies ne sont donc « pas normales », l’enseignante « n’a pas tout de suite compris de quoi il s’agissait. Évidemment, ce n’était pas du plagiat [du site] ». L’un des étudiants l’avoue : la moitié des quatorze étudiants en master qui ont suivi le cours « avaient utilisé l’intelligence artificielle ChatGPT ».

ChatGPT est une application dérivée d’un « modèle de langage » appelé GPT-3, développé par la société OpenAI. Un modèle de langage est dérivé d’une analyse statistique de la distribution des mots dans des textes préexistants. Lors de l’analyse, la machine identifie que certains mots précèdent toujours d’autres mots, qui peuvent être insérés : par exemple en français « un », « le » et « ce » précèdent le mot « chien » ; les adjectifs « gros », « petit », « grand » sont souvent présents entre ces mots, et plus rarement après. La force de l’intelligence artificielle (IA) derrière ChatGPT est de pouvoir extrapoler des textes très longs en réponse à des questions. Les résultats sont particulièrement impressionnants lorsqu’il s’agit de produire des séquences de code informatique – dont le langage est éminemment codé et « logique » – mais les performances sont assez impressionnantes en français courant.

Mais dans l’affaire de Lyon, c’est l’homogénéité de la structure des textes qui a fait fuir le professeur. En fait, même si elle propose 100 nuances de réponse à la même question, la machine suit toujours plus ou moins la même recette, inspirée de milliers de modèles disponibles en ligne.

Comme la pratique n’était pas formellement interdite, l’enseignant a décidé de noter le devoir. « D’un exemplaire à l’autre, ça coûte entre 10 et 12,5. J’ai donc mis 11,75 aux sept étudiants qui ont utilisé ChatGPT », explique-t-il au quotidien régional. Pas assez pour gagner des prix académiques. Car à ce jour, pour une matière donnée, cette IA textuelle est particulièrement douée pour synthétiser les idées rencontrées le plus fréquemment lors de son apprentissage.

Illusion d’exactitude

La principale caractéristique des modèles de langage utilisés par l’IA reste « l’illusion de la justesse », comme l’observait mi-décembre Melissa Heikkilä, journaliste au MIT Technology Review, spécialisé dans les questions d’IA. « Les phrases qu’ils produisent semblent correctes – ils utilisent les bons types de mots dans le bon ordre. Mais l’IA ne sait pas ce que cela signifie. Ces modèles […] n’ont aucune idée de ce qui est bien ou mal, et présentent avec confiance l’information comme vraie, même quand elle ne l’est pas… »

Diverses équipes de recherche à travers le monde travaillent à développer un logiciel capable de détecter les « tics » stylistiques de l’IA. Dans une étude publiée en 2020, une équipe de chercheurs rattachée à l’université de Pennsylvanie et au laboratoire Google Brain dédié au « deep learning » observe que ces textes abusent des mots impersonnels, et n’utilisent que quelques mots « rares » (argot, langage fort …). Les textes produits par l’IA sont également écrits… sans fautes de frappe.

Des logiciels de détection de plagiat sont déjà utilisés par les universités pour identifier les « emprunts » aux textes présents en ligne dans les productions étudiantes. Des dispositifs similaires sont en cours de développement pour reconnaître le « style » unique de l’IA. Les algorithmes ont donc été entraînés à la détection avec des ensembles de textes écrits respectivement par des humains et des IA (associés à GPT, GPT-2 ou à d’autres modèles de langage), et étiquetés comme tels. En bref, on demande aux IA de filtrer les IA. Parmi ces outils, on peut citer le Output Detector GPT-2, très intuitif à utiliser, créé en 2019 dans le cadre d’un projet « de diffusion responsable, par étapes, de GPT-2 » porté par OpenAI. Mais aussi l’extension de navigateur GPTrue ou False Chrome, le Giant Language Model Test Room (GLTR), développé par une équipe de Harvard en partenariat avec IBM, ou encore le détecteur CTRL, développé par l’éditeur de logiciels Salesforce. Des outils essentiellement développés et évalués sur des corpus anglophones, et dont certains sont particulièrement performants… du moment que le texte proposé « est entièrement produit par l’IA », note à CheckNews Ganesh Jawahar, chercheur en IA à l’université de Columbia. Ce n’est plus le cas « si le texte qui est généré [par l’IA] a ensuite été édité par les élèves… » notamment à l’aide d’un logiciel de paraphrase automatisée.

Ceci pourrez vous intéresser :
Star du catalogue de la marque Bluroc, qui n’est autre que le…

«Cocktail de méthodes de détection»

Les différents experts contactés par CheckNews estiment également que le modèle GPT-3 est très en avance sur les outils de détection. Entre un texte peu original écrit par un humain peu inspiré et un essai ChatGPT signé, la différence devient infime… Irene Solaiman, chercheuse de Hugging Face et ancienne employée d’OpenAI, nous confirme sans surprise que « la précision [du logiciel de détection] diminue avec des [modèles de langage] plus puissants », se référant à une évaluation réalisée vers la fin de 2019 à laquelle elle a participé. Cependant, elle se dit « agréablement surprise que le GPT-2 Output Detector fonctionne encore assez bien pour ChatGPT » (selon le co-fondateur de Hugging Face Julien Chaumond, il y a eu « 4,45 millions d’utilisateurs uniques sur cet outil de découverte depuis décembre 1 à partir du 1er décembre). »). Début janvier, Edward Tian, ​​étudiant en informatique à l’université de Princeton, a mis en ligne un détecteur ChatGPT dédié appelé GPTzero, dont les performances n’ont pas encore été formellement évaluées.

Quoi qu’il en soit, « aucune méthode ou modèle de découverte [automatisée] ne sera fiable à 100% », juge Irene Solaiman. C’est pourquoi elle « recommande toujours d’utiliser un cocktail de méthodes de détection, pas une seule ». Par exemple, gardez à l’esprit que ChatGPT a été formé sur une longue période de temps sur de grands corpus de textes. Il commet donc une erreur lorsqu’il s’agit de mentionner des événements récents. Muhammad Abdul-Mageed, le deuxième chercheur de l’Université de la Colombie-Britannique interrogé par CheckNews, note que « puisque l’IA n’est pas au courant de ces événements récents, on peut trouver – de manière triviale – des jugements erronés tels que : « Canada a remporté la Coupe du monde 2022. «  » Les mots mis bout à bout par l’IA de manière grammaticalement correcte peuvent aussi trahir une profonde incompréhension de la réalité physique de notre monde (référence à des ordres de grandeur invraisemblables pour des distances, des durées). Enfin, note Solaiman, parce que les modèles produisent des textes en extrapolant quels termes sont les plus susceptibles de succéder aux autres, « ils peuvent parfois rester coincés dans une boucle », générant des répétitions et des redondances douteuses.

À Lire  Recours accru au Médiateur en Haute-Garonne

«Violation de l’intégrité académique»

Récemment, la société OpenAI a confirmé qu’elle travaillait très secrètement pour modifier de longues séquences de textes générées par son IA afin de constituer une signature – et donc une preuve – de l’origine du texte. Par exemple, cela peut consister à forcer la machine à compléter une phrase sur dix avec un mot qui se termine par la même lettre, ou une phrase sur vingt avec un mot qui commence par la même lettre. Quelque chose d’anodin en apparence, invisible pour le lecteur, mais parfaitement incriminant.

Depuis début 2023, l’accès à ChatGPT par les écoles de New York a été interdit. « Un nombre croissant d’organisations éducatives ont commencé à discuter de l’utilisation de ChatGPT pour le travail des étudiants », poursuit Muhammad Abdul-Mageed. « Cela inclut notre propre université, l’UBC, et d’autres telles que l’Université de Washington. À ce stade, les universités semblent essayer d’adopter une approche équilibrée. Par exemple, certaines universités encouragent leurs professeurs à commencer à inclure des informations sur l’utilisation de Des outils d’IA pour compléter ou automatiser les réponses aux devoirs dans leur cursus. Il y a aussi une tendance positive où les universités encouragent les enseignants à intégrer les connaissances sur ces outils dans les cursus, etc. »

Pour Irene Solaiman, il semble clair que « si un enseignant n’a pas donné son accord pour lire ou noter une dissertation générée par un modèle linguistique », la situation s’apparente à une « violation de l’intégrité académique ». Si l’utilisation qui en est faite est transparente, l’outil peut cependant trouver sa place dans le milieu universitaire : « auteur » dans une publication », explique-t-elle. Cependant, certaines productions d’IA devront toujours « être guidées par des humains », et « nécessiteront une validation humaine » – notamment celles liées à « la médecine et la santé mentale ou physique ». « Ce sont des domaines évidents à haut risque, dans le sens où ils affectent directement le bien-être humain », insiste Soleiman.

«Esprit critique crucial»

« L’une des choses les plus utiles à faire, juge Muhammad Abdul-Mageed, à mon avis, est d’éduquer les utilisateurs sur la question de la désinformation et sur la façon d’être critique vis-à-vis de ce que nous lisons en ligne. C’est peut-être difficile, mais c’est possible. Quoi qu’il en soit, même si des outils efficaces pour identifier les générations ChatGPT sont développés, il y aura probablement de nouveaux modèles qui seront introduits. Cette situation ne devrait donc pas changer dans un avenir proche, et notre esprit critique en tant qu’humains restera crucial.

Dans le magazine de l’Ecole des lettres, une professeure de lettres d’un établissement parisien, Marie-Astrid Clair, offre un point de vue intéressant sur la création de ChatGPT dans le domaine de l’éducation. « L’existence d’un tel outil pourrait réduire la part des devoirs, source de tant d’inégalités pour nos élèves et, comme vous le savez, mesdames, vous qui, le soir ou en fin de semaine, c’est souvent ceux qui ne le sont pas. -l’intelligence artificielle de vos enfants. Une telle machine pourrait continuer à développer la place donnée à l’oral, à la créativité, à la brièveté. Cela peut donner aux professeurs de français l’illusion momentanée que non, malgré le moins d’heures, le niveau n’a pas baissé. Et cela peut être le cas si l’étudiant découvre l’incomparable dictionnaire de synonymes en ligne CNRS/CNRTL, et s’amuse ensuite à tout personnaliser. Cela obligera également l’étudiant à se concentrer non pas sur la technique mais sur sa propre pensée exprimée dans des mots appropriés… »

Comment tester Imagen ?

Comment utiliser Dall-e 2 ? Pour utiliser DALL-E 2, il vous suffit de créer un compte puis de décrire en quelques mots (en anglais) ce que vous souhaitez créer comme image. Par exemple, l’illustration ci-dessous a été générée par l’intelligence artificielle à partir des mots « chat cyberpunk, style anime japonais des années 90 ».

Comment utiliser Imagen ? Google travaille sur un concept similaire mais beaucoup plus avancé appelé Imagen. Son fonctionnement est simple : vous entrez une description de quelques mots, et l’IA se charge de créer des images pour vous. La société a publié quelques exemples dans un article de blog, et les résultats sont époustouflants.

Comment utiliser Google Imagen ? Sur votre ordinateur, ouvrez le navigateur Chrome. Accédez au site Web qui contient l’image que vous souhaitez utiliser. Faites un clic droit dessus. Cliquez sur Rechercher une image avec Google Lens pour afficher les résultats dans une barre latérale.

Comment tester Dall-e 2 ?

Pour tester l’outil Dall-E et son intelligence artificielle :

  • Rendez-vous sur le site OpenAI,
  • Cliquez sur le bouton S’INSCRIRE,
  • Connectez-vous avec votre adresse e-mail,
  • Confirmez votre numéro de téléphone, et entrez le code envoyé,
  • Une fois ces opérations effectuées, vous pouvez commencer à tester l’outil.

Pourquoi Dall-e ? DALL-E (ou DALL·E, pour prononcer Dali, en référence à Salvador Dali) est un programme d’intelligence artificielle capable de créer des images à partir de descriptions textuelles. Son nom est un mot-valise qui évoque à la fois le robot Pixar WALL-E et le peintre Salvador Dalí.

Où utiliser Dall-e ?

Outre la dimension artistique, cet outil peut être utilisé pour le design, l’architecture ou encore le marketing. Plusieurs marques, dont Heinz, l’ont utilisé pour créer des publicités expérimentales. De plus, DALL-E 2 peut être utile pour accélérer la création de jeux vidéo ou d’arrière-plans de films.

Pourquoi Dall-e ? DALL-E (ou DALL·E, pour prononcer Dali, en référence à Salvador Dali) est un programme d’intelligence artificielle capable de créer des images à partir de descriptions textuelles. Son nom est un mot-valise qui évoque à la fois le robot Pixar WALL-E et le peintre Salvador Dalí.

Ou essayez Dall-e? Comment utiliser l’outil Dall-E ?

  • Rendez-vous sur le site OpenAI,
  • Cliquez sur le bouton S’INSCRIRE.
  • Connectez-vous avec votre adresse e-mail et Tél.
  • Confirmez votre numéro de téléphone et entrez le code envoyé
  • Confirmez votre adresse e-mail et vous pouvez maintenant commencer à tester Dall-E.

Est-ce que dall-E est gratuit ?

DALL-E est un outil d’intelligence artificielle conçu par la société américaine OpenAI. OpenAI, spécialiste de l’intelligence artificielle, permet désormais à tous les internautes de tester gratuitement son outil DALL-E. Ce dernier permet de créer des images à partir de requêtes textuelles.

Comment étendre une image avec Dall-e ? C’est simple : encore une fois, copiez et collez l’image originale sur Dall-E, puis cliquez sur la zone où vous souhaitez étendre l’image, et écrivez le résultat souhaité.

Comment étendre une image avec Dall-e ?

C’est simple : encore une fois, copiez et collez l’image originale sur Dall-E, puis cliquez sur la zone où vous souhaitez étendre l’image, et écrivez le résultat souhaité.

Comment se rendre à Dall-e 2 ? Comment s’inscrire sur DALL-E 2 ? Initialement lancé en avril 2022, DALL-E 2 n’était accessible que sur une liste d’attente de cinq mois. Depuis septembre 2022, l’accès est désormais ouvert et tout le monde peut s’inscrire depuis le site officiel.