Une étude de l’université Northeastern met en lumière la facilité déconcertante avec laquelle les intelligences artificielles génératives comme ChatGPT peuvent être détournées pour fournir des informations sensibles, voire potentiellement dangereuses. Malgré les règles de sécurité intégrées, il suffit de quelques reformulations subtiles pour contourner leurs mécanismes de protection.
Des IA déjouées en quelques échanges seulement
Annika Marie Schoene, chercheuse à l’origine de l’étude, a interrogé quatre des plus grandes IA actuelles : ChatGPT d’OpenAI, Gemini de Google, Claude d’Anthropic et Perplexity. Lors des premières sollicitations autour du suicide ou de l’automutilation, les modèles ont refusé d’obtempérer, notamment au nom de leur politique de sûreté.
Mais en adaptant ses demandes, en les formulant comme des cas « théoriques » ou des exercices de recherche scientifique, Schoene est parvenue à obtenir des réponses détaillées. En à peine deux ou trois tours de discussion, les IA délivraient déjà des explications précises sur des méthodes à haut risque.
Une inquiétante sophistication dans les réponses
Les réponses générées allaient bien au-delà de simples généralités. Certaines IA ont donné des indications exactes sur les quantités de médicaments à ingérer, en fonction du poids et de la taille de l’utilisateur. D’autres mentionnaient des lieux précis, tels que des ponts en périphérie, présentés comme adaptés pour un suicide.
Pire encore, certaines réponses avaient un ton surprenamment détaché. Des grilles de choix de méthodes, agrémentées parfois d’émojis explicites, ont été proposées : corde, flacon, structure élevée… Tout était listé avec clarté, comme un guide pratique macabre.
Pour Cansu Canca, coautrice de la recherche, ces résultats ne relèvent pas du hasard. Il a suffi de quelques reformulations pour que n’importe quel utilisateur accède à ces contenus. Certaines IA allaient jusqu’à convertir automatiquement les dosages en nombre précis de comprimés, ce qui dépasse largement le cadre d’une demande légitime ou académique.

Des géants technologiques prévenus, mais peu réactifs
Les équipes de recherche ont pris soin d’alerter directement les entreprises concernées : OpenAI, Google, Anthropic et Perplexity. Tous les résultats détaillés ont été communiqués. Mais les retours n’ont consisté qu’en réponses automatiques, avec aucun plan d’action concret en retour.
Un seul modèle a totalement résisté à toutes les tentatives de contournement : Pi AI. Pour les scientifiques, cela démontre que des systèmes de sécurité solides sont techniquement possibles, mais encore faut-il y consacrer les efforts nécessaires.
Un accès trop simple et aux conséquences lourdes
Si de telles informations circulent déjà en ligne, la particularité des IA grand public comme ChatGPT est leur accessibilité immédiate, mêlée à une fausse impression d’anonymat et de confidentialité. À la différence d’un échange avec un professionnel ou d’une recherche traditionnelle, les réponses obtenues via IA ne filtrent pas, ne jugent pas et ne protègent pas l’utilisateur.
Schoene souligne que les intelligences artificielles ne possèdent pas les filtres humains d’un médecin ou d’un psychologue. Elles réagissent à des mots-clés, sans aucun discernement du contexte émotionnel. Dans des phases de grande vulnérabilité, un simple échange avec une IA peut faire basculer une impulsion en acte irréversible.
Vers une régulation encore balbutiante
Certaines initiatives législatives commencent à émerger. En Californie, un projet de loi cherche à protéger les adolescents de conversations nocives avec des IA, à la suite d’un cas tragique de suicide lié à un robot conversationnel.
Mais pour les chercheurs à l’origine de cette étude, cela reste très en deçà de ce qui est nécessaire. Ils appellent à une mobilisation urgente et collective : développeurs, entreprises, institutions et utilisateurs doivent prendre conscience de la dangerosité réelle de ces outils.
« Ce ne sont pas des thérapeutes, insiste Schoene. Ils ne comprennent pas ce que nous traversons. Et certains utilisateurs sont déjà morts après avoir suivi leurs recommandations. Il est temps que la technologie assume ses responsabilités. »

