L’Académie des technologies a publié un rapport sur le lien entre l’IA et la mésinformation. L’étude met en avant le manque de précision sur l’origine des données d’entraînement des LLM et de ses biais, menant à la génération de résultats erronés ou partisans. Un nutri-score des programmes est alors présenté comme une solution pour lutter contre ce phénomène.
L’algorithme Tiktok est à l’origine d’une ingérence russe et par conséquent de l’annulation des élections roumaines en décembre 2024. Le candidat élu a été favorisé par le réseau social, portant atteinte à la démocratie. C’est l’un des nombreux exemples de campagnes de désinformation menées avec l’IA. D’ailleurs, le rapport du Forum économique mondial (WEF) classe la malinformation – imperfection de l’information, qu’elle soit incomplète, partisane, erronée ou falsifiée – comme la première cause de déstabilisation politique mondiale à court terme. “Les fake news n’ont pas attendu les réseaux sociaux pour émerger. Mais le numérique engage un phénomène de viralité et une amélioration des techniques de fake qui pourrait déclencher une hausse de la demande”, déclare Nicolas Curien, membre fondateur de l’Académie des technologies, lors de la présentation du rapport IA et désinformation publié par son organisme le 13 décembre. L’étude présente le lien entre l’IA générative et la mésinformation, c’est-à-dire des informations involontairement erronées ou délibérément falsifiées – dans ce dernier cas, il s’agit de désinformation. Pour l’Académie des technologies, les LLM (Large Language Model) ou plutôt leur fonctionnement actuel participe à la création de cette mésinformation.
Les LLM coupables d’hallucinations, de sexisme et de racismes
Les modèles de langage de l’IA générative s’apparentent au langage naturel et se structurent en trois niveaux : extraire les probabilités, répondre à une question et enfin le prompt – savoir ce qu’il faut dire ou ne pas dire et comment le dire. D’après Michèle Sebag, directrice de recherche au CNRS et membre de l’Académie des technologies, ce modèle crée un continuum de la génération de résultats jusqu’à la tromperie. Les LLM complètent des phrases sur la base de la plausibilité et les présentent comme une vérité, mais une IA qui ne sait plus quoi dire, invente. C’est ce qu’on appelle les hallucinations de l’intelligence artificielle. Les programmes doivent donc se nourrir d’une large base de données pour éviter ce travers. Encore faut-il avoir la main mise sur l’origine des data d’entraînement. Actuellement, ces programmes représentent des boîtes noires qu’il nous faut appréhender. “La moitié des workshop consacrés aux LLM se contentent de recherche technique. Alors que la première chose à faire, c’est de rendre les modèles plus fiables et d’ouvrir cette boîte noire », explique Michèle Sebag. La scientifique dénonce l’utilisation de données issues de nos réalités qui induisent des biais sexistes et racistes. Si on demande à une IA générative de compléter la phrase “Mathieu sort de …”, le programme propose “la maison”. Alors que la même construction précédée du prénom Mohamed génère la réponse “de prison”. Pour garantir une information fiable issue d’intelligence artificielle, l’utilisateur doit connaître ses biais. Le problème ? La majorité des programmes proviennent des États-Unis et se nourrissent de données américaines, diffusant les biais de leur société. L’Europe a donc besoin de langages souverains qui interprètent les résultats en fonction des valeurs de l’UE.
Élaborer un nutri-score des LLM
Face aux travers de l’intelligence artificielle, l’Académie des technologies propose six solutions à long terme. Parmi elles, l’identification de tous les biais complexes pour les réduire et avoir une indication sur le LLM utilisé. “On connaît la ligne éditoriale d’un média, mais pas celle des LLM. Il faudrait donc avoir une visibilité sur leurs couleurs également”, affirme Michèle Sebag. Le rapport propose de construire un Observatoire de l’édition artificielle (OEA), dont l’objet serait de tester régulièrement et rendre publiques les “lignes éditoriales” implicites des modèles les plus populaires, c’est-à-dire des biais induits par le choix des données et procédures d’apprentissage. Dans le même objectif d’encadrement des grands modèles de langage, l’Académie des technologies souhaite contraindre les grandes plateformes à afficher un score d’artificialité des contenus les plus viraux. Un indicateur qui préciserait, d’une part, la probabilité que ces contenus aient été engendrés par IA générative et, d’autre part, celle qu’ils aient été automatiquement et massivement diffusés par des comptes non humains – des bots. “À l’image de l’alimentation, on disposerait d’un nutri-score des LLM pour nous guider dans le choix et la fiabilité de l’IA”, conclut Michèle Sebag.