La censure numérique en Chine n’est pas un problème statique ; c’est un système qui s’adapte constamment. Des recherches récentes confirment que les modèles chinois d’intelligence artificielle (IA) s’autocensurent dans une bien plus grande mesure que leurs homologues américains, révélant ainsi comment le gouvernement maintient le contrôle sur les technologies émergentes. Une étude menée par des chercheurs de l’Université de Stanford et de Princeton a comparé les réponses de quatre modèles de langage chinois et américains (LLM) à 145 questions politiquement sensibles, répétées 100 fois pour garantir la fiabilité.
Censure quantifiable
Les résultats ont été sans appel : les mannequins chinois ont refusé de répondre à un pourcentage de questions nettement plus élevé. Par exemple, DeepSeek a rejeté 36 % des invites, tandis qu’Ernie Bot de Baidu en a refusé 32 %. En revanche, GPT d’OpenAI et Llama de Meta avaient des taux de refus inférieurs à 3 %. Lorsque les modèles chinois ont répondu, leurs réponses étaient plus courtes et moins précises que celles des modèles américains. Il ne s’agit pas simplement d’une différence dans les données d’entraînement ; la censure est délibérée.
La source des biais : données de formation par rapport à l’intervention
Les chercheurs ont cherché à savoir si ce biais provenait d’une pré-formation sur des données Internet chinoises censurées ou d’une intervention directe des développeurs. Jennifer Pan, professeur de sciences politiques à Stanford, explique que « étant donné que l’Internet chinois est déjà censuré depuis des décennies, il manque beaucoup de données ». Cependant, même lorsqu’ils étaient testés en anglais – où les données de formation seraient théoriquement plus diverses – les LLM chinois faisaient toujours preuve d’une plus grande censure, ce qui suggère que l’intervention manuelle joue un rôle clé.
L’illusion de l’honnêteté : hallucinations et mensonges
L’un des défis de l’étude de la censure de l’IA est de faire la distinction entre les mensonges purs et simples et les « hallucinations », dans lesquelles le modèle fabrique des informations parce qu’il ne connaît pas la réponse. Par exemple, interrogé sur Liu Xiaobo, un dissident chinois, un mannequin a faussement affirmé qu’il était un scientifique japonais spécialisé dans les armes nucléaires. On ne sait pas s’il s’agit d’une erreur intentionnelle ou du résultat de données manquantes dans son ensemble de formation. Pan note qu’une censure moins détectable est souvent la plus efficace.
Extraction des instructions cachées
Les chercheurs développent également des méthodes pour extraire les instructions cachées qui régissent le comportement de ces modèles. Alex Colville, étudiant la propagande de l’IA au China Media Project, a découvert que les invites peuvent forcer Qwen d’Alibaba à révéler ses lignes directrices sous-jacentes. Qwen a constamment admis avoir reçu pour instruction de « se concentrer sur les réalisations de la Chine » et « d’éviter les déclarations négatives ». Cette manipulation subtile garantit que même lorsque le modèle répond, il le fait dans le cadre de paramètres pré-approuvés.
La course contre la montre
Le domaine de la recherche sur la censure de l’IA est encore jeune et se heurte à des obstacles importants : les chercheurs risquent de perdre l’accès aux modèles s’ils posent trop de questions sensibles, et les modèles avancés nécessitent des ressources informatiques considérables pour les tests. Plus important encore, le rythme rapide du développement des modèles signifie que toutes les conclusions risquent de devenir rapidement obsolètes.
L’accent actuel mis sur la sécurité de l’IA est orienté vers les risques futurs, plutôt que vers les dangers déjà présents dans des systèmes tels que ceux opérant dans le paysage numérique chinois.
L’étude souligne que la censure de l’IA n’est pas une préoccupation théorique, mais une pratique active. Les résultats soulignent la nécessité de poursuivre les recherches sur les méthodes utilisées pour manipuler ces modèles et sur les implications plus larges pour le contrôle mondial de l’information.
