Chinese AI-chatbots: zelfcensuur en de evoluerende digitale controle

18

Digitale censuur in China is geen statisch vraagstuk; het is een systeem dat zich voortdurend aanpast. Recent onderzoek bevestigt dat Chinese modellen voor kunstmatige intelligentie (AI) in veel grotere mate actief zelfcensureren dan hun Amerikaanse tegenhangers, wat onthult hoe de overheid de controle behoudt over opkomende technologieën. Een onderzoek door onderzoekers van Stanford en Princeton University vergeleek de antwoorden van vier Chinese en vijf Amerikaanse grote taalmodellen (LLM’s) op 145 politiek gevoelige vragen, die 100 keer werden herhaald om de betrouwbaarheid te garanderen.

Kwantificeerbare censuur

De resultaten waren grimmig: Chinese modellen weigerden een aanzienlijk hoger percentage vragen te beantwoorden. DeepSeek weigerde bijvoorbeeld 36% van de prompts, terwijl Ernie Bot van Baidu 32% weigerde. Daarentegen hadden OpenAI’s GPT en Meta’s Llama weigeringspercentages van minder dan 3%. Toen Chinese modellen wel reageerden, waren hun antwoorden korter en minder nauwkeurig dan die van Amerikaanse modellen. Dit is niet alleen een verschil in trainingsgegevens; de censuur is opzettelijk.

De bron van vooringenomenheid: trainingsgegevens versus interventie

Onderzoekers onderzochten of deze vooringenomenheid voortkwam uit een vooropleiding over gecensureerde Chinese internetgegevens of uit directe tussenkomst van ontwikkelaars. Jennifer Pan, hoogleraar politieke wetenschappen aan Stanford, legt uit dat “aangezien het Chinese internet al tientallen jaren wordt gecensureerd, er veel ontbrekende gegevens zijn.” Maar zelfs wanneer ze in het Engels werden getest – waar trainingsgegevens theoretisch diverser zouden zijn – vertoonden Chinese LLM’s nog steeds meer censuur, wat erop wijst dat handmatige interventie een sleutelrol speelt.

De illusie van eerlijkheid: hallucinaties en leugens

Een uitdaging bij het bestuderen van AI-censuur is het onderscheid maken tussen regelrechte leugens en ‘hallucinaties’ – waarbij het model informatie verzint omdat het het antwoord niet weet. Toen hem bijvoorbeeld werd gevraagd naar Liu Xiaobo, een Chinese dissident, beweerde een model ten onrechte dat hij een Japanse wetenschapper was die gespecialiseerd was in kernwapens. Het is onduidelijk of dit opzettelijke misleiding was of een gevolg van ontbrekende gegevens uit de trainingsset. Pan merkt op dat minder waarneembare censuur vaak het meest effectief is.

Verborgen instructies extraheren

Onderzoekers ontwikkelen ook methoden om de verborgen instructies te achterhalen die het gedrag van deze modellen bepalen. Alex Colville, die AI-propaganda bestudeerde bij het China Media Project, ontdekte dat aanwijzingen Alibaba’s Qwen kunnen dwingen de onderliggende richtlijnen te onthullen. Qwen gaf consequent toe dat hij de opdracht kreeg om ‘zich te concentreren op de prestaties van China’ en ‘negatieve uitspraken te vermijden’. Deze subtiele manipulatie zorgt ervoor dat zelfs wanneer het model antwoordt, dit binnen vooraf goedgekeurde parameters gebeurt.

De race tegen de tijd

Het onderzoeksveld van AI-censuur is nog jong en wordt geconfronteerd met aanzienlijke hindernissen: onderzoekers lopen het risico de toegang tot modellen te verliezen omdat ze te veel gevoelige vragen stellen, en geavanceerde modellen vergen aanzienlijke computerbronnen voor het testen. Het allerbelangrijkste is dat het snelle tempo van de modelontwikkeling betekent dat conclusies waarschijnlijk snel achterhaald zullen zijn.

De huidige focus op AI-veiligheid is scheef gericht op toekomstige risico’s, in plaats van op de gevaren die al aanwezig zijn in systemen zoals die welke actief zijn in het digitale landschap van China.

De studie onderstreept dat AI-censuur geen theoretische zorg is, maar een actieve praktijk. De bevindingen benadrukken de noodzaak van verder onderzoek naar de methoden die worden gebruikt om deze modellen te manipuleren en de bredere implicaties voor mondiale informatiecontrole.