Digitální cenzura v Číně není statický problém, ale neustále se přizpůsobující systém. Nedávný výzkum potvrzuje, že čínské modely umělé inteligence (AI) se aktivně autocenzurují v mnohem větší míře než jejich americké protějšky, což dokazuje, jak si vláda udržuje kontrolu nad vyvíjejícími se technologiemi. Studie vědců z univerzit ve Stanfordu a Princetonu porovnávala odpovědi čtyř čínských a pěti amerických velkých jazykových modelů (LLM), kterým bylo položeno 145 politicky citlivých otázek, které byly 100krát opakovány, aby byla zajištěna spolehlivost.
Vyčíslitelná cenzura
Výsledky byly zarážející: čínské modely odmítly odpovědět na výrazně vyšší procento otázek. Například DeepSeek odmítl 36 % žádostí a Ernie Bot z Baidu odmítl 32 %. Naproti tomu OpenAI GPT a Meta’s Llama měly poruchovost nižší než 3 %. Když čínské modely odpověděly, jejich odpovědi byly kratší a méně přesné než u amerických modelů. Nejde jen o rozdíl v tréninkových datech; cenzura je záměrná.
Zdroj zkreslení: Školicí data vs. intervence
Vědci zkoumali, zda tato zaujatost byla způsobena předškolením na cenzurovaných čínských internetových datech nebo přímým zásahem vývojářů. Jennifer Pan, profesorka politologie na Stanfordské univerzitě, vysvětluje: “Vzhledem k tomu, že čínský internet byl po desetiletí cenzurován, chybí spousta dat.” I při testování v angličtině, kde jsou tréninková data teoreticky rozmanitější, však čínské LLM stále vykazovaly větší cenzuru, což ukazuje na klíčovou roli manuálního zásahu.
Iluze poctivosti: halucinace a lži
Jednou z výzev studia cenzury umělé inteligence je odlišení přímých lží od „halucinací“, kdy si model vymýšlí informace, protože nezná odpověď. Když se například zeptali na čínského disidenta Liou Siao-poa, jeden z modelů nepravdivě uvedl, že jde o japonského vědce specializujícího se na jaderné zbraně. Není jasné, zda se jednalo o úmyslné zkreslení nebo důsledek chybějících dat v jeho tréninkové sadě. Peng poznamenává, že méně viditelná cenzura je často nejúčinnější.
Extrahování skrytých pokynů
Výzkumníci také vyvíjejí metody, jak extrahovat skryté instrukce, které řídí chování těchto modelů. Alex Colville, který studuje advokacii umělé inteligence na China Media Project, zjistil, že dotazy by mohly Qwen z Alibaby přimět odhalit své základní principy. Qwen neustále přiznává, že byl instruován, aby se „soustředil na úspěchy Číny“ a „vyhnul se negativním poznámkám“. Tato jemná manipulace zajišťuje, že i když model reaguje, činí tak v rámci předem schválených parametrů.
Závod s časem
Oblast výzkumu cenzury umělé inteligence je stále nová a naráží na značné překážky: Výzkumníci riskují ztrátu přístupu k modelům, protože kladou příliš mnoho citlivých otázek, a pokročilé modely vyžadují k testování značné výpočetní zdroje. A co je nejdůležitější, rychlé tempo vývoje modelu znamená, že jakékoli závěry pravděpodobně rychle zastarají.
Současné zaměření na bezpečnost umělé inteligence je zaměřeno spíše na budoucí rizika než na ta, která již existují v systémech fungujících v čínském digitálním prostředí.
Studie zdůrazňuje, že cenzura umělé inteligence není teoretický problém, ale aktivní praxe. Zjištění zdůrazňují potřebu dalšího výzkumu metod používaných k manipulaci s těmito vzory a širších důsledků pro globální kontrolu informací.
