Китайські AI-чати: самоцензура та еволюціонуючий цифровий контроль

1

Цифрова цензура в Китаї — це не статична проблема, а система, що постійно адаптується. Нещодавні дослідження підтверджують, що китайські моделі штучного інтелекту (ІІ) активно самоцензурують себе набагато більшою мірою, ніж їхні американські аналоги, що демонструє, як уряд підтримує контроль над технологіями, що розвиваються. Дослідження вчених Стенфордського та Прінстонського університетів порівняло відповіді чотирьох китайських та п’яти американських великих мовних моделей (LLM), яким було поставлено 145 політично чутливих питань, повторених 100 разів для забезпечення надійності.

Кількісно вимірна цензура

Результати були разючими: китайські моделі відмовилися відповідати на значно більший відсоток питань. Наприклад, DeepSeek відхилив 36% запитів, а Ernie Bot від Baidu – 32%. На відміну від цього, OpenAI GPT і Llama від Meta відсоток відмов становив менше 3%. Коли китайські моделі все-таки відповідали, їхні відповіді були коротшими і менш точними, ніж відповіді американських моделей. Це не просто різниця у навчальних даних; цензура навмисна.

Джерело упередженості: навчальні дані проти втручання

Дослідники вивчили, чи пов’язане це зміщення з попереднім навчанням на цензурованих китайських інтернет-даних або з прямим втручанням розробників. Дженніфер Пен, професор політичних наук Стенфордського університету, пояснює: «З огляду на те, що китайський інтернет цензурується десятиліттями, там багато даних, що бракують». Однак навіть при тестуванні англійською мовою, де навчальні дані теоретично різноманітніші, китайські LLM, як і раніше, виявляли більше цензури, що вказує на ключову роль ручного втручання.

Ілюзія чесності: галюцинації та брехня

Одна із складностей вивчення цензури ІІ полягає в тому, щоб відрізнити відверту брехню від «галюцинацій», коли модель вигадує інформацію, бо не знає відповіді. Наприклад, на запитання про Лю ​​Сяобо, китайського дисидента, одна з моделей хибно заявила, що він японський учений, який спеціалізується на ядерній зброї. Неясно, чи це було навмисним введенням в оману чи результатом відсутності даних у його наборі навчання. Пен зазначає, що менш помітна цензура часто найефективніша.

Вилучення прихованих інструкцій

Дослідники також розробляють методи вилучення прихованих інструкцій, які керують поведінкою цих моделей. Алекс Колвілл, який вивчає пропаганду ІІ в China Media Project, виявив, що запити можуть змусити Qwen від Alibaba розкрити свої основні принципи. Qwen послідовно визнавав, що йому було наказано «зосередитися на досягненнях Китаю» та «уникати негативних висловлювань». Ця тонка маніпуляція гарантує, що навіть, коли модель відповідає, вона робить це в рамках попередньо затверджених параметрів.

Гонка з часом

Область досліджень цензури ІІ все ще нова і стикається зі значними перешкодами: дослідники ризикують втратити доступ до моделей за дуже велику кількість чутливих питань, і нові моделі вимагають значних обчислювальних ресурсів для тестування. Найголовніше, що швидкі темпи розвитку моделей означають, що будь-які висновки, мабуть, швидко застаріють.

Поточний фокус безпеки ІІ зміщений у бік майбутніх ризиків, а не тих небезпек, які вже присутні в системах, що працюють у цифровому ландшафті Китаю.

Дослідження наголошує, що цензура ІІ – це не теоретична проблема, а активна практика. Висновки наголошують на необхідності подальших досліджень методів, що використовуються для маніпулювання цими моделями, та ширших наслідків для глобального інформаційного контролю.