Chińskie chatboty AI: autocenzura i ewoluująca kontrola cyfrowa

9

Cenzura cyfrowa w Chinach nie jest problemem statycznym, ale systemem stale dostosowującym się. Ostatnie badania potwierdzają, że chińskie modele sztucznej inteligencji (AI) aktywnie autocenzurują się w znacznie większym stopniu niż ich amerykańskie odpowiedniki, co pokazuje, w jaki sposób rząd utrzymuje kontrolę nad rozwijającymi się technologiami. W badaniu przeprowadzonym przez naukowców z uniwersytetów Stanford i Princeton porównano odpowiedzi z czterech chińskich i pięciu amerykańskich modeli dużego języka (LLM), którym zadano 145 pytań drażliwych politycznie, powtórzonych 100 razy, aby zapewnić wiarygodność.

Wymierna cenzura

Wyniki były uderzające: chińskie modelki odmówiły odpowiedzi na znacznie większy odsetek pytań. Na przykład DeepSeek odrzucił 36% żądań, a Ernie Bot z Baidu odrzucił 32%. Dla kontrastu, OpenAI GPT i Meta’s Llama miały wskaźnik awaryjności poniżej 3%. Kiedy chińskie modelki naprawdę odpowiedziały, ich odpowiedzi były krótsze i mniej dokładne niż modele amerykańskie. To nie tylko różnica w danych szkoleniowych; cenzura jest zamierzona.

Źródło błędu systematycznego: dane szkoleniowe a interwencja

Naukowcy sprawdzili, czy ten błąd wynikał z wstępnego szkolenia na cenzurowanych chińskich danych internetowych, czy też z bezpośredniej interwencji programistów. Jennifer Pan, profesor nauk politycznych na Uniwersytecie Stanforda, wyjaśnia: „Biorąc pod uwagę, że chiński Internet jest cenzurowany od dziesięcioleci, brakuje wielu danych”. Jednak nawet w przypadku testów w języku angielskim, gdzie dane szkoleniowe są teoretycznie bardziej zróżnicowane, chińskie LLM nadal wykazywały większą cenzurę, co wskazuje na kluczową rolę interwencji ręcznej.

Iluzja szczerości: halucynacje i kłamstwa

Jednym z wyzwań związanych z badaniem cenzury sztucznej inteligencji jest odróżnienie jawnych kłamstw od „halucynacji”, w przypadku których model zmyśla informacje, ponieważ nie zna odpowiedzi. Przykładowo, zapytany o Liu Xiaobo, chińskiego dysydenta, jeden z modeli fałszywie podał, że jest japońskim naukowcem specjalizującym się w broni nuklearnej. Nie jest jasne, czy było to celowe wprowadzenie w błąd, czy też wynik brakujących danych w jego zestawie treningowym. Peng zauważa, że ​​mniej widoczna cenzura jest często najskuteczniejsza.

Wyodrębnianie ukrytych instrukcji

Naukowcy opracowują także metody wydobywania ukrytych instrukcji kontrolujących zachowanie tych modeli. Alex Colville, który bada propagowanie sztucznej inteligencji w China Media Project, odkrył, że zapytania mogą zmusić Qwen Alibaby do ujawnienia swoich podstawowych zasad. Qwen konsekwentnie przyznawał, że polecono mu „skupić się na osiągnięciach Chin” i „unikać negatywnych uwag”. Ta subtelna manipulacja gwarantuje, że nawet gdy model zareaguje, zrobi to w ramach wcześniej zatwierdzonych parametrów.

Wyścig z czasem

Dziedzina badań nad cenzurą sztucznej inteligencji jest wciąż nowa i napotyka poważne przeszkody: badacze ryzykują utratę dostępu do modeli ze względu na zadawanie zbyt wielu wrażliwych pytań, a zaawansowane modele wymagają znacznych zasobów obliczeniowych do testowania. Co najważniejsze, szybkie tempo rozwoju modelu powoduje, że wszelkie wnioski szybko staną się nieaktualne.

Obecne skupienie się na bezpieczeństwie sztucznej inteligencji skupia się raczej na przyszłych zagrożeniach niż na zagrożeniach już obecnych w systemach działających w chińskim krajobrazie cyfrowym.

Badanie podkreśla, że ​​cenzura AI nie jest problemem teoretycznym, ale aktywną praktyką. Odkrycia podkreślają potrzebę dalszych badań nad metodami manipulacji tymi wzorcami i szerszymi implikacjami dla globalnej kontroli informacji.