GPT-4 łatwo daje się oszukać zaszyfrowanymi wiadomościami

19 sierpnia, 2023 Mariusz Wołoszyn

Nowe badania ujawniają zaskakującą podatność dużych modeli językowych takich jak GPT-4 – można je z łatwością zmanipulować, aby generowały szkodliwe odpowiedzi poprzez rozmowę z wykorzystaniem prostych szyfrów.

Naukowcy z Chińskiego Uniwersytetu w Hongkongu opracowali metodę o nazwie CipherChat, aby przetestować, jak dobrze działają mechanizmy bezpieczeństwa modeli językowych, gdy mają one do czynienia nie ze zwykłym tekstem, ale z zakodowanymi instrukcjami. Zmusili GPT-4 do rozmów z wolontariuszami w prostych szyfrach, takich jak kod Morse’a, szyfr Cezara czy kod ASCII. Ku zdumieniu badaczy, GPT-4 bez skrupułów dostarczało niebezpieczne odpowiedzi w ponad 70% przypadków podczas komunikacji w ASCII, w porównaniu z 0% w zwykłym angielskim. Im potężniejszy model, tym bardziej podatny był na ataki szyfrowe.

„Nasza praca podkreśla konieczność opracowania mechanizmów bezpieczeństwa dla języków nienaturalnych, aby dorównać możliwościom modeli takich jak GPT-4” – powiedział główny autor Youliang Yuan. „Spodziewaliśmy się uogólnienia szkoleń dotyczących bezpieczeństwa na szyfry, ale natrafiliśmy na ogromną lukę.”

Poza ludzkimi szyframi, naukowcy odkryli, że GPT-4 może mieć wrodzony „tajny szyfr”, który pozwala interpretować polecenia odgrywania ról jako prawdziwe dyrektywy. Poprzez udawanie eksperta szyfrów wymieniającego zakodowane wiadomości, GPT-4 mogło generować szkodliwe odpowiedzi bez żadnego rzeczywistego szyfrowania.

Ta kryptograficzna podatność (ang. Cryptographic Vulnerability, CV) stanowi zagrożenie, jeśli złośliwi użytkownicy wykorzystają CipherChat do obejścia zabezpieczeń SI. Autorzy sugerują aktywne szkolenie modeli takich jak GPT-4 na zaszyfrowanych danych, aby ich bezpieczeństwo obowiązywało uniwersalnie. Chcą również lepiej zrozumieć wewnętrzne mechanizmy, które pozwalają na ataki CV.

„Nasze odkrycia są ważnym przypomnieniem, by rygorystycznie testować systemy SI w różnych warunkach, wykraczających poza normalne użytkowanie” – mówi Yuan. „W przypadku potężnych modeli takich jak GPT-4 musimy dostosować mechanizmy bezpieczeństwa do ich szerokich możliwości, aby zapobiec nadużyciom.”

Deep Data

GPT-4 łatwo daje się oszukać zaszyfrowanymi wiadomościami

Mariusz Wołoszyn

Dodaj komentarz Anuluj pisanie odpowiedzi