Ataki Adwersarialne Ujawniają Wady w Dopasowaniu Dużych Modeli Językowych

28 lipca, 2023 Mariusz Wołoszyn

Poniższy tekst jest tłumaczeniem mojego artykułu w języku angielskim.

Nowy artykuł naukowy od badaczy z CMU (Carnegie Mellon University) i innych ujawnia systemowe podatności w obecnych technikach dążących do dopasowania zachowania dużych modeli językowych (LLM) do ludzkich wartości.

Artykuł przedstawia metodę konstruowania „adwersarialnych podpowiedzi” (ang. adversarial prompts) – dodatków tekstowych, które wywołują niebezpieczne lub szkodliwe reakcje LLM, nawet tych przeszkolonych, aby unikać generowania takiej treści. Najważniejsze wyniki to:

Ataki z powodzeniem wywoływały nieodpowiednią treść dla różnych zapytań dla wielu LLM, włączając mniejsze modele open-source, takie jak Vicuna, oraz większe, jak GPT-3.5.
Nowa metoda wykorzystuje proces przeszukiwania kierowanego przez gradienty, aby znaleźć słowa, które sprawiają, że modele są bardziej skłonne do wypowiadania szkodliwych treści.
Ten nowy atak był skuteczniejszy w zwodzeniu modeli niż wcześniejsze sposoby tworzenia podstępnych tekstów.
Co zdumiewające, pojedynczy zoptymalizowany atak przenosił się między różnymi modelami, pomimo różnic w słownictwie, architekturze i podejściach szkoleniowych.

Sukces tych ataków, które mogą być przenoszone między modelami, ujawnia inherentne problemy z obecnymi technikami dopasowania, które próbują dostosować niebezpieczne modele. Autorzy stwierdzają, że potrzeba jest więcej badań w celu opracowania fundamentalnie bezpiecznych systemów, a nie tylko tymczasowych rozwiązań.

Wyniki budzą niepokój i podkreślają one konieczność poszukiwania alternatywnych technik, które całkowicie unikają podatności na ataki adwersarialne. Odpowiednie ujawnienie tych prac naukowych ma nadzieję skierować dziedzinę ku dowodowej zgodności i zapobiec wykorzystywaniu tych wad, zanim LLM zostaną wdrożone we wrażliwych zastosowaniach.

Ogólnie rzecz biorąc, praca badaczy przekazuje ważne przesłanie – dopasowanie pozostaje kruche, a prace są potrzebne, aby umożliwić niezawodną i solidną współpracę między ludźmi a zdolnymi systemami sztucznej inteligencji. Konstruktywne rozwiązania tych wyzwań będą kluczowe, ponieważ LLM kontynuują rozprzestrzenianie się w naszym życiu.

Deep Data

Ataki Adwersarialne Ujawniają Wady w Dopasowaniu Dużych Modeli Językowych

Mariusz Wołoszyn

Dodaj komentarz Anuluj pisanie odpowiedzi