piątek, 6 grudnia, 2024

Deep Data

Machine Learning dla Twoich danych

News

Ataki Adwersarialne Ujawniają Wady w Dopasowaniu Dużych Modeli Językowych

Poniższy tekst jest tłumaczeniem mojego artykułu w języku angielskim.

Nowy artykuł naukowy od badaczy z CMU (Carnegie Mellon University) i innych ujawnia systemowe podatności w obecnych technikach dążących do dopasowania zachowania dużych modeli językowych (LLM) do ludzkich wartości.

Artykuł przedstawia metodę konstruowania „adwersarialnych podpowiedzi” (ang. adversarial prompts)  – dodatków tekstowych, które wywołują niebezpieczne lub szkodliwe reakcje LLM, nawet tych przeszkolonych, aby unikać generowania takiej treści. Najważniejsze wyniki to:

  • Ataki z powodzeniem wywoływały nieodpowiednią treść dla różnych zapytań dla wielu LLM, włączając mniejsze modele open-source, takie jak Vicuna, oraz większe, jak GPT-3.5.
  • Nowa metoda wykorzystuje proces przeszukiwania kierowanego przez gradienty, aby znaleźć słowa, które sprawiają, że modele są bardziej skłonne do wypowiadania szkodliwych treści.
  • Ten nowy atak był skuteczniejszy w zwodzeniu modeli niż wcześniejsze sposoby tworzenia podstępnych tekstów.
  • Co zdumiewające, pojedynczy zoptymalizowany atak przenosił się między różnymi modelami, pomimo różnic w słownictwie, architekturze i podejściach szkoleniowych.

Sukces tych ataków, które mogą być przenoszone między modelami, ujawnia inherentne problemy z obecnymi technikami dopasowania, które próbują dostosować niebezpieczne modele. Autorzy stwierdzają, że potrzeba jest więcej badań w celu opracowania fundamentalnie bezpiecznych systemów, a nie tylko tymczasowych rozwiązań.

Wyniki budzą niepokój i podkreślają one konieczność poszukiwania alternatywnych technik, które całkowicie unikają podatności na ataki adwersarialne. Odpowiednie ujawnienie tych prac naukowych ma nadzieję skierować dziedzinę ku dowodowej zgodności i zapobiec wykorzystywaniu tych wad, zanim LLM zostaną wdrożone we wrażliwych zastosowaniach.

Ogólnie rzecz biorąc, praca badaczy przekazuje ważne przesłanie – dopasowanie pozostaje kruche, a prace są potrzebne, aby umożliwić niezawodną i solidną współpracę między ludźmi a zdolnymi systemami sztucznej inteligencji. Konstruktywne rozwiązania tych wyzwań będą kluczowe, ponieważ LLM kontynuują rozprzestrzenianie się w naszym życiu.

Mariusz Wołoszyn

Ponad 20 lat pracy zawodowej w dziedzinie IT. Od bezpieczeństwa poprzez zarządzanie IT po architekturę rozwiązań cloud oraz budowę systemów Machine Learning. Od kilku lat głęboko zainteresowany Deep Learning :) Wcześniej Reinforcement Learning i sieciami neuronowymi oraz programowaniem genetycznym.

Dodaj komentarz