Nowe badania podnoszą niezawodność watermarkingu AI

4 sierpnia, 2023 Mariusz Wołoszyn

Naukowcy z Uniwersytetu Rennes, firmy Imatag oraz Meta AI opublikowali nowatorskie badania na temat wbudowywania znaków (watermarks) wodnych w duże modele językowe (LLM). Znaki wodne pozwalają na oznaczenie tekstów wygenerowanych przez konkretny model niezauważalnym sygnałem, umożliwiając późniejszą detekcję autorstwa.

Publikacja wprowadza trzy główne usprawnienia w stosunku do wcześniejszych prac:

Nowe testy statystyczne z silnymi gwarancjami teoretycznymi dotyczącymi współczynników fałszywie dodatnich. Poprzednie techniki znakowania wodnego nie były wiarygodne przy niskich współczynnikach fałszywie dodatnich, co jest ważne, aby uniknąć fałszywych oskarżeń.
Porównuje dwie główne techniki znakowania wodnego na standardowych testach NLP. Wyniki pokazują, że znakowanie wodne powoduje niewielki spadek wydajności rzędu 1-3% w różnych zadaniach. Sugeruje to, że techniki mogą być praktyczne do rzeczywistych zastosowań bez znacznego uszczerbku dla możliwości modelu.
Opracowuje bardziej zaawansowane schematy wykrywania, gdy LLM jest dostępny podczas wykrywania oraz do ukrywania wielu bitów w znaku wodnym. Umożliwia to zidentyfikowanie nie tylko tego, że tekst został wygenerowany przez LLM, ale również która wersja modelu go stworzyła.

Eksperymenty pokazały, że nowe testy statystyczne zapewniają prawie idealną kontrolę współczynnika fałszywie pozytywnych detekcji. Porównanie różnych technik wykazało, że wbudowane znaki wodne mają niewielki wpływ na możliwości modeli w typowych zadaniach. Rozwinięte schematy detekcji pozwalają natomiast na identyfikację konkretnej wersji oznakowanego modelu.

Publikacja pokazuje, że wbudowywanie znaków wodnych w modele językowe jest obiecującą techniką monitorowania i śledzenia ich wyjść. Może mieć zastosowanie w kontrolowaniu sposobu użycia tych modeli i zapobieganiu nadużyciom. Stanowi istotny postęp w tej dziedzinie dzięki solidnym podstawom teoretycznym i empirycznym.

Deep Data

Nowe badania podnoszą niezawodność watermarkingu AI

Mariusz Wołoszyn

Dodaj komentarz Anuluj pisanie odpowiedzi