Llama 2: Otwarty model językowy o dużych zdolnościach, który dorównuje prywatnym chatbotom

18 lipca, 2023 Mariusz Wołoszyn

Poniższy tekst jest tłumaczeniem mojego artykułu w języku angielskim.

Nowy, duży model językowy o nazwie Llama 2 został właśnie udostępniony na licencji open source przez badaczy z Meta AI. Posiadający aż 70 miliardów parametrów, zgodnie z wynikami oceny na ponad 4000 testowych promptów, Llama 2 demonstruje zdolności porównywalne z wiodącymi prywatnymi chatbotami, takimi jak ChatGPT.

Trenowanie

Badacze wytrenowali Llama 2 na mieszance publicznie dostępnych danych o łącznej liczbie 2 bilionów tokenów. Zwiększyli długość kontekstu do 4096 tokenów, co jest podwójną wartością w porównaniu do poprzedniej wersji Llama, pozwoliło to modelowi na rozwinięcie silniejszych zdolności rozumowania długoterminowego. Llama 2 wykorzystuje również grupowaną atencję (ang. grouped attention), co poprawia skalowalność wnioskowania dla wariantów o większej liczbie parametrów, tj. 34 miliardów i 70 miliardów. W akademickich benchmarkach modele Llama 2 osiągają lepsze wyniki od innych otwartych baselinów, takich jak GPT-J, jeśli chodzi o takie dziedziny, jak rozumowanie zdroworozsądkowe i zrozumienie czytanego tekstu.

Dostrojenie (fine-tuning)

Badacze dokonali dostrojenia Llama 2, używając kombinacji uczenia nadzorowanego i uczenia ze wzmocnieniem z ludzkim sprzężeniem zwrotnym, aby zoptymalizować model pod kątem generowania odpowiedzi pomocnych i bezpiecznych w rozmowie. Dostosowuje to model do preferencji ludzkich i poprawia wyniki w zadaniach dialogowych w porównaniu z istniejącymi modelami open-source, takimi jak GPT-J i Clara od Anthropic.

Aby stworzyć model konwersacyjny Llama 2-Chat, badacze najpierw zastosowali nadzorowane doskonalenie (ang. supervised fine-tuning, SFT) przy użyciu wysokiej jakości ludzkich demonstracji w zakresie pomocności i bezpieczeństwa. Dzięki temu uzyskano silną inicjalizację przed głównym etapem uczenia ze wzmocnieniem. Podczas uczenia ze wzmocnieniem badacze zbierali iteracyjnie preferencje ludzkie, które porównywali między sobą, aby trenować oddzielne modele oceny „nagrody” dla pomocności i bezpieczeństwa. Te modele oceny „nagrody” następnie kierowały dostrojeniem, aby generowane odpowiedzi były zgodne z preferencjami ludzkimi. Po 5 rundach tego iteracyjnego procesu Llama 2-Chat dorównuje prywatnym chatbotom w ocenach człowieka dotyczących pomocności i bezpieczeństwa.

Ciekawe obserwacje

Podczas treningu Llama 2 odkryto pewne interesujące zdolności, takie jak czasowe organizowanie faktów i spontaniczne korzystanie z narzędzi za pośrednictwem interfejsów konwersacyjnych. Badacze stwierdzili również, że wydajność modelu nadal się poprawia przy większej ilości danych, co sugeruje, że obecne wolumeny adnotacji nie są jeszcze wystarczające. Podkreślają oni znaczenie przejrzystości i współpracy w budowaniu bezpieczniejszych i bardziej zdolnych modeli.

Zdolności i porównania

Rozumowanie i pytania (reasoning & QA): W benchmarkach rozumowania zdroworozsądkowego, takich jak HellaSwag i WinoGrande, Llama 2 przewyższa inne modele, takie jak GPT-J czy Claude od Anthropic. Jeśli chodzi o zbiory danych dotyczące zrozumienia czytanego tekstu, takie jak SQuAD i Natural Questions, Llama 2 jest na równi z GPT-3.5. Jednak nadal istnieje różnica w porównaniu do modeli takich jak PaLM i GPT-4.

Programowanie: Llama 2 pozostaje w tyle na benchmarkach związanych z programowaniem, takich jak HumanEval, uzyskując niższe wyniki niż GPT-3.5 i PaLM w zakresie syntezy programów.

Wiedza: Llama 2 wykazuje silną wiedzę o świecie, przewyższając Claude na zestawie danych dotyczących faktów w pytaniach i odpowiedziach TriviaQA. Jednak wiedza ta wciąż pozostaje daleko w tyle za ogromnymi modelami, takimi jak PaLM-2-XL, które są dostrojone przy użyciu danych z internetu.

Dialogi: Po dostrojeniu pod kątem dialogu, Llama 2-Chat dorównuje prywatnym chatbotom, takim jak ChatGPT, pod względem ocen człowieka dotyczących pomocności. Generuje bezpieczniejsze i bardziej uczciwe odpowiedzi w porównaniu do GPT-3.5 w zakresie benchmarków dotyczących bezpieczeństwa.

Podsumowanie

Udostępnienie Llama 2-Chat na licencji open source może mieć istotne implikacje dla dziedziny sztucznej inteligencji konwersacyjnej, dostarczając zaawansowanego agenta dialogowego, który dorównuje prywatnym modelom, ale zapewnia przejrzystość w zakresie metodyki treningowej. Ta otwartość pozwala społeczności budować na tej pracy i przyczyniać się do odpowiedzialnego rozwoju dużych modeli językowych.

Dzięki dalszemu doskonaleniu Llama 2-Chat może znaleźć powszechne zastosowanie w aplikacjach takich jak chatboty obsługi klienta, osobiste asystentki, systemy korepetytorskie i wiele innych. Jego zdolności w domenach wymagających wiedzy mogą również umożliwić nowe inteligentne funkcje wyszukiwania i rekomendacji.

Deep Data