Błędna interpretacja rzekomego spadku możliwości GPT-4
Poniższy tekst jest tłumaczeniem mojego artykułu w języku angielskim.
Niedawna publikacja analizująca różne wersje GPT-3.5 i GPT-4 (pisałem o niej tutaj) wywołał burzliwą dyskusję na temat tego, czy zdolności modeli GPT od OpenAI uległy degradacji w miarę upływu czasu. Jednak jak wykazują eksperci ds. sztucznej inteligencji Arvind Narayanan i Sayash Kapoor, badania te zostały dość niefrasobliwie przeprowadzone.
Kluczowe wydaje się rozróżnienie pomiędzy zdolnościami modelu a jego zachowaniem. Zdolności modelu odnoszą się do tego, co potrafi zrobić, nabywane są one w trakcie kosztownego etapu przed-treningowego (ang. pre-training). Jego zachowanie zaś odnosi się do tego, co faktycznie robi model w odpowiedzi na polecenia. Zachowanie kształtowane jest podczas strojenia (ang. fine-tuning). Istotne jest, że fine-tuning jest znacznie tańszy od przed-treningu. To ostatnie modyfikuje zachowanie modelu bez zmiany jego podstawowych zdolności.
Mając to na uwadze, wyniki pierwotnej publikacji nie stanowią dowodu na spadające zdolności, ale raczej zmieniające się zachowanie modelu. Autorzy przetestowali GPT-3.5 i GPT-4 z marca i czerwca w matematyce, na wrażliwych pytaniach, generowaniu kodu i rozumieniu wizualnym. Wykazano obniżoną wydajność w matematyce i generowaniu kodu.
Jednak po dokładniejszym zbadaniu, test matematyczny miał poważny błąd: testowano tylko liczby pierwsze, a nie liczby złożone. W rzeczywistości wszystkie modele wykazywały równie niską wydajność, po prostu zgadując „pierwsza” lub „złożona” na podstawie fine-tuningu. W efekcie model, który zazwyczaj odpowiadał „liczba pierwsza” wydawał się inteligentniejszy. Metryka odnosząca się do generowania kodu skupiała się na tym, czy kod był bezpośrednio wykonywalny, a nie na jego poprawności.
Kiedy Narayanan i Kapoor przetestowali modele na liczbach złożonych, nie stwierdzili istotnych różnic w wydajności. Wygląd spadku wynikał całkowicie z ograniczonej metodologii artykułu.
Podobnie prezentowała się sytuacja w przypadku wykonywania kodu. Model używał znaków ```python
do oznaczenia wytworzonego kodu, jest to powszechnie akceptowany sposób, jednak autorzy publikacji nie uwzględnili tego faktu i próbowali uruchomić kod z tymi znacznikami, co skutkowało błędem. Po zaadresowaniu tego problemu odsetek uruchamianych programów wzrósł a nie spadł i to w przypadku obu modeli GPT.
Niektórzy spekulują, że GPT-4 został celowo zdegradowany w celu obniżenia kosztów. Jednak nie ma na to żadnych dowodów. Wyniki są w pełni zgodne z rutynową odmiennością zachowania wynikającą z trwającego fine-tuningu.
Mimo to praca stanowi ważne przypomnienie, że fine-tuning może znacznie wpływać na zachowanie modeli w niektórych zadaniach. To stanowi wyzwanie dla twórców, którzy mają na celu budowanie niezawodnych produktów za pomocą interfejsów API takich jak GPT-3.5 i GPT-4. Wydaje się, że drobne modyfikacje mogą cicho zakłócić przepływ pracy zoptymalizowany pod kątem konkretnych zastosowań.
Podsumowując, chociaż oryginalna praca jest interesująca, nie dowodzi ona jednoznacznie spadku zdolności GPT-3 i GPT-4, ale podkreśla trudności z ilościowym ocenianiem dużych modeli językowych oraz niepewną naturę budowania na niestabilnych podstawach. Musimy zachować rygorystyczny sceptycyzm w ocenie twierdzeń dotyczących postępu lub pogorszenia się sztucznej inteligencji w miarę upływu czasu.