wtorek, 14 maja, 2024

Deep Data

Machine Learning dla Twoich danych

News

Ewolucja ChatGPT: Znaczące zmiany w zachowaniu modeli z upływem czasu

Poniższy tekst jest tłumaczeniem mojego artykułu w języku angielskim.

Praca naukowa autorstwa badaczy z Uniwersytetu Stanforda i UC Berkeley ujawnia, że zachowanie popularnych dużych modeli językowych (LLM), takich jak GPT-3.5 i GPT-4, może ulec znaczącej zmianie w zaledwie kilka miesięcy.

Badacze ocenili wersje GPT-3.5 i GPT-4 z marca 2023 i czerwca 2023 roku pod względem rozwiązywania problemów matematycznych, udzielania odpowiedzi na wrażliwe pytania, generowania kodu i rozumowania wizualnego. Zauważyli poważne zmiany w wydajności i zachowaniu między tymi dwiema wersjami.

Na przykład dokładność GPT-4 w określaniu, czy liczba jest liczbą pierwszą, spadła gwałtownie z 97,6% do zaledwie 2,4% między marcem a czerwcem. Badacze przypuszczają, że jest to spowodowane problemami z podejściem „łańcucha myśli” (ang. chain of thought), które przestało poprawnie działać w wersji z czerwca.

GPT-4 stał się również mniej skłonny do udzielania bezpośrednich odpowiedzi na potencjalnie niebezpieczne pytania w czerwcu w porównaniu do marca. Chociaż oznacza to poprawę pod względem bezpieczeństwa, model udzielał również mniej wyjaśnień, gdy odmawiał udziału.

Jednym z zadań, które badacze oceniali, było generowanie kodu – nakłanianie modeli do generowania kodu Pythona w celu rozwiązywania problemów programistycznych. Stwierdzili, że odsetek wygenerowanego kodu przez GPT-4, który można bezpośrednio wykonać, spadł znacząco z 52% w marcu do zaledwie 10% w czerwcu. GPT-3.5 również wykazywał podobny duży spadek w bezpośrednio wykonywalnym kodzie między dwiema wersjami.

Po bliższym przyjrzeniu się badacze stwierdzili, że kluczowym czynnikiem wpływającym na to zmniejszenie wykonywalności było tendencja obu modeli do dodawania zbędnych ciągów nieliterałów w wersjach z czerwca, co uniemożliwiało pomyślne wykonanie kodu. Na przykład wersja z czerwca GPT-4 konsekwentnie dodawała potrójne cudzysłowy przed i po fragmentach kodu, podczas gdy wersja z marca tego nie robiła. Choć mała zmiana, te dodatkowe cudzysłowy powodowały błędy składni podczas próby uruchomienia kodu. To pokazuje, jak nawet drobne zmiany formatowania przez LLM-a z czasem mogą zakłócić wykonywanie kodu i przepływy testowania, które polegają na wygenerowanym kodzie. Nieprzejrzyste zmiany w zachowaniu modelu podkreślają potrzebę ciągłego testowania regresyjnego i monitorowania.

Możliwości rozumowania wizualnego obu modeli minimalnie się poprawiły od marca do czerwca. Jednak nawet w tym zadaniu GPT-4 zaskakująco poprawnie odpowiedział na niektóre próbki w marcu, ale nieprawidłowo w czerwcu.

Podsumowując, istotne zmiany odkryte na wielu prostych testach podkreślają brak przejrzystości dotyczącej czasu i sposobu aktualizacji modeli takich jak GPT-3.5 i GPT-4. To również uwydatnia potrzebę ciągłego monitorowania i oceny, ponieważ nie można zagwarantować jednolitej poprawy ich zachowania z biegiem czasu.

Konsekwencje mają duże znaczenie zarówno dla indywidualnych użytkowników, jak i firm polegających na LLM. Nieoczekiwane zmiany w dokładności, treści, formatowaniu i innych aspektach mogą zakłócić przepływ pracy. Badacze zalecają wprowadzenie ciągłych testów dostosowanych do własnych zastosowań.

W miarę szybkiego rozwoju LLMów, konieczne jest przeprowadzanie dalszych badań w celu śledzenia ich postępu w czasie, identyfikacji potencjalnych pułapek i wyjaśnienia najlepszych praktyk dla stabilnej integracji. W związku z tym, że LLM-y bywają stosowane we wrażliwych dziedzinach, takich jak medycyna i prawo, utrzymanie rygorystycznego nadzoru jest kluczowe.

Mariusz Wołoszyn

Ponad 20 lat pracy zawodowej w dziedzinie IT. Od bezpieczeństwa poprzez zarządzanie IT po architekturę rozwiązań cloud oraz budowę systemów Machine Learning. Od kilku lat głęboko zainteresowany Deep Learning :) Wcześniej Reinforcement Learning i sieciami neuronowymi oraz programowaniem genetycznym.

Dodaj komentarz