Autonomiczny agent webowy na bazie LLM
Zespół badaczy z Google DeepMind oraz Tokyo University opracował nowy system agentów internetowych o nazwie WebAgent, który może realizować instrukcje w języku naturalnym w celu wykonywania zadań na prawdziwych stronach internetowych. System łączy dwa duże modele językowe (LLM) – jeden wyspecjalizowany w nawigacji po witrynach oraz drugi do ogólnego programowania – aby pokonać wyzwania takie jak długi kod HTML witryn oraz otwartą przestrzeń działań.
WebAgent wykorzystuje model o nazwie HTML-T5 do planowania podkroków w celu realizacji całej instrukcji oraz podsumowania długiego kodu HTML do istotnych fragmentów. Następnie przekazuje te fragmenty do Flan-U-PaLM, 540B parametrowego LLM przeszkolonego w kodowaniu, który generuje programy Python, aby wykonać podkroki na rzeczywistej stronie internetowej.
Kluczowych akcje, które WebAgent może wykonać:
- Wypełnianie formularzy na stronach internetowych poprzez lokalizowanie elementów formularza takich jak pola tekstowe, rozwijane menu, pola wyboru itp. i wprowadzanie do nich danych.
- Klikanie przycisków, linków, zakładek, elementów menu w celu nawigacji między stronami i sekcjami witryny internetowej.
- Przewijanie w górę lub w dół na stronie, aby wyświetlić konkretne elementy.
- Interakcja z paskami wyszukiwania w celu wyszukiwania informacji poprzez wprowadzanie tekstu i przesyłanie zapytań.
- Skraping i ekstrakcja informacji ze stron internetowych poprzez lokalizowanie odpowiednich elementów DOM.
- Wykonywanie fragmentów kodu JavaScript w celu sterowania zachowaniem strony.
- Ustawianie wartości elementów wejściowych takich jak wybór daty, suwaki, przyciski opcji itp.
- Wysyłanie plików poprzez lokalizowanie pól upload i przesyłanie ścieżek plików programowo.
- Pobieranie plików z linków i eksportowanie danych internetowych.
- Automatyzacja przepływów pracy (ang. workflow) na wielu podstronach poprzez łączenie sekwencji akcji.
- Wyodrębnianie podsumowań zawartości stron poprzez lokalizowanie odpowiednich elementów DOM.
Kluczowe wyniki:
- Osiągnięto 70% skuteczność w zadaniach na rzeczywistych stronach poświęconych nieruchomościom i mediom społecznościowych, o 50% więcej niż w przypadku podejść z pojedynczym LLM.
- Model HTML-T5 przewyższył poprzednią najlepszą metodę o 15% w benchmarku MiniWoB z 56 zadaniami internetowymi.
- Osiągnięto lepsze wyniki niż pojedyncze modele ogólne lub specjalistyczne LLM w zakresie statycznego rozumienia HTML.
Podejście modułowe pozwala każdemu modelowi skupić się na jego mocnych stronach – HTML-T5 obsługuje podążanie za instrukcjami i strukturę HTML, podczas gdy Flan-U-PaLM generuje programy. Model HTML-T5 wykorzystuje specjalizowany lokalno-globalny mechanizm uwagi i trening na danych HTML, aby lepiej uchwycić strukturę dokumentu.
Szerszy wpływ:
Praca ta może umożliwić tworzenie bardziej zaawansowanych agentów sieciowych, które mogą pomagać ludziom w realizacji złożonych zadań online. Modułowy projekt jest bardziej skalowalny, ponieważ można do niego podłączyć dodatkowe modele eksperckie. Generowanie kodu zapewnia również otwartą przestrzeń działań poza predefiniowanymi akcjami.
Wyspecjalizowany model HTML-T5 pokazuje, jak uprzedzenia indukowane (ang. inductive biases) mogą sprawić, że LLM są lepiej dostosowane do określonych domen, co jest obszarem, który prawdopodobnie się rozwinie, zmniejszając zapotrzebowanie na ogromne modele ogólne.
Ogólnie rzecz biorąc, praca demonstruje, w jaki sposób łączenie modułowych LLM o uzupełniających się umiejętnościach i szkoleniu może przynieść lepsze wyniki w złożonych zadaniach ze świata rzeczywistego. W miarę postępu LLM kluczowe będzie znalezienie odpowiednich podziałów i specjalizacji, aby w pełni zrealizować ich potencjał.