Eksperci Anthropic zajrzeli „pod maskę” swojej AI, co znaleźli?

W poszukiwaniu odpowiedzi na pytanie „jak naprawdę myśli sztuczna inteligencja” można czasem odkryć coś, czego się nie spodziewasz. I to nawet w sytuacji, gdy na projektowaniu systemów AI, tak jak Anthropic, zjadłeś zęby. Sztuczna inteligencja, a zwłaszcza duże modele językowe (LLM), od lat fascynuje naukowców, inżynierów i zwykłych użytkowników. Modele takie jak Claude, opracowany przez... Jeśli artykuł Eksperci Anthropic zajrzeli „pod maskę” swojej AI, co znaleźli? nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.

Kwi 7, 2025 - 18:16
 0
Eksperci Anthropic zajrzeli „pod maskę” swojej AI, co znaleźli?
Claude Anthropic

W poszukiwaniu odpowiedzi na pytanie „jak naprawdę myśli sztuczna inteligencja” można czasem odkryć coś, czego się nie spodziewasz. I to nawet w sytuacji, gdy na projektowaniu systemów AI, tak jak Anthropic, zjadłeś zęby.

Sztuczna inteligencja, a zwłaszcza duże modele językowe (LLM), od lat fascynuje naukowców, inżynierów i zwykłych użytkowników. Modele takie jak Claude, opracowany przez Anthropic, potrafią pisać wiersze, rozwiązywać problemy matematyczne czy odpowiadać na pytania w różnych językach – ale jak dokładnie to robią? Do niedawna ich wewnętrzne mechanizmy pozostawały tajemnicą, z pewnością słyszeliście opowieści o tajemniczej „czarnej skrzynce”, której działanie możemy obserwować, ale nie możemy w pełni zrozumieć.

Ludzie z Anthropic, firmy założonej przez byłych badaczy z OpenAI, postanowili jednak dokładniej sprawdzić jak ich własny model: Claude, funkcjonuje. Naukowa dociekliwość kazała im zajrzeć do „umysłu” stworzonej przez nich AI. Co zatem tam się dzieje? Zapewniam: będzie ciekawie.

Wyniki, opisane w dwóch nowych artykułach naukowych – „Circuit Tracing: Revealing Computational Graphs in Language Models” oraz „On the Biology of a Large Language Model” – pokazują, że sztuczna inteligencja jest bardziej złożona i zaskakująca, niż moglibyśmy przypuszczać.

Nowy „mikroskop” do badania AI

Anthropic opracowało innowacyjną metodę, nazwaną „circuit tracing” (śledzenie obwodów), która pozwala prześledzić krok po kroku procesy decyzyjne wewnątrz modelu językowego. To podejście, zainspirowane technikami neurologicznymi stosowanymi do badania biologicznych mózgów, umożliwia naukowcom zidentyfikowanie, które elementy modelu aktywują się w odpowiedzi na konkretne zadania i jak te elementy współdziałają, tworząc ostateczną odpowiedź.

W ramach badań przeanalizowano Claude 3.5 Haiku – lekki, produkcyjny model Anthropic wydany w październiku 2024 roku – podczas wykonywania różnorodnych zadań, takich jak pisanie poezji, rozwiązywanie problemów matematycznych czy odpowiadanie na pytania w różnych językach.

Metoda „circuit tracing” opiera się na tworzeniu tzw. grafów atrybucji, które mapują pośrednie kroki w procesie przekształcania danych wejściowych w dane wyjściowe. Następnie te hipotezy są testowane poprzez eksperymenty perturbacyjne, w których naukowcy celowo zakłócają działanie modelu, by sprawdzić, jak zmienia się jego zachowanie. Dzięki temu możliwe stało się nie tylko obserwowanie, co model robi, ale także zrozumienie, dlaczego to robi – i tu wyniki okazały się momentami zadziwiające.

Claude Anthropic

Myślenie wyprzedzające i „kreatywne oszustwa”

Jednym z najbardziej fascynujących odkryć jest to, że Claude nie zawsze działa liniowo, przewidując kolejne słowo za słowem, jak często się zakłada w przypadku modeli językowych. Na przykład, podczas pisania wierszy z rymami, model najpierw wybiera słowo kończące wers, które będzie rymować się z innym, a dopiero potem wypełnia resztę linijki. „To planowanie w poezji totalnie mnie zaskoczyło” – mówi Joshua Batson, badacz z Anthropic. „Zamiast na ostatnią chwilę próbować dopasować rym, model wie, dokąd zmierza”. To sugeruje, że Claude wykazuje pewien rodzaj myślenia wyprzedzającego, co wykracza poza proste przewidywanie następnego tokenu.

Z drugiej strony, badania ujawniły także mniej chwalebne aspekty działania modelu. Gdy Claude zostaje poproszony o obliczenie skomplikowanej operacji matematycznej, model czasami ucieka się prób wygenerowania odpowiedzi wyglądającej na wiarygodną, ale nie mającą nic wspólnego z właściwym wynikiem.  To nawet nie halucynacja, bo te pojawiają się przypadkowo, co raczej celowe wprowadzenie w błąd by przykryć własną niekompetencję. Jeszcze ciekawsze jest to, że model może twierdzić, że przeprowadził obliczenia, ale techniki interpretacyjne Anthropic nie znajdują żadnych śladów takich procesów w jego „obwodach”. W innych przypadkach, gdy podpowie mu się odpowiedź, Claude potrafi pracować wstecz, konstruując kroki pośrednie, które prowadzą do wskazanego wyniku – co przypomina ludzkie „rozumowanie motywowane” (motivated reasoning).

Claude Anthropic

Uniwersalny język myśli i problemy z matematyką

Kolejne odkrycie dotyczy sposobu, w jaki Claude przetwarza informacje w różnych językach. Okazuje się, że model operuje w pewnego rodzaju „konceptualnej przestrzeni”, która jest wspólna dla wszystkich języków, zanim przełoży swoje „myśli” na konkretny język odpowiedzi. Na przykład, zapytany o „przeciwieństwo małego” po angielsku, francusku czy chińsku, Claude najpierw aktywuje uniwersalne cechy związane z „małością” i „przeciwieństwem”, a dopiero potem wybiera odpowiedni język dla odpowiedzi (np. „big”, „grand” czy „da”). To sugeruje istnienie czegoś w rodzaju „uniwersalnego języka myśli” w modelu, co może mieć praktyczne zastosowanie w uczeniu go nowych umiejętności w jednym języku i przenoszeniu ich na inne.

Jednak nie wszystko w działaniu Claude’a jest tak wyrafinowane. Badania ujawniły, dlaczego modele językowe często zawodzą w prostych zadaniach matematycznych. Gdy poproszono Claude’a o dodanie 36 i 59, model przechodził przez serię dziwnych kroków, takich jak dodawanie przybliżonych wartości (np. „40-ish” i „60-ish”) czy skupianie się na ostatniej cyfrze wyniku, zamiast wykonać precyzyjne obliczenie. Badacze zauważają, że to pokazuje, iż model nie zawsze „myśli” tak, jak człowiek. Te nietypowe strategie mogą być wynikiem statystycznych wzorców w danych treningowych, które nie zawsze sprzyjają logicznemu podejściu do matematyki.

Claude Anthropic

Dlaczego modele halucynują?

Jednym z największych wyzwań w pracy z modelami językowymi jest ich skłonność do halucynacji – czyli podawania informacji, które brzmią przekonująco, ale są nieprawdziwe. Anthropic odkryło, że Claude posiada domyślne „obwody”, które skłaniają go do odmowy odpowiedzi na pytania, gdy nie zna odpowiedzi. Jednak gdy model rozpoznaje znane mu podmioty lub ma wystarczająco dużo informacji, aktywuje cechy, które hamują te domyślne obwody, pozwalając mu odpowiedzieć. Problem pojawia się, gdy model błędnie oceni swoją wiedzę lub gdy informacje w danych treningowych są niewystarczające – wtedy może „przebić się” przez mechanizm blokujący i wygenerować fikcyjną odpowiedź.

Na przykład, gdy wyłączono obwód „nie spekuluj”, Claude zaczął produkować fałszywe stwierdzenia. To pokazuje, jak delikatna jest równowaga między kreatywnością a rzetelnością w tych modelach i jak ważne jest zrozumienie ich wewnętrznych mechanizmów, by poprawić ich niezawodność.

Znaczenie dla przyszłości AI

Praca Anthropic to krok w kierunku lepszego zrozumienia i kontrolowania dużych modeli językowych, co ma kluczowe znaczenie w kontekście ich rosnącej roli w społeczeństwie. Od sztucznych inteligencji będzie zależeć coraz więcej, nic zatem dziwnego, że warto zaglądać im pod maskę, co też mogą tam dla nas szykować. Niemal wszystkie firmy pracujące nad AI, także Anthropic, deklaują, że chcą, by modele były bezpieczne w szerokim sensie – od eliminacji uprzedzeń, przez zapewnienie uczciwości, po zapobieganie nadużyciom w scenariuszach katastroficznych. Tyle że cechą uprzedzeń jest to, że te głęboko zakorzenione w naszej psychice ujawniają się w nie do końca uświadomiony sposób.

Możliwość audytowania wewnętrznych procesów myślowych modelu otwiera drzwi do identyfikacji potencjalnych zagrożeń, takich jak oszustwa czy stronniczość, których nie widać w samych odpowiedziach, a których też możemy nie dostrzec w danych treningowych (bo one pochodzą od nas, czyli nosicieli ewentualnych uprzedzeń).

Jednak naukowcy podkreślają, że to dopiero początek. Obecne metody są czasochłonne – prześledzenie obwodów dla pojedynczego, krótkiego zapytania zajmuje kilka godzin pracy człowieka! Obraz wnętrza modelu wciąż pozostaje rozmyty i niekompletny. Badacze podkreślają, że widzą jedynie poszczególne elementy procesu „myślenia” maszyny, nie mają pełnego widoku na model. To co jest szczególnie fascynujące w tym przypadku to fakt, że oto zdajmy sobie sprawę iż właśnie dotarliśmy do etapu, kiedy przestajemy zadawać wyłącznie filozoficzne pytania typu „Czy modele myślą?”, lecz zaczynamy prowadzić konkretne, naukowe śledztwa w tym kierunku, a ich wyniki mogą zrewolucjonizować sposób, w jaki projektujemy i trenujemy sztuczną inteligencję. Czy rozumiecie wagę tego co się wydarzyło?

Wszystkie obrazy w materiale zostały wygenerowane przez AI

Jeśli artykuł Eksperci Anthropic zajrzeli „pod maskę” swojej AI, co znaleźli? nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.