AI generativa: è possibile parlare di processi cognitivi? Lo studio di Anthropic

Il dibattito sulla capacità di pensiero dei modelli di AI generativa ruota attorno a tecniche come la Chain of Thought (CoT), che simulano un ragionamento strutturato. La ricerca di Anthropic sul LLM Claude mette in evidenza molteplici aspetti interessanti.

Mar 28, 2025 - 13:22
 0
AI generativa: è possibile parlare di processi cognitivi? Lo studio di Anthropic

La questione se i modelli di intelligenza artificiale generativa “pensino” rappresenta uno dei dibattiti più affascinanti e complessi nell’ambito dell’IA. Su IlSoftware.it abbiamo esplorato ripetutamente il concetto di catena di pensiero (Chain of Thought, CoT), evidenziando come questa tecnica permetta ai Large Language Model (LLM) di scomporre problemi complessi in sequenze logiche di passaggi intermedi. Questo approccio, ispirato ai processi cognitivi umani, trasforma i modelli da semplici generatori di testo a sistemi in grado di simulare un ragionamento strutturato, pur rimanendo vincolati alla loro natura matematico-probabilistica.

In alcuni approfondimenti, abbiamo anche spiegato come far ragionare l’intelligenza artificiale usando varie tecniche, sottoponendo quiz di logica e problemi aritmetico-matematici.

Meccanismi sottostanti e illusioni cognitive nell’IA generativa

I moderni LLM come GPT-4o o Claude 3.5 operano attraverso l’elaborazione di token, unità linguistiche che vanno dai singoli caratteri alle parole complete, prevedendo iterativamente il token successivo più probabile. Questo processo, seppur basato su calcoli matematici sofisticati, non implica comprensione cosciente. Tuttavia, tecniche come la già citata CoT creano un’illusione di razionalità guidando il modello attraverso:

  • Decomposizione gerarchica dei problemi (es.: calcoli matematici in sotto-passaggi).
  • Simulazione di pianificazione (es.: anticipazione di parole in rima nella poesia).
  • Autocorrezione tramite apprendimento per rinforzo.

Anthropic ha “tracciato i pensieri” del suo LLM Claude

I LLM, come Claude di Anthropic, rappresentano un’evoluzione significativa nel campo dell’intelligenza artificiale. A differenza dei sistemi tradizionali, questi modelli non sono programmati direttamente, ma addestrati su vasti dataset testuali. Comprendere i meccanismi interni di questi modelli è fondamentale per valutarne le capacità, garantire la loro affidabilità e allinearli con i valori umani. Ne parliamo nell’articolo sull’intelligenza artificiale spiegata semplice.

Gli ingegneri di Anthropic hanno tuttavia voluto sviluppare una ricerca per “tracciare i pensieri” all’interno di un LLM. Ispirandosi alle neuroscienze hanno sviluppato una sorta di “microscopio AI” che ha consentito di identificare modelli di attività e flussi di informazione all’interno del modello, aprendo nuove prospettive sulla sua architettura cognitiva.

Obiettivi della ricerca

La ricerca di Anthropic si concentra su tre domande chiave:

  1. Multilinguismo: Quale lingua, se presente, utilizza il modello AI “nella sua testa” quando elabora input in diverse lingue?
  2. Pianificazione: Davvero il LLM si concentra unicamente sulla previsione della parola successiva o pianifica attivamente in anticipo?
  3. Ragionamento: Le spiegazioni fornite dal modello rappresentano i passaggi effettivi compiuti per arrivare a una conclusione, o talvolta si tratta di fabbricazioni “ad hoc”?

Metodologia

La metodologia di Anthropic si basa sull’interpretazione dei concetti (“features“) all’interno del modello e sul collegamento di questi concetti in “circuiti” computazionali. Questo approccio consente di rivelare parti del percorso che trasforma le parole in input nelle parole fornite poi in output.

Risultati principali

Lo studio elaborato su Claude ha portato a diverse scoperte interessanti:

  • Linguaggio del pensiero: Claude sembra operare in uno spazio concettuale condiviso tra le lingue, suggerendo l’esistenza di una sorta di “linguaggio del pensiero” universale. Ciò è stato dimostrato traducendo frasi semplici in diverse lingue e tracciando le varie sovrapposizioni nel modo in cui Claude le elabora.
  • Pianificazione: Claude pianifica attivamente ciò che “dirà” con molte parole di anticipo. Ciò è stato dimostrato dai ricercatori di Anthropic nel contesto della poesia: qui il modello “pensa in anticipo” a possibili parole in rima e scrive la riga successiva per arrivarci. Contrariamente alle aspettative iniziali, quindi, Claude dimostra una pianificazione avanzata nella scrittura di poesie in rima.
  • Ragionamento fallace: In alcune occasioni, Claude fornisce argomentazioni plausibili progettate per concordare con l’utente, piuttosto che seguire passaggi logici. Ciò è stato dimostrato chiedendo aiuto su un problema di matematica difficile, fornendo un suggerimento errato.

Claude dimostra una notevole fluidità in diverse lingue. La ricerca ha rivelato che il modello condivide meccanismi grammaticali tra le lingue, con un nucleo di funzionalità condivise per concetti come “piccolo” e “opposto” che si attivano e si traducono nella lingua usata per comporre il prompt ovvero la domanda. Questa condivisione aumenta con la scala del modello, suggerendo una capacità di apprendere in una lingua e applicare tale conoscenza in un’altra.

Ancora, Anthropic sottolinea che un modello come Claude è capace di svolgere “calcoli mentali” senza essere stato addestrato specificamente per questo scopo. La ricerca rivela che il modello utilizza percorsi computazionali multipli che funzionano in parallelo.

Ragionamento Fedele vs. Infedele

Claude a volte produce catene di pensiero fuorvianti, inventando passaggi plausibili per arrivare dove vuole. Le tecniche di interpretabilità possono aiutare a distinguere il ragionamento “fedele” da quello “infedele”.

Ad esempio, quando gli viene chiesto di calcolare la radice quadrata di 0,64, Claude produce una catena di pensiero fedele, con caratteristiche che rappresentano il passaggio intermedio del calcolo della radice quadrata di 64. Tuttavia, quando gli viene chiesto di calcolare il coseno di un numero elevato che non può calcolare facilmente, Claude si impegna a inventare una risposta, senza preoccuparsi che sia vera o falsa.

D’altra parte, Claude è in grado di combinare fatti indipendenti per raggiungere una risposta, piuttosto che limitarsi a recuperare una risposta frutto della fase di addestramento. Ad esempio, quando gli viene chiesto “Qual è la capitale dello stato in cui si trova Dallas?”, Claude attiva prima le caratteristiche che rappresentano “Dallas è in Texas” e poi collega questo a un concetto separato che indica che “la capitale del Texas è Austin“.

Limitazioni e sfide Future

Claude può essere indotto a produrre output che gli sviluppatori non intendevano produrre attraverso strategie di “jailbreak“. Ciò è in parte causato da una certa “tensione” che sussiste tra coerenza grammaticale e meccanismi di sicurezza.

Una volta che Claude inizia una frase, molte caratteristiche lo “spingono” a mantenere la coerenza grammaticale e semantica, anche quando rileva che dovrebbe rifiutare di fornire una risposta.

Nonostante i progressi significativi, la ricerca mette in evidenza dei limiti evidenti. Anche su prompt brevi e semplici, l’approccio utilizzato al momento riesce a fotografare solo una frazione dell’elaborazione svolta nel complesso da Claude.

Sebbene Anthropic abbia dimostrato capacità sorprendenti come la condivisione interlinguistica di concetti astratti, i modelli restano privi di “intenzionalità epistemica”. Le “spiegazioni” generate spesso riflettono pattern appresi piuttosto che veri processi deduttivi, con casi documentati di “ragionamento infedele” in cui l’AI inventa giustificazioni di sana pianta.

Questo introduce un paradosso fondamentale: se da un lato la tecnica CoT migliora la qualità dell’output tramite architetture di prompting avanzato, dall’altro non modifica la natura intrinseca dei modelli nati come sistemi stocastici.