Test matematici USAMO 2025: tutti i modelli AI deludono le aspettative

I modelli di intelligenza artificiale faticano nei test USAMO 2025, evidenziando lacune nel ragionamento matematico complesso. Scopri di più.

Apr 26, 2025 - 09:16
 0
Test matematici USAMO 2025: tutti i modelli AI deludono le aspettative

Le olimpiadi matematiche relative a USAMO 2025, a quanto pare, rappresentano una sfida insormontabile anche per i più sofisticati modelli di intelligenza artificiale.

Nonostante i progressi nel campo, nessuno dei sistemi testati è riuscito a raggiungere un punteggio pieno nei sei problemi proposti durante l’edizione di quest’anno. Le scarse performance sottolineano i limiti attuali delle IA nel ragionamento matematico.

L’United States of America Mathematical Olympiad è considerata una delle prove più impegnative a livello internazionale in questo ambito, soprattutto per la necessità di costruire dimostrazioni matematiche rigorose. A differenza di altre competizioni, come l’AIME, che richiedono risposte numeriche precise, l’USAMO valuta i partecipanti sulla base della correttezza, esaustività e chiarezza delle loro dimostrazioni. Questo approccio rappresenta un banco di prova ideale per misurare le capacità di ragionamento delle AI.

USAMO 2025: l’AI in affanno quando deve affrontare la matematica

Tra i modelli analizzati, il Gemini 2.5 Pro ha ottenuto il punteggio più alto, con una media di 10,1 punti su 42, equivalente al 24% del totale. Tuttavia, gli altri sistemi, tra cui DeepSeek R1, Claude 3.7 Sonnet di Anthropic e OpenAI o3-mini, hanno registrato risultati significativamente inferiori, con punteggi medi compresi tra 0,9 e 2 punti. Questi dati evidenziano il divario tra le capacità umane e quelle delle AI in questo contesto specifico.

Gli esperti hanno identificato alcune criticità comuni nei modelli testati: giustificazioni incomplete, assunzioni non dimostrate e insistenza su approcci errati nonostante l’evidenza di contraddizioni. Questi aspetti sottolineano come il ragionamento matematico richieda non solo precisione computazionale, ma anche una comprensione profonda e contestualizzata delle problematiche.

Nonostante queste limitazioni, ci sono segnali positivi. I nuovi modelli di OpenAI, come o4-mini, hanno mostrato miglioramenti, raggiungendo un punteggio complessivo del 19,05% in valutazioni successive. Tuttavia, tali progressi potrebbero essere attribuiti all’inclusione delle soluzioni nei dataset di addestramento, sollevando dubbi sulla reale capacità di generalizzazione di questi sistemi.

Mentre le AI continuano a progredire in aree come l’elaborazione del linguaggio naturale e il riconoscimento delle immagini, il ragionamento matematico avanzato rimane una frontiera ancora lontana dall’essere conquistata. La sfida di colmare il divario con le capacità umane stimola ulteriori ricerche e sviluppi nel settore.