ChatGPT impara a pensare con le immagini e ad "agire" da solo: arrivano o3 e o4-mini

La corsa tra modelli di intelligenza artificiale si fa sempre più serrata: OpenAI ha appena annunciato i nuovi modelli di...L'articolo ChatGPT impara a pensare con le immagini e ad "agire" da solo: arrivano o3 e o4-mini sembra essere il primo su Smartworld.

Apr 17, 2025 - 12:12
 0
ChatGPT impara a pensare con le immagini e ad "agire" da solo: arrivano o3 e o4-mini

La corsa tra modelli di intelligenza artificiale si fa sempre più serrata: OpenAI ha appena annunciato i nuovi modelli di ragionamento o3 e o4-mini, progettati per riflettere a lungo prima di rispondere.

Due sono le novità di rilievo: una maggiore attitudine all'autonomia operativa (il che li rende particolarmente adatti alle funzioni agentiche) e la capacità di pensare con le immagini. Gemini, Grok, Meta AI, DeepSeek e Claude sono avvisati. 

OpenAI definisce o3 il suo modello di ragionamento più potente, in grado di superare i modelli precedenti nei test che misurano le capacità di matematica, codifica, ragionamento, scienza e comprensione visiva.

OpenAI o4-mini è invece un modello più piccolo ottimizzato per un ragionamento rapido ed economico: secondo OpenAI rappresenta un compromesso competitivo tra prezzo, velocità e prestazioni.

o3 è particolarmente ferrato in query complesse che richiedono analisi sfaccettate e le cui risposte potrebbero non essere immediatamente ovvie, e funziona particolarmente bene in attività visive come l'analisi di immagini, grafici e grafica. Lo vediamo infatti svettare nei test SWE (che valuta la capacità di risolvere problemi di programmazione in GitHub), Aider Polyglot, MathVista e Humanity's Last Exam, per fare qualche esempio. 

o4-mini è particolarmente performante invece nei test AIME 2024 e 2025 (che valutano la capacità di risolvere problemi matematici), oltre a superare il predecessore su attività non STEM e su domini come la scienza dei dati. 

Per dare qualche numero, nel test SWE-bench (senza scaffolding personalizzato), o3 ottiene un punteggio del 69,1%, e o4-mini 68,1%, mentre Claude 3.7 Sonnet ha ottenuto il 62,3%.

Ma le caratteristiche di rilievo di questi modelli vanno oltre i numeri. Innanzitutto, o3 e o4-mini sono i primi modelli in grado di utilizzare in modo indipendente tutti gli strumenti di ChatGPT, come la navigazione web, Python, la comprensione e la generazione di immagini.

OpenAI fa un esempio: se gli si chiede come sarà il consumo energetico in una zona questa estate rispetto all'anno scorso, il modello potrà cercare sul web i dati necessari, scrivere un codice Python per generare una previsione, creare un grafico o un'immagine e spiegare i fattori chiave dietro la previsione.

L'altra novità riguarda la capacità di "pensare" con le immagini. Questo significa che gli utenti possono caricare immagini su ChatGPT, come schizzi o diagrammi da PDF, e i modelli analizzeranno le immagini durante la loro fase di "chain-of-thought" prima di rispondere.

Grazie a questa nuova capacità, o3 e o4-mini possono interpretare immagini sfocate e di bassa qualità e possono eseguire attività come lo zoom o far ruotare le immagini per comprenderle meglio (un po' come abbiamo visto fare al lancio di Gemini 2.0).

Inoltre i nuovi modelli sono stati valutati dal Safety Advisory Group (SAG) di OpenAI e non raggiungono il limite di sicurezza nelle capacità in biologia, chimica, sicurezza informatica o Al.

Il CEO di OpenAI Sam Altman ha dichiarato che o3 e o4-mini potrebbero essere gli ultimi modelli di ragionamento indipendenti prima del lancio di GPT-5, un modello che, come avvenuto per GPT-4.1 per i modelli tradizionali, unificherà i modelli di ragionamento.

 

A partire da oggi, i modelli, oltre a una variante di o4-mini chiamata "o4-mini-high" che dedica più tempo a fornire risposte per migliorarne l'affidabilità, sono disponibili per gli abbonati ai piani Pro (con accesso illimitato), Plus e Team (entrambi con un limite di 150 query al giorno) di OpenAI.

Nelle prossime settimane, OpenAI afferma che prevede di rilasciare o3-pro, una versione di o3 che utilizza più risorse informatiche per produrre le sue risposte, esclusivamente per gli abbonati ChatGPT Pro.

Oltre a ChatGPT, tutti e tre i modelli (o3, o4-mini e o4-mini-high) saranno disponibili agli sviluppatori tramite l'API Chat Completions e l'API Responses ai seguenti prezzi:

  • o3: 10 dollari per milione di token di input (circa 750.000 parole) e 40 dollari per milione di token di output
  • o4-mini: 1,10 dollari per milione di token di input e 4,40 dollari per milione di token di output.

OpenAI sta inoltre lanciando Codex CLI, un agente di programmazione leggero, open-source, che funziona localmente nel terminale dell'utente. Per supportare i primi progetti, stiamo avviando anche un'iniziativa da 1 milione di dollari. I finanziamenti saranno assegnati in tranche da 25.000 dollari sotto forma di crediti API.

L'articolo ChatGPT impara a pensare con le immagini e ad "agire" da solo: arrivano o3 e o4-mini sembra essere il primo su Smartworld.