Novo teste ARC-AGI-2 baralha modelos AI

A Arc Prize Foundation lançou uma nova versão do seu teste para avaliar a inteligência artificial geral (AGI) - o ARC-AGI-2 - e os modelos AI actuais estão com dificuldades. O avanço dos modelos AI tem acontecido a ritmo acelerado e, como consequência, havia muitos testes que tinham sido concebidos para serem "difíceis" e que agora estavam prestes a ser resolvidos a 100% pelos modelos AI mais recentes. Mas, isso volta praticamente à estaca zero. O ARC-AGI-2 revelou-se um grande desafio para os modelos AI actuais, com a maioria a obter apenas cerca de 1% de pontuação. Ao contrário dos testes tradicionais, este mede a capacidade de adaptação da AI a novos problemas, sem recorrer aos dados de treino, sendo mais adequado para os modelos de "raciocínio" que tem sido criados. O ARC-AGI-2 apresenta desafios em forma de puzzles onde a AI deve identificar padrões visuais em grelhas de quadrados coloridos e gerar a resposta correcta. Mesmo o modelo o3 da OpenAI, que dominou o ARC-AGI-1 com 75.7% de pontuação, mal conseguiu atingir os 4% neste novo teste (a um custo de 200 dólares por tarefa) - e modelos como o o1-pro da OpenAI, o R1 da DeepSeek, o GPT-4.5, o Claude 3.7 Sonnet e o Gemini 2.0 Flash não tiveram melhor sorte. Em comparação, participantes humanos obtiveram, em média, 60% de precisão, demonstrando que ainda existe uma diferença significativa entre a inteligência humana e a das AIs. O novo teste também corrige uma falha do ARC-AGI-1, que permitia que os modelos pudessem resolver problemas através de força bruta, usando vasto poder computacional. O ARC-AGI-2 introduz uma métrica adicional de eficiência, exigindo que a AI interprete padrões em tempo real, minimizando essa "batota". Para incentivar a evolução dos modelos AI, a Arc Prize Foundation lançou o concurso Arc Prize 2025. O desafio: alcançar 85% de precisão neste novo teste ARC-AGI-2, gastando apenas um máximo de 0.42 dólares por tarefa. A questão não parece ser "se" este objectivo será atingido e superado, mas sim "quando" é que isso irá acontecer. O anterior ARC-AGI-1 resistiu aos modelos AI durante cerca de cinco anos, até em Dezembro de 2024 ser finalmente superado pelo o3 da OpenAI.

Mar 25, 2025 - 22:53

A Arc Prize Foundation lançou uma nova versão do seu teste para avaliar a inteligência artificial geral (AGI) - o ARC-AGI-2 - e os modelos AI actuais estão com dificuldades.

O avanço dos modelos AI tem acontecido a ritmo acelerado e, como consequência, havia muitos testes que tinham sido concebidos para serem "difíceis" e que agora estavam prestes a ser resolvidos a 100% pelos modelos AI mais recentes. Mas, isso volta praticamente à estaca zero. O ARC-AGI-2 revelou-se um grande desafio para os modelos AI actuais, com a maioria a obter apenas cerca de 1% de pontuação.

Ao contrário dos testes tradicionais, este mede a capacidade de adaptação da AI a novos problemas, sem recorrer aos dados de treino, sendo mais adequado para os modelos de "raciocínio" que tem sido criados. O ARC-AGI-2 apresenta desafios em forma de puzzles onde a AI deve identificar padrões visuais em grelhas de quadrados coloridos e gerar a resposta correcta. Mesmo o modelo o3 da OpenAI, que dominou o ARC-AGI-1 com 75.7% de pontuação, mal conseguiu atingir os 4% neste novo teste (a um custo de 200 dólares por tarefa) - e modelos como o o1-pro da OpenAI, o R1 da DeepSeek, o GPT-4.5, o Claude 3.7 Sonnet e o Gemini 2.0 Flash não tiveram melhor sorte. Em comparação, participantes humanos obtiveram, em média, 60% de precisão, demonstrando que ainda existe uma diferença significativa entre a inteligência humana e a das AIs.

O novo teste também corrige uma falha do ARC-AGI-1, que permitia que os modelos pudessem resolver problemas através de força bruta, usando vasto poder computacional. O ARC-AGI-2 introduz uma métrica adicional de eficiência, exigindo que a AI interprete padrões em tempo real, minimizando essa "batota".

Para incentivar a evolução dos modelos AI, a Arc Prize Foundation lançou o concurso Arc Prize 2025. O desafio: alcançar 85% de precisão neste novo teste ARC-AGI-2, gastando apenas um máximo de 0.42 dólares por tarefa.

A questão não parece ser "se" este objectivo será atingido e superado, mas sim "quando" é que isso irá acontecer. O anterior ARC-AGI-1 resistiu aos modelos AI durante cerca de cinco anos, até em Dezembro de 2024 ser finalmente superado pelo o3 da OpenAI.

Ler Mais