Meta é acusada de manipular benchmarks de IA do Llama 4

Modelo testado foi ajustado para conversas, o que pode ter influenciado resultados. Organizadores da avaliação criticam a prática. Meta é acusada de manipular benchmarks de IA do Llama 4

Abr 8, 2025 - 22:43
 0
Meta é acusada de manipular benchmarks de IA do Llama 4

Especialistas em inteligência artificial observaram que a Meta enviou para um teste de benchmarking uma versão do Llama 4 diferente da que foi liberada para o público. A empresa confirma ter usado uma versão experimental, mas diz fazer o mesmo com muitas variantes customizadas.

O que a Meta fez para provocar a polêmica?

Na documentação publicada com o lançamento do Llama 4, a Meta afirma que o teste LMArena foi feito usando uma versão experimental do modelo, “otimizada para conversacionalidade”, nas palavras da própria empresa.

O resultado do Llama 4 no LMArena é muito bom: o modelo é o atual segundo colocado na pontuação Elo. Com 1.417 pontos, ele está acima do 4o da OpenAI e abaixo apenas do Gemini 2.5 Pro, do Google.

O LMArena é uma ferramenta de benchmarking de código aberto e colaborativa. Nos testes, usuários fazem uma mesma pergunta para dois modelos de IA distintos e votam em qual deu a melhor resposta. Quanto maior o número de vitórias na “arena”, maior a pontuação Elo (sim, o mesmo sistema de pontuação usado no xadrez, por exemplo).

O que a Meta diz sobre isso?

Em um email enviado ao The Verge, a Meta confirma ter usado uma versão experimental do Llama 4, mas diz que faz testes “com todos os tipos de variantes customizadas”.

A Llama-4-Maverick-03-26-Experimental é uma dessas e “também teve um bom desempenho no LMArena”, nas palavras de um porta-voz da companhia. Agora, a Meta afirma estar animada para ver o que os desenvolvedores farão com o Llama 4 de código aberto, que pode ser customizado.

O que a LMArena vai fazer a respeito?

Apesar de a Meta minimizar os questionamentos, os administradores do LMArena disseram que “a interpretação da Meta de nossas políticas não corresponde ao que esperamos dos fornecedores de modelos” e que a empresa deveria ter deixado claro que o modelo usado era otimizado.

Por isso, a versão final do Llama 4 Maverick será adicionada às votações, e os resultados devem ser divulgados em breve.

Com informações do TechCrunch, Gizmodo e The Verge

Meta é acusada de manipular benchmarks de IA do Llama 4