OpenAI hace "historia" con GPT-4.1, pero para mal: primera vez que lanza un modelo y no consigue brillar en rendimiento
OpenAI ha presentado su nueva familia de modelos de lenguaje: GPT-4.1, GPT-4.1 Mini y GPT-4.1 Nano. Aunque se anuncian como una evolución significativa respecto a sus predecesores con una ventana de contexto de hasta un millón de tokens y centrada especialmente en programación, lo cierto es que no han conseguido superar a la competencia directa, especialmente a Gemini 2.5 Pro de Google, que continúa liderando los principales benchmarks. Este lanzamiento supone un punto de inflexión para OpenAI. Tal y como señala el investigador en IA Pierre Bongrand, es la primera vez que la compañía lanza un modelo tras Google y se queda muy por detrás en rendimiento. Además, este lanzamiento viene acompañado de cierta inestabilidad en la estrategia de producto, con la retirada inminente de GPT-4.5, modelo que se había presentado con gran expectación y que desaparecerá de ChatGPT el 30 de abril. Gemini 2.5 Pro sigue liderando los ránkings Los benchmarks publicados tras el anuncio han dejado clara la superioridad de Gemini 2.5 Pro. En particular, en el test GPQa, diseñado para evaluar el razonamiento en tareas de nivel posgrado, Gemini se posiciona a la cabeza, muy por delante de GPT-4-1, y que ha quedado evidenciado en la gráfica publicada por Bongrand en sus redes sociales. Pulsa en la imagen para acceder a la publicación. Lo más preocupante para OpenAI es que, pese a tener precios similares por millón de tokens, el rendimiento de GPT-4.1 está muy por debajo. Esto ha generado decepción, ya que se rompe una "tradición" que tenía OpenAI de sobresalir sobre los modelos que se habían lanzado anteriormente. OpenAI también ha lanzado versiones más ligeras: GPT-4.1 Mini, que apunta a ser una alternativa económica dentro del ecosistema. Su rendimiento no dista demasiado del modelo principal, pero su competencia directa es Gemini 2.0 Flash, donde nuevamente Google se impone en términos de relación calidad-precio. Pulsa en la imagen para acceder a la publicación en Reddit. Si hablamos en términos de precios entre estos dos modelos económicos, también encontramos claras diferencias, donde Gemini destaca por ser mucho más económico, mientras que su rival en GPT es más caro y con un ligero mejor rendimiento: Gemini 2.0 Flash tiene un coste por millón de tokens inferior a 0,20 dólares. GPT-4.1 Mini, por su parte, ronda los 0,70 dólares por millón de tokens. Enfrentamos a las IA en los benchmarks Si nos vamos a la web de Docsbot.ai, se puede hacer una comparativa exhaustiva de los modelos en diferentes test donde se evidencia que OpenAI todavía tiene bastante lejos a Gemini 2.5 Pro. bENCHMARK GEMINI 2.5 PRO GPT-4.1 GEMINI 2.5 FLASH GPT-4.1 MINI MMLU - 90,2% - 87,5% Global mmlu 89,8% 87,3% 83,4% 78,5%. GPQa 84% 66,3% 60,1% 65% AIME2024 92% 48,1% 49,6% IFEVAL - 87,4% - 84,1% Humanity's last examen 18,8% - - - swe-bench 63,8% 54,6% - 23,6% mmmu 81,7% 74,8% 71,7% 72,7% mathvista - 72,2% - 73,1% En este mismo sitio web, también se detalla que el precio de entrada de tókens de Gemini 2.0 Flash es de 0,10 dólares, mientras que GPT-4.1 Mini tiene un precio cuatro ve

OpenAI ha presentado su nueva familia de modelos de lenguaje: GPT-4.1, GPT-4.1 Mini y GPT-4.1 Nano. Aunque se anuncian como una evolución significativa respecto a sus predecesores con una ventana de contexto de hasta un millón de tokens y centrada especialmente en programación, lo cierto es que no han conseguido superar a la competencia directa, especialmente a Gemini 2.5 Pro de Google, que continúa liderando los principales benchmarks.
Este lanzamiento supone un punto de inflexión para OpenAI. Tal y como señala el investigador en IA Pierre Bongrand, es la primera vez que la compañía lanza un modelo tras Google y se queda muy por detrás en rendimiento. Además, este lanzamiento viene acompañado de cierta inestabilidad en la estrategia de producto, con la retirada inminente de GPT-4.5, modelo que se había presentado con gran expectación y que desaparecerá de ChatGPT el 30 de abril.
Gemini 2.5 Pro sigue liderando los ránkings
Los benchmarks publicados tras el anuncio han dejado clara la superioridad de Gemini 2.5 Pro. En particular, en el test GPQa, diseñado para evaluar el razonamiento en tareas de nivel posgrado, Gemini se posiciona a la cabeza, muy por delante de GPT-4-1, y que ha quedado evidenciado en la gráfica publicada por Bongrand en sus redes sociales.
Lo más preocupante para OpenAI es que, pese a tener precios similares por millón de tokens, el rendimiento de GPT-4.1 está muy por debajo. Esto ha generado decepción, ya que se rompe una "tradición" que tenía OpenAI de sobresalir sobre los modelos que se habían lanzado anteriormente.
OpenAI también ha lanzado versiones más ligeras: GPT-4.1 Mini, que apunta a ser una alternativa económica dentro del ecosistema. Su rendimiento no dista demasiado del modelo principal, pero su competencia directa es Gemini 2.0 Flash, donde nuevamente Google se impone en términos de relación calidad-precio.
Si hablamos en términos de precios entre estos dos modelos económicos, también encontramos claras diferencias, donde Gemini destaca por ser mucho más económico, mientras que su rival en GPT es más caro y con un ligero mejor rendimiento:
- Gemini 2.0 Flash tiene un coste por millón de tokens inferior a 0,20 dólares.
- GPT-4.1 Mini, por su parte, ronda los 0,70 dólares por millón de tokens.
Enfrentamos a las IA en los benchmarks
Si nos vamos a la web de Docsbot.ai, se puede hacer una comparativa exhaustiva de los modelos en diferentes test donde se evidencia que OpenAI todavía tiene bastante lejos a Gemini 2.5 Pro.
bENCHMARK |
GEMINI 2.5 PRO |
GPT-4.1 |
GEMINI 2.5 FLASH |
GPT-4.1 MINI |
---|---|---|---|---|
MMLU |
- |
90,2% |
- |
87,5% |
Global mmlu |
89,8% |
87,3% |
83,4% |
78,5%. |
GPQa |
84% |
66,3% |
60,1% |
65% |
AIME2024 |
92% |
48,1% |
|
49,6% |
IFEVAL |
- |
87,4% |
- |
84,1% |
Humanity's last examen |
18,8% |
- |
- |
- |
swe-bench |
63,8% |
54,6% |
- |
23,6% |
mmmu |
81,7% |
74,8% |
71,7% |
72,7% |
mathvista |
- |
72,2% |
- |
73,1% |
En este mismo sitio web, también se detalla que el precio de entrada de tókens de Gemini 2.0 Flash es de 0,10 dólares, mientras que GPT-4.1 Mini tiene un precio cuatro veces superior. Lo mismo ocurre en el precio de salida, con 0,4 dólares por millón de tókens en Gemini y 1,60$ por millón de tókens en GPT-4.1 Mini.
Una guerra de modelos cada vez más ajustada
Esta nueva batalla en el terreno de la IA confirma que la competencia está más activa que nunca. OpenAI ha mejorado respecto a sí misma, con GPT-4.1 como uno de sus modelos más potentes hasta la fecha. Sin embargo, cuando se compara con otros actores del mercado, emergen serias inconsistencias tanto en eficiencia económica como en rendimiento técnico.
Lo que antes era habitual —que OpenAI encabezara los rankings con cada nuevo modelo— ya no parece garantizado. A ello se suma la retirada discreta de GPT-4.5, que desaparece sin haber dejado una huella destacable.
Mientras tanto, modelos como Claude 3.5 y 3.7 continúan mejorando su rendimiento, incluso rozando el nivel humanoen ciertas tareas, lo que también pone presión sobre OpenAI.
Todo indica que OpenAI no atraviesa su mejor momento en cuanto a lanzamientos de modelos. Pese a seguir innovando, ya no lidera los rankings como antes, ni consigue diferenciarse claramente en precio o calidad. La retirada de GPT-4.5 y los resultados de GPT-4.1 abren una nueva etapa en la que la competencia —liderada por Google y Anthropic— parece estar marcando el paso.
Imágenes | Solen Feyissa
-
La noticia
OpenAI hace "historia" con GPT-4.1, pero para mal: primera vez que lanza un modelo y no consigue brillar en rendimiento
fue publicada originalmente en
Genbeta
por
José Alberto Lizana
.