La paradoja de que los nuevos modelos de OpenAI alucinen más que sus antecesores mientras son capaces de hacer cosas increíbles
En los últimos días y semanas, hemos presenciado un salto cualitativo en las capacidades de los modelos de IA, especialmente con la llegada de los nuevos sistemas de razonamiento de OpenAI (o3 y o4-mini) y de sus competidores (como Gemini 2.5 Pro, de Google). Estas nuevas versiones deslumbran con su aparente inteligencia general, su capacidad para resolver problemas complejos y su sorprendente habilidad para actuar como agentes autónomos. Sin embargo, esta sofisticación viene acompañada de un fenómeno inquietante: alucinan más que nunca y siguen fallando en tareas absurdamente sencillas. Algunos expertos ya denominan a esto la 'AGI dentada', en referencia a la AGI (o 'IA general'), el próximo paso en la evolución de la IA... y a los 'altos y bajos' con que se manifiesta según la tarea que aborde. Superpoderes en la nube: IA que hace lo que antes parecía imposible Los nuevos modelos como o3 no solo entienden preguntas complejas, sino que las resuelven tomando decisiones autónomas, usando herramientas, accediendo a la web, escribiendo código, generando imágenes y organizando información —todo a partir de un único mensaje de texto. En Genbeta Una de las empresas que mejor usa la IA sufrió gravemente una IA que alucina: se inventó una respuesta mientras hacía de soporte En resumen, estamos presenciando la superación de la tradicional figura del chatbot en favor de sistemas capaces de actuar por iniciativa propia para alcanzar objetivos complejos. Un ejemplo sorprendente es el caso documentado por Ethan Mollick: al pedirle a o3 que creara un negocio para la venta de quesos por correspondencia, este no solo inventó 20 eslóganes, sino que eligió el mejor, desarrolló un plan financiero, analizó a la competencia, generó un logotipo, construyó un sitio web y sugirió productos acordes al perfil de marca… ¡todo en una sola interacción y en menos de dos minutos! vía Ethan Mollick Y no es un caso aislado: estos modelos también pueden analizar bases de datos desconocidas y generar informes estadísticos con visualizaciones profesionales, identificar ubicaciones geográficas con solo una imagen ("modo geo-guesser"), o transformar artículos académicos en videojuegos interactivos. Esta capacidad para "razonar", es decir, encadenar múltiples pasos lógicos de manera coherente y con propósito, parece acercar a la IA a una forma embrionaria de inteligencia general (AGI). Incluso expertos como el economista Tyler Cowen se atreven a declarar que con o3 ya hemos cruzado el umbral de la AGI, o al menos entrado en lo que él llama una 'AGI práctica', útil aunque no perfecta. El otro lado del espejo: más razonamiento, más alucinaciones Pero este nuevo poder viene con una paradoja preocupante: los modelos más avanzados también son los que más se equivocan. Según un informe técnico de OpenAI (PDF), tanto o3 como o4-mini presentan tasas de alucinación significativamente más altas que sus predecesores. En pruebas internas, o3 falló el 33% de las veces en una prueba de conocimientos personales (PersonQA), el doble que modelos anteriores como o1, o o3-mini. Las alucinaciones no son simples errores. Son afirmaciones falsas presentadas con total convicción, como inventarse enlaces web, atribuirse acciones imposibles o crear referencias completamente ficticias. Esto no resultará muy extraño para los que venimos usando ChatGPT desde su lanzamiento (GPT-3 funcionaba exactamente así), pero pone en riesgo su adopción en sectores donde la tecnología de OpenAI se estaba implementando ya, pero en los que la veracidad es crítica (como el jurídico, médico o científico). En Genbeta Las inteligencias artificiales 'mienten' porque alucinan, y el ChatGPT de Bing alucina aún más. Los JPG ayudan a entender por qué Y lo más desconcertante es que ni siquiera OpenAI sabe exactamente por qué está pasando: la hipótesis actual es que los métodos de entrenamiento por refuerzo usados para mejorar el razonamiento podrían estar amplificando los sesgos y errores en lugar de corregirlos. Irónicamente, al hacer a los modelos más "inteligentes", los estamos haciendo también más propensos a equivocarse de forma sofisticada. Si eso acerca o aleja la IA a la inteligencia humana, ya es tema de debate... El dilema de la frontera dentada: ¿genios con pies de barro? Esta contradicción ha sido bautizada por algunos investigadores como la 'frontera dentada' de la inteligencia artificial: una IA que puede superar a expertos humanos en tareas extremadamente difíciles, pero fracasar en ejercicios triviales que no desafiarían ni a un niño. Un ejemplo ilustrativo es el resultado de someter a los nuevos modelos de OpenAI a la versión modificada de un acertijo clásico: "Un niño llega a urgencias tras un accidente. El cirujano lo ve y dice: '¡Puedo operar a este niño!'. ¿Cómo es e

En los últimos días y semanas, hemos presenciado un salto cualitativo en las capacidades de los modelos de IA, especialmente con la llegada de los nuevos sistemas de razonamiento de OpenAI (o3 y o4-mini) y de sus competidores (como Gemini 2.5 Pro, de Google).
Estas nuevas versiones deslumbran con su aparente inteligencia general, su capacidad para resolver problemas complejos y su sorprendente habilidad para actuar como agentes autónomos. Sin embargo, esta sofisticación viene acompañada de un fenómeno inquietante: alucinan más que nunca y siguen fallando en tareas absurdamente sencillas.
Algunos expertos ya denominan a esto la 'AGI dentada', en referencia a la AGI (o 'IA general'), el próximo paso en la evolución de la IA... y a los 'altos y bajos' con que se manifiesta según la tarea que aborde.
Superpoderes en la nube: IA que hace lo que antes parecía imposible
Los nuevos modelos como o3 no solo entienden preguntas complejas, sino que las resuelven tomando decisiones autónomas, usando herramientas, accediendo a la web, escribiendo código, generando imágenes y organizando información —todo a partir de un único mensaje de texto.
En resumen, estamos presenciando la superación de la tradicional figura del chatbot en favor de sistemas capaces de actuar por iniciativa propia para alcanzar objetivos complejos.
Un ejemplo sorprendente es el caso documentado por Ethan Mollick: al pedirle a o3 que creara un negocio para la venta de quesos por correspondencia, este no solo inventó 20 eslóganes, sino que eligió el mejor, desarrolló un plan financiero, analizó a la competencia, generó un logotipo, construyó un sitio web y sugirió productos acordes al perfil de marca… ¡todo en una sola interacción y en menos de dos minutos!

Y no es un caso aislado: estos modelos también pueden analizar bases de datos desconocidas y generar informes estadísticos con visualizaciones profesionales, identificar ubicaciones geográficas con solo una imagen ("modo geo-guesser"), o transformar artículos académicos en videojuegos interactivos.
Esta capacidad para "razonar", es decir, encadenar múltiples pasos lógicos de manera coherente y con propósito, parece acercar a la IA a una forma embrionaria de inteligencia general (AGI).
Incluso expertos como el economista Tyler Cowen se atreven a declarar que con o3 ya hemos cruzado el umbral de la AGI, o al menos entrado en lo que él llama una 'AGI práctica', útil aunque no perfecta.
El otro lado del espejo: más razonamiento, más alucinaciones
Pero este nuevo poder viene con una paradoja preocupante: los modelos más avanzados también son los que más se equivocan. Según un informe técnico de OpenAI (PDF), tanto o3 como o4-mini presentan tasas de alucinación significativamente más altas que sus predecesores. En pruebas internas, o3 falló el 33% de las veces en una prueba de conocimientos personales (PersonQA), el doble que modelos anteriores como o1, o o3-mini.
Las alucinaciones no son simples errores. Son afirmaciones falsas presentadas con total convicción, como inventarse enlaces web, atribuirse acciones imposibles o crear referencias completamente ficticias.
Esto no resultará muy extraño para los que venimos usando ChatGPT desde su lanzamiento (GPT-3 funcionaba exactamente así), pero pone en riesgo su adopción en sectores donde la tecnología de OpenAI se estaba implementando ya, pero en los que la veracidad es crítica (como el jurídico, médico o científico).
Y lo más desconcertante es que ni siquiera OpenAI sabe exactamente por qué está pasando: la hipótesis actual es que los métodos de entrenamiento por refuerzo usados para mejorar el razonamiento podrían estar amplificando los sesgos y errores en lugar de corregirlos. Irónicamente, al hacer a los modelos más "inteligentes", los estamos haciendo también más propensos a equivocarse de forma sofisticada.
Si eso acerca o aleja la IA a la inteligencia humana, ya es tema de debate...
El dilema de la frontera dentada: ¿genios con pies de barro?
Esta contradicción ha sido bautizada por algunos investigadores como la 'frontera dentada' de la inteligencia artificial: una IA que puede superar a expertos humanos en tareas extremadamente difíciles, pero fracasar en ejercicios triviales que no desafiarían ni a un niño.
Un ejemplo ilustrativo es el resultado de someter a los nuevos modelos de OpenAI a la versión modificada de un acertijo clásico:
"Un niño llega a urgencias tras un accidente. El cirujano lo ve y dice: '¡Puedo operar a este niño!'. ¿Cómo es esto posible?".
Ante eso 03 contesta, "el cirujano es la madre", lo cual carece de sentido... hasta que recuerdas que la versión clásica del acertijo reza así (y recuerda que, en inglés, 'cirujano' es una palabra de género neutro):
"Un niño llega a urgencias tras un accidente. El cirujano lo ve y dice: ‘¡No puedo operar, es mi hijo!’ ¿Cómo es esto posible?".
Así que la IA ofrece una respuesta válida para la versión original del enigma, pero incorrecta para esta variante: el modelo no logra abstraerse del patrón más común en su entrenamiento y falla al generalizar. También insiste en que el cirujano es "la madre" cuando el prompt indica que es un cirujano varón.
Este fenómeno subraya un hecho crucial: la IA actual no 'comprende' el mundo, sino que navega en un mar de correlaciones aprendidas. Puede 'razonar', pero ese 'razonamiento' no siempre parte de una comprensión profunda o contextual del problema.
¿Hacia una AGI real… o un mero espejismo?
Entonces, ¿qué tenemos realmente entre manos? ¿Estamos frente a una AGI incompleta o solo una ilusión de inteligencia avanzada? La verdad es que no hay consenso: el término AGI (Inteligencia Artificial General) sigue siendo vago y mal definido: ¿debe una IA igualar a un humano promedio? ¿A un experto? ¿En qué tareas?
Lo que sí parece claro es que estamos ante un nuevo tipo de IA, más parecida a un asistente con 'superpoderes' que a una simple herramienta de software. Esta 'AGI dentada' ya está transformando la forma en que investigamos, diseñamos productos, programamos o hacemos negocios... aunque sus errores siguen siendo un lastre.
Imagen | Marcos Merino mediante IA
En Genbeta | Acabamos de descubrir que a la IA le pasa como a los humanos: para tener más ideas necesita más tiempo
-
La noticia
La paradoja de que los nuevos modelos de OpenAI alucinen más que sus antecesores mientras son capaces de hacer cosas increíbles
fue publicada originalmente en
Genbeta
por
Marcos Merino
.