El gran logro de GPT-4o no son las imágenes tipo Ghibli, sino cómo ejecuta nuestros prompts para conseguir lo que parecía imposible

Que una inteligencia artificial genere una imagen de una copa llena hasta los bordes puede parecer una tarea muy sencilla. Sin embargo, la realidad es que hasta ahora esto ha sido un gran reto, en parte por la limitación de sus datos de entrenamiento, Ha sido con el nuevo modelo de generación de GPT-4o, que ha destacado por sus espectaculares imágenes de Studio Ghibli, cuando por fin se ha conseguido este logro, tal y como ha compartido Antonio Ortiz. Detrás de cualquier inteligencia artificial hay una base de datos con una gran cantidad de información, derivada del proceso de entrenamiento. Hasta ahora, la IA se basaba en numerosas imágenes de copas que estaban llenas solo hasta dos tercios de su capacidad, lo que condicionaba los resultados. Esto hacía que fuera casi incapaz de generar una copa totalmente llena, ya que no había recibido el entrenamiento necesario para 'saber' cómo se representa ese escenario. ChatGPT ha conseguido superar el 'reto de la copa de vino' GPT-4o ha llegado para cambiar esto. Ahora, no se limitará únicamente a reproducir patrones aprendidos durante su entrenamiento, sino que también comprenderá mejor el prompt que el usuario introduce y tratará de interpretarlo con mayor flexibilidad. Para entender el porqué de este logro, es necesario acudir a la documentación técnica que proporciona OpenAI de su modelo. Es ahí donde nos llevamos la grata sorpresa: estamos ante un modelo de generación de imágenes autorregresivo. Tal y como explica Amazon en su web de AWS, un modelo autorregresivo de manera técnica  "utiliza una variación del análisis de regresión lineal para predecir la siguiente secuencia a partir de un rango específico de variables". En la práctica, esto significa que genera las imágenes píxel a píxel, decidiendo cada nuevo píxel en función de todos los anteriores. Para poder entenderlo mejor, podemos imaginar un puzzle. Para poder hacerlo bien, hay que ir buscando las piezas que encajan con las que se han colocado. Esto, precisamente, lo que hace ahora GPT-4o: decide el primer píxel que va a generar y luego va construyendo la imagen definitiva en función de lo que ya ha creado. En Genbeta La IA está ganando la batalla a los humanos donde menos lo esperábamos: ya hace mejores memes Gracias a este sistema de generación, se logra un control mucho mayor sobre el resultado, lo que permite obtener imágenes más coherentes y fotorrealistas. Para OpenAI, esta es precisamente la diferencia clave respecto a sus modelos anteriores. Además, también destaca la mejor integración del texto en las imágenes que genera.  DALL-E 3, por ejemplo, no contaba con esta capacidad. Se basaba únicamente en los datos de entrenamiento almacenados en su base de datos. Si no tenía ejemplos de una copa de vino completamente llena, simplemente no podía generarla correctamente, y ofrecía como resultado la versión que sí conocía. Portada | Generada con IA - GPT-4o En Genbeta | He probado esta app española que usa ChatGPT para ayudarte a buscar piso y ya no vuelvo a usar Idealista - La noticia El gran logro de GPT-4o no son las imágenes tipo Ghibli, sino cómo ejecuta nuestros prompts para conseguir lo que parecía imposible fue publicada originalmente en Genbeta por José Alberto Lizana .

Mar 28, 2025 - 18:53
 0
El gran logro de GPT-4o no son las imágenes tipo Ghibli, sino cómo ejecuta nuestros prompts para conseguir lo que parecía imposible

El gran logro de GPT-4o no son las imágenes tipo Ghibli, sino cómo ejecuta nuestros prompts para conseguir lo que parecía imposible

Que una inteligencia artificial genere una imagen de una copa llena hasta los bordes puede parecer una tarea muy sencilla. Sin embargo, la realidad es que hasta ahora esto ha sido un gran reto, en parte por la limitación de sus datos de entrenamiento, Ha sido con el nuevo modelo de generación de GPT-4o, que ha destacado por sus espectaculares imágenes de Studio Ghibli, cuando por fin se ha conseguido este logro, tal y como ha compartido Antonio Ortiz.

Detrás de cualquier inteligencia artificial hay una base de datos con una gran cantidad de información, derivada del proceso de entrenamiento. Hasta ahora, la IA se basaba en numerosas imágenes de copas que estaban llenas solo hasta dos tercios de su capacidad, lo que condicionaba los resultados. Esto hacía que fuera casi incapaz de generar una copa totalmente llena, ya que no había recibido el entrenamiento necesario para 'saber' cómo se representa ese escenario.

ChatGPT ha conseguido superar el 'reto de la copa de vino'

GPT-4o ha llegado para cambiar esto. Ahora, no se limitará únicamente a reproducir patrones aprendidos durante su entrenamiento, sino que también comprenderá mejor el prompt que el usuario introduce y tratará de interpretarlo con mayor flexibilidad.

Copa Vino

Para entender el porqué de este logro, es necesario acudir a la documentación técnica que proporciona OpenAI de su modelo. Es ahí donde nos llevamos la grata sorpresa: estamos ante un modelo de generación de imágenes autorregresivo.

Tal y como explica Amazon en su web de AWS, un modelo autorregresivo de manera técnica  "utiliza una variación del análisis de regresión lineal para predecir la siguiente secuencia a partir de un rango específico de variables". En la práctica, esto significa que genera las imágenes píxel a píxel, decidiendo cada nuevo píxel en función de todos los anteriores.

Para poder entenderlo mejor, podemos imaginar un puzzle. Para poder hacerlo bien, hay que ir buscando las piezas que encajan con las que se han colocado. Esto, precisamente, lo que hace ahora GPT-4o: decide el primer píxel que va a generar y luego va construyendo la imagen definitiva en función de lo que ya ha creado.

Gracias a este sistema de generación, se logra un control mucho mayor sobre el resultado, lo que permite obtener imágenes más coherentes y fotorrealistas. Para OpenAI, esta es precisamente la diferencia clave respecto a sus modelos anteriores. Además, también destaca la mejor integración del texto en las imágenes que genera. 

DALL-E 3, por ejemplo, no contaba con esta capacidad. Se basaba únicamente en los datos de entrenamiento almacenados en su base de datos. Si no tenía ejemplos de una copa de vino completamente llena, simplemente no podía generarla correctamente, y ofrecía como resultado la versión que sí conocía.

Portada | Generada con IA - GPT-4o

En Genbeta | He probado esta app española que usa ChatGPT para ayudarte a buscar piso y ya no vuelvo a usar Idealista


-
La noticia El gran logro de GPT-4o no son las imágenes tipo Ghibli, sino cómo ejecuta nuestros prompts para conseguir lo que parecía imposible fue publicada originalmente en Genbeta por José Alberto Lizana .