ChatGPT por fin tiene un un generador de imágenes propio y gratis. Resuelve de forma increíble uno de los grandes problemas de la IA
OpenAI acaba de anunciar la integración de la funcionalidad de generación de imágenes directamente en ChatGPT a partir de hoy: los usuarios que recurran al modelo multimodal GPT-4o podrán generar imágenes dentro del mismo, en lugar de (como venía ocurriendo hasta ahora) utilizar ChatGPT como mero intermediario del modelo especializado DALL-E 3. El cambio está disponible para todos los usuarios de ChatGPT (en los planes Plus, Pro, Team y gratuito), así como en la plataforma de vídeo Sora, y próximamente vía API para desarrolladores. ¿Qué es GPT-4o y qué lo hace diferente? Lanzado inicialmente en mayo de 2024, GPT-4o es un modelo "omnimodal" —capaz de procesar y generar texto, imágenes, audio y vídeo— entrenado para entender e interrelacionar múltiples formatos de información... sin embargo, su capacidad para generar imágenes no se encontraba habilitada para el público general. ¿Qué ha cambiado al dejar atrás DALL·E 3? Anteriormente, ChatGPT utilizaba DALL·E 3 como generador de imágenes, un modelo de difusión que reconstruía imágenes eliminando ruido desde los píxeles. GPT-4o rompe con esta técnica y adopta un enfoque autorregresivo, generando imágenes de forma secuencial (de izquierda a derecha y de arriba a abajo), lo cual permite una mayor coherencia y precisión, especialmente al integrar texto o múltiples objetos en una escena. En Genbeta Sora nos acerca más a la 'IA general'... pero no por generar vídeos, sino por simular mundos Entonces... ¿DALL·E ha muerto? - Aunque GPT-4o reemplaza ahora a DALL·E como generador de imágenes predeterminado en ChatGPT, los usuarios nostálgicos aún podrán seguir accediendo a DALL·E 3 a través de un GPT personalizado. Capacidades clave de la generación de imágenes con GPT-4o Renderizado preciso de texto (adiós a uno de los grandes problemas de la IA generativa de imágenes) OpenAI Una de las mejoras más aclamadas es la capacidad del modelo para incrustar texto legible y correctamente posicionado dentro de imágenes. Esto permite crear carteles, menús, infografías o invitaciones con calidad profesional. Funciona a la perfección en ejemplos como el superior, y muestra hasta qué punto la evolución de los modelos pone solución a sus grandes problemas: primero eran manos poco humanas que más o menos se han ido arreglando, pero los textos deformes e ininteligibles seguían presentes en muchas imágenes generadas por IA. No en las de GPT-4o. Comprensión contextual y refinamiento conversacional OpenAI Como parte nativa de ChatGPT, GPT-4o puede generar imágenes basadas en el historial de conversación, ajustar detalles bajo pedido y mantener coherencia visual en múltiples iteraciones. Por ejemplo, un personaje de videojuego puede conservar su estilo visual a lo largo de diferentes versiones. Mayor capacidad de manejo de objetos OpenAI Mientras que otros modelos se limitan a representar con precisión entre 5 y 8 objetos, GPT-4o puede manejar entre 10 y 20 elementos distintos con atributos complejos (colores, formas, posiciones), gracias a una mejora significativa en el "binding" o asociación de características. Adaptación de estilo y realismo fotográfico OpenAI OpenAI El modelo puede generar imágenes en una gran variedad de estilos: desde bocetos a mano hasta fotografías hiperrealistas. Incluso es capaz de transformar imágenes subidas por el usuario para adaptarlas a un nuevo estilo o contexto. Aplicaciones prácticas La nueva funcionalidad de GPT-4o no se limita al arte por arte. Su verdadero poder radica en sus aplicaciones prácticas: Diseño gráfico y branding: creación de logotipos, banners y anuncios personalizados. Educación: diagramas científicos, ilustraciones históricas y material didáctico visual. Desarrollo de videojuegos: iteración visual coherente de personajes y escenarios. Marketing digital: contenido para redes sociales, presentaciones y promociones. Además, es posible personalizar las imágenes indicando proporciones, esquemas de color (incluso con códigos hexadecimales), fondos transparentes y mucho más. Correlación 'prompt' / imagen resultante // OpenAI Limitaciones actuales A pesar de sus avances, el sistema no es perfecto. Algunas de las limitaciones observadas por ahora incluyen: Recortes no deseados en imágenes verticales largas (como pósteres). Problemas con caracteres no latinos. Texto muy pequeño que puede volverse ilegible. Dificultad para editar partes específicas sin afectar otras. OpenAI afirma estar trabajando activamente para superar estos problemas en futuras actualizaciones. Medidas d

OpenAI acaba de anunciar la integración de la funcionalidad de generación de imágenes directamente en ChatGPT a partir de hoy: los usuarios que recurran al modelo multimodal GPT-4o podrán generar imágenes dentro del mismo, en lugar de (como venía ocurriendo hasta ahora) utilizar ChatGPT como mero intermediario del modelo especializado DALL-E 3.
El cambio está disponible para todos los usuarios de ChatGPT (en los planes Plus, Pro, Team y gratuito), así como en la plataforma de vídeo Sora, y próximamente vía API para desarrolladores.
¿Qué es GPT-4o y qué lo hace diferente?
Lanzado inicialmente en mayo de 2024, GPT-4o es un modelo "omnimodal" —capaz de procesar y generar texto, imágenes, audio y vídeo— entrenado para entender e interrelacionar múltiples formatos de información... sin embargo, su capacidad para generar imágenes no se encontraba habilitada para el público general.
¿Qué ha cambiado al dejar atrás DALL·E 3?
Anteriormente, ChatGPT utilizaba DALL·E 3 como generador de imágenes, un modelo de difusión que reconstruía imágenes eliminando ruido desde los píxeles. GPT-4o rompe con esta técnica y adopta un enfoque autorregresivo, generando imágenes de forma secuencial (de izquierda a derecha y de arriba a abajo), lo cual permite una mayor coherencia y precisión, especialmente al integrar texto o múltiples objetos en una escena.
Entonces... ¿DALL·E ha muerto? - Aunque GPT-4o reemplaza ahora a DALL·E como generador de imágenes predeterminado en ChatGPT, los usuarios nostálgicos aún podrán seguir accediendo a DALL·E 3 a través de un GPT personalizado.
Capacidades clave de la generación de imágenes con GPT-4o
Renderizado preciso de texto (adiós a uno de los grandes problemas de la IA generativa de imágenes)


Una de las mejoras más aclamadas es la capacidad del modelo para incrustar texto legible y correctamente posicionado dentro de imágenes. Esto permite crear carteles, menús, infografías o invitaciones con calidad profesional. Funciona a la perfección en ejemplos como el superior, y muestra hasta qué punto la evolución de los modelos pone solución a sus grandes problemas: primero eran manos poco humanas que más o menos se han ido arreglando, pero los textos deformes e ininteligibles seguían presentes en muchas imágenes generadas por IA. No en las de GPT-4o.
Comprensión contextual y refinamiento conversacional

Como parte nativa de ChatGPT, GPT-4o puede generar imágenes basadas en el historial de conversación, ajustar detalles bajo pedido y mantener coherencia visual en múltiples iteraciones. Por ejemplo, un personaje de videojuego puede conservar su estilo visual a lo largo de diferentes versiones.
Mayor capacidad de manejo de objetos

Mientras que otros modelos se limitan a representar con precisión entre 5 y 8 objetos, GPT-4o puede manejar entre 10 y 20 elementos distintos con atributos complejos (colores, formas, posiciones), gracias a una mejora significativa en el "binding" o asociación de características.
Adaptación de estilo y realismo fotográfico


El modelo puede generar imágenes en una gran variedad de estilos: desde bocetos a mano hasta fotografías hiperrealistas. Incluso es capaz de transformar imágenes subidas por el usuario para adaptarlas a un nuevo estilo o contexto.
Aplicaciones prácticas
La nueva funcionalidad de GPT-4o no se limita al arte por arte. Su verdadero poder radica en sus aplicaciones prácticas:
- Diseño gráfico y branding: creación de logotipos, banners y anuncios personalizados.
- Educación: diagramas científicos, ilustraciones históricas y material didáctico visual.
- Desarrollo de videojuegos: iteración visual coherente de personajes y escenarios.
- Marketing digital: contenido para redes sociales, presentaciones y promociones.
Además, es posible personalizar las imágenes indicando proporciones, esquemas de color (incluso con códigos hexadecimales), fondos transparentes y mucho más.

Limitaciones actuales
A pesar de sus avances, el sistema no es perfecto. Algunas de las limitaciones observadas por ahora incluyen:
- Recortes no deseados en imágenes verticales largas (como pósteres).
- Problemas con caracteres no latinos.
- Texto muy pequeño que puede volverse ilegible.
- Dificultad para editar partes específicas sin afectar otras.
OpenAI afirma estar trabajando activamente para superar estos problemas en futuras actualizaciones.
Medidas de seguridad y ética
GPT-4o incorpora varias medidas de seguridad para prevenir el uso indebido de la generación de imágenes:
- Metadatos C2PA: todas las imágenes generadas incluyen etiquetas que certifican su origen en IA.
- Moderación de contenido: bloqueo automático de solicitudes que impliquen violencia, pornografía, deepfakes, o contenido nocivo.
OpenAI ha optado por una política más permisiva en cuanto a la representación de figuras públicas adultas, siempre que no se viole ninguna política de contenido. Los personajes públicos que lo deseen pueden solicitar que no se genere su imagen, lo que abre un espacio para usos positivos como la educación, la sátira o contenido histórico.
Imagen | Montaje por Marcos Merino a partir de imágenes de OpenAI mediante IA
-
La noticia
ChatGPT por fin tiene un un generador de imágenes propio y gratis. Resuelve de forma increíble uno de los grandes problemas de la IA
fue publicada originalmente en
Genbeta
por
Marcos Merino
.