ChatGPT tiene una nueva función para generar imágenes realistas: así puedes utilizarla

ChatGPT ahora puede generar imágenes de alta calidad basadas en los mensajes del usuario, la conversación y los archivos cargados.

Mar 26, 2025 - 18:30
 0
ChatGPT tiene una nueva función para generar imágenes realistas: así puedes utilizarla

OpenAI ha anunciado que ChatGPT ya puede crear imágenes realistas directamente desde el chat, evitando tener que hacer uso de herramientas externas como DALL-E. La función está basada en el modelo GPT-4o que, según la compañía, utiliza un enfoque autorregresivo y su conocimiento del mundo real para ofrecer resultados de nivel profesional de manera más intuitiva y útil.

Es decir, permite crearlas a partir de simples descripciones textuales en la conversación y los archivos cargados, además de mejorar en las representaciones de texto, el seguimiento de indicaciones y la comprensión del contexto. Recordamos que GPT-4o permite interactuar con texto, audio e imagen y se espera que lo haga también con vídeo.

Gestiona hasta 10 o 20 objetos diferentes

Como la generación de imágenes es nativa de GPT-4o, el modelo puede aprovechar tanto las imágenes y el texto del contexto de la conversación para que la coherencia de la imagen se mantenga en todo momento. Esto significa que si estás diseñando un personaje, su apariencia se va a mantener en esencia a medida que se va perfeccionando.

OpenAI asegura en un comunicado que, mientras otros sistemas tienen dificultades con entre 5 y 8 objetos, GPT-4o puede gestionar hasta 10 o 20 objetos diferentes. Añaden que este es el fruto de un año de trabajo junto con un centenar de entrenadores humanos que han sido capaces de hacer que el modelo comprenda mejor las indicaciones, permitiendo crear imágenes más realistas.

Estas son las aplicaciones clave que incluye

  • Generación de imágenes para trabajos: diagramas, infografías, gráficos promocionales para redes sociales con códigos hexadecimales, logotipos, instrucciones complejas.
  • Imágenes con alto contenido de texto: carteles de instrucciones, visualización de conceptos de aprendizaje, marcas de texto, tarjetas de presentación.
  • Resultados para uso externo con opciones de personalización: fotos de stock personalizadas con fondo transparente para diapositivas.
  • Imágenes fotográficas de alta calidad y realismo: capacidad avanzada para el fotorrealismo, incluyendo precisión en la iluminación, sombras y texturas.
  • Capacidad de usar una imagen como punto de partida: personalización de una pintura de una mascota, edición de retratos, inspiración para decoración de interiores basada en una imagen de un espacio real.
  • Imágenes que aprovechan la conversación y el contexto real: carteles de aves encontradas en Central Park, visualización de una era de la historia del arte discutida previamente en la conversación.

Ejemplo de prompt de OpenAI

El siguiente ejemplo refleja a la perfección el nivel de detalle y precisión al crear la imagen con el modelo GPT-4o.

Crea una imagen fotorrealista de dos brujas de veintitantos años (una con balayage ceniza y la otra con cabello castaño rojizo largo y ondulado) leyendo una señal de tráfico.

Contexto: una calle cualquiera de Williamsburg, Nueva York, con un poste cubierto por numerosas señales detalladas (por ejemplo, horarios de barrido, permisos de estacionamiento, clasificación de vehículos y normas de remolque), incluyendo algunas señales ridículas en el centro: (parafraseando para que estas señales sean legítimas) "Estacionamiento de escobas para brujas no permitido en la Zona C", "Carga y descarga de alfombras mágicas solo (límite de 15 minutos)" y "Estacionamiento de renos solo con permiso (24-25 de diciembre)". Los infractores serán incluidos en la lista de los traviesos. La señal está a la derecha de una calle. No se deben repetir las señales. Las señales deben ser realistas.

Personajes: una bruja sostiene una escoba y la otra tiene una alfombra mágica enrollada. Están en primer plano, de espaldas a la cámara y con la cabeza ligeramente inclinada mientras examinan los carteles.

Composición de fondo a primer plano: calles + coches aparcados + edificios -> cartel de calle -> brujas. Los personajes deben estar lo más cerca posible de la cámara que toma la foto.

Disponibilidad

La nueva generación de imágenes con GPT-4o comenzará a implementarse para los usuarios de ChatGPT Plus, Pro, Team y Free como la herramienta de generación de imágenes predeterminada en el modelo 4o. También estará disponible en Sora y los niveles ChatGPT Enterprise y Edu tendrán acceso próximamente.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.