Durante los últimos años hemos visto cómo los generadores de imágenes se volvían cada vez más espectaculares, más rápidos y también más populares. El problema es que una imagen llamativa no siempre sirve para trabajar con ella. Una cosa es pedir un gato astronauta y otra muy distinta obtener un cartel usable marketing, una viñeta coherente o una gráfica que respete lo que le hemos pedido. Ahí es donde OpenAI quiere mover ahora la conversación con su nuevo modelo: no tanto hacia la imagen bonita, sino hacia la imagen útil.
La respuesta. Lo que plantea OpenAI va en esa dirección. La empresa liderada por Sam Altman sostiene que su nuevo modelo no nace solo para generar imágenes atractivas, sino para resolver encargos visuales con más intención y menos ensayo y error. En la presentación ha llegado a afirmar que “las imágenes son un lenguaje, no decoración”, una forma bastante clara de resumir hacia dónde quiere llevar el producto en un presente con bastante competencia. La tesis es esa: que pedir una imagen en ChatGPT se parezca menos a lanzar un prompt creativo y más a encargar una pieza que podamos utilizar de verdad.
La pieza que faltaba. Si la firma quiere que hablemos de algo más que de imágenes vistosas, tenía que mejorar justo los puntos donde estos modelos suelen fallar. Aquí prometen cambios importantes en tres frentes muy concretos: seguir instrucciones complejas con más precisión, organizar mejor los elementos dentro de la imagen y reproducir texto denso con mayor fiabilidad. Dicho de otro modo, no se busca solo resultados más bonitos, sino menos ambiguos y más controlables.
Pensar antes de dibujar. Una de las novedades que OpenAI intenta destacar con más fuerza es que este es su primer modelo de imagen con capacidades de razonamiento. Traducido al terreno práctico, la compañía sostiene que, cuando se elige un modelo con “thinking” dentro de ChatGPT, el sistema puede tomarse más tiempo, estructurar mejor la tarea, apoyarse en la web para buscar información actualizada y revisar sus propios resultados antes de entregar la imagen. Y lo hemos probado, pidiéndole la imagen de dos personas caminando por la Gran Vía, en Madrid, a la altura de Cines Callao, y unos apuntes sobre actividades para realizar en España durante mayo. Se trata de las imágenes que podemos ver en la imagen de portada.
Las claves. OpenAI habla de prototipado de juegos, storyboards, creatividades de marketing, cómics, gráficos sociales y otros materiales donde importan tanto el contenido como la forma. Para sostener esa ambición, la compañía dice haber mejorado en dos frentes delicados: el manejo de texto no latino, con avances especialmente en japonés, coreano, chino, hindi y bengalí, y la reproducción más fiel de estilos visuales muy marcados. También amplía los formatos posibles, con proporciones de hasta 3:1 y 1:3, resolución de hasta 2K y, en ciertos modos, la posibilidad de generar hasta diez imágenes dentro de una misma petición con continuidad entre personajes y objetos.
El contexto competitivo. Este anuncio tampoco puede leerse como si OpenAI hubiese descubierto de repente un mercado nuevo. Midjourney ya se ha convertido en una referencia clara para trabajos con una fuerte carga artística, Nano Banana ha llamado la atención por su capacidad de edición conversacional y FLUX 2 se ha hecho fuerte en el fotorrealismo. Con ese tablero delante, la compañía parece buscar otro ángulo. Más que disputar cada terreno por separado, intenta presentar ChatGPT como un entorno donde la imagen no se genera de forma aislada, sino como parte de un flujo más amplio, algo que sobre el papel puede resultar atractivo si realmente cumple lo que promete.
En Xataka
Anthropic no ha subido el precio de Claude. Ha inventado algo mejor: la inflación de tokens
Ya empieza a desplegarse: una de las claves del anuncio es que OpenAI asegura que el modelo no se queda en fase de escaparate, sino que empieza a llegar ya a producto. La compañía sitúa su despliegue en ChatGPT para todos los usuarios, incluidos Free y Go, y asocia los resultados más avanzados a Plus y Pro, según recoge también Engadget. Además, lo lleva a la API y a Codex, señal de que no quiere limitarlo al uso casual dentro del chat. Si su estrategia pasa por convertir la imagen en una herramienta de trabajo más, tenía sentido que el despliegue empezara precisamente por ahí.
Imágenes | Xataka con ChatGPT Images 2.0 | OpenAI
En Xataka | Amazon quiere salir ganador de la carrera IA a cualquier precio. Por eso ha invertido a la vez en Anthropic y OpenAI
-
La noticia
La IA ya sabía crear imágenes. OpenAI dice haber dado con la pieza que faltaba con el nuevo ChatGPT Images 2.0
fue publicada originalmente en
Xataka
por
Javier Marquez
.
La IA ya sabía crear imágenes. OpenAI dice haber dado con la pieza que faltaba con el nuevo ChatGPT Images 2.0
OpenAI dice haber mejorado justo donde más fallan estos modelos, precisión, texto y coherencia visual
Su nuevo sistema de imágenes quiere ir más allá del impacto estético y convertirse en una herramienta útil dentro de ChatGPT
Durante los últimos años hemos visto cómo los generadores de imágenes se volvían cada vez más espectaculares, más rápidos y también más populares. El problema es que una imagen llamativa no siempre sirve para trabajar con ella. Una cosa es pedir un gato astronauta y otra muy distinta obtener un cartel usable marketing, una viñeta coherente o una gráfica que respete lo que le hemos pedido. Ahí es donde OpenAI quiere mover ahora la conversación con su nuevo modelo: no tanto hacia la imagen bonita, sino hacia la imagen útil.
La respuesta. Lo que plantea OpenAI va en esa dirección. La empresa liderada por Sam Altman sostiene que su nuevo modelo no nace solo para generar imágenes atractivas, sino para resolver encargos visuales con más intención y menos ensayo y error. En la presentación ha llegado a afirmar que “las imágenes son un lenguaje, no decoración”, una forma bastante clara de resumir hacia dónde quiere llevar el producto en un presente con bastante competencia. La tesis es esa: que pedir una imagen en ChatGPT se parezca menos a lanzar un prompt creativo y más a encargar una pieza que podamos utilizar de verdad.
La pieza que faltaba. Si la firma quiere que hablemos de algo más que de imágenes vistosas, tenía que mejorar justo los puntos donde estos modelos suelen fallar. Aquí prometen cambios importantes en tres frentes muy concretos: seguir instrucciones complejas con más precisión, organizar mejor los elementos dentro de la imagen y reproducir texto denso con mayor fiabilidad. Dicho de otro modo, no se busca solo resultados más bonitos, sino menos ambiguos y más controlables.
Pensar antes de dibujar. Una de las novedades que OpenAI intenta destacar con más fuerza es que este es su primer modelo de imagen con capacidades de razonamiento. Traducido al terreno práctico, la compañía sostiene que, cuando se elige un modelo con “thinking” dentro de ChatGPT, el sistema puede tomarse más tiempo, estructurar mejor la tarea, apoyarse en la web para buscar información actualizada y revisar sus propios resultados antes de entregar la imagen. Y lo hemos probado, pidiéndole la imagen de dos personas caminando por la Gran Vía, en Madrid, a la altura de Cines Callao, y unos apuntes sobre actividades para realizar en España durante mayo. Se trata de las imágenes que podemos ver en la imagen de portada.
Las claves. OpenAI habla de prototipado de juegos, storyboards, creatividades de marketing, cómics, gráficos sociales y otros materiales donde importan tanto el contenido como la forma. Para sostener esa ambición, la compañía dice haber mejorado en dos frentes delicados: el manejo de texto no latino, con avances especialmente en japonés, coreano, chino, hindi y bengalí, y la reproducción más fiel de estilos visuales muy marcados. También amplía los formatos posibles, con proporciones de hasta 3:1 y 1:3, resolución de hasta 2K y, en ciertos modos, la posibilidad de generar hasta diez imágenes dentro de una misma petición con continuidad entre personajes y objetos.
El contexto competitivo. Este anuncio tampoco puede leerse como si OpenAI hubiese descubierto de repente un mercado nuevo. Midjourney ya se ha convertido en una referencia clara para trabajos con una fuerte carga artística, Nano Banana ha llamado la atención por su capacidad de edición conversacional y FLUX 2 se ha hecho fuerte en el fotorrealismo. Con ese tablero delante, la compañía parece buscar otro ángulo. Más que disputar cada terreno por separado, intenta presentar ChatGPT como un entorno donde la imagen no se genera de forma aislada, sino como parte de un flujo más amplio, algo que sobre el papel puede resultar atractivo si realmente cumple lo que promete.
Ya empieza a desplegarse: una de las claves del anuncio es que OpenAI asegura que el modelo no se queda en fase de escaparate, sino que empieza a llegar ya a producto. La compañía sitúa su despliegue en ChatGPT para todos los usuarios, incluidos Free y Go, y asocia los resultados más avanzados a Plus y Pro, según recoge también Engadget. Además, lo lleva a la API y a Codex, señal de que no quiere limitarlo al uso casual dentro del chat. Si su estrategia pasa por convertir la imagen en una herramienta de trabajo más, tenía sentido que el despliegue empezara precisamente por ahí.