"No se trata solo de generar imágenes. Se trata de pensar" — ChatGPT Images 2.0 podría cambiar radicalmente la forma en que se crean imágenes con IA
El nuevo modelo de OpenAI se centra en mejorar la interpretación de indicaciones de imágenes complejas
- OpenAI ha lanzado ChatGPT Images 2.0
- El nuevo modelo de imágenes basado en IA mejora a su predecesor con imágenes más precisas, estructuradas y coherentes
- La actualización incorpora un paso de razonamiento que ayuda al sistema a interpretar mejor las indicaciones complejas y acerca a ChatGPT a las fortalezas multimodales de Gemini
OpenAI ha lanzado una importante actualización del generador de imágenes de ChatGPT. La empresa afirma que el nuevo ChatGPT Images 2.0 supone un cambio en la forma en que el chatbot de IA gestiona las solicitudes visuales, pasando de una interpretación rápida a algo más parecido a una construcción deliberada. El director ejecutivo de OpenAI, Sam Altman, y su equipo, en un anuncio transmitido en vivo, destacaron que las imágenes ahora se comportan más como respuestas, creadas a partir de una comprensión de lo que se le preguntó, en lugar de una aproximación imprecisa.
"Images 2.0 es un gran paso adelante", dijo Altman. «Es como pasar de GPT-3 a GPT-5 de un solo golpe. Su capacidad para crear cosas extremadamente hermosas es notable. El equipo realmente se lució con esta versión, y estamos ansiosos por ver qué harás con ella».
La mejora más evidente se nota en los lugares donde antes se producían errores. El texto dentro de las imágenes es el ejemplo más claro. Los carteles, los menús, las diapositivas y cualquier elemento que dependa de la legibilidad de las palabras solían ser poco fiables. Las letras se deformaban, el espaciado se alteraba y se perdía el significado.
El artículo continúa a continuación.También maneja la estructura con mayor seguridad. Si pides un diseño con elementos específicos en lugares específicos, es más probable que el resultado refleje esa intención. El modelo parece tratar la solicitud menos como una sugerencia y más como un conjunto de instrucciones.
Esto también se nota en detalles más pequeños. Las múltiples imágenes generadas a partir de la misma idea tienden a mantener una coherencia visual, ya sea conservando la reconocibilidad de un personaje o manteniendo un estilo común en todo el conjunto.
Haz una pausa antes de crear
El cambio más importante es la etapa de razonamiento que ChatGPT Images 2.0 incorpora antes de la generación, lo que permite al modelo analizar una solicitud antes de generar el resultado final.
En la práctica, esto significa que puede dividir una solicitud en partes, decidir cómo deben encajar esas partes y, luego, producir una imagen que refleje ese plan interno. También puede recurrir a contexto adicional, como archivos subidos u otras fuentes en línea. Eso significa que tarda un poco más en generar la imagen, pero ofrece un mejor resultado y, presumiblemente, te ahorrará tiempo al no requerir intentos repetidos.
Regístrese para recibir noticias de última hora, reseñas, opiniones, ofertas de alta tecnología y más.
Aquí es donde la generación de imágenes comienza a parecerse al comportamiento de los modelos de texto avanzados. El proceso ya no es puramente reactivo. Es interpretativo. El resultado refleja una secuencia de decisiones en lugar de un solo paso.
Ese cambio es más importante cuando la solicitud tiene múltiples capas. Un diseño de varias partes o una secuencia narrativa se beneficia de la capacidad del sistema para mantener esas piezas unidas.
Imágenes atractivas
A medida que se intensifica la competencia en el ámbito de la IA multimodal, OpenAI puede ahora presentar ChatGPT Images 2.0 como un rival más fuerte para Google Gemini. Gemini se ha centrado en gran medida en integrar texto, imágenes y contexto en un único sistema, conectando distintos ecosistemas digitales. A menudo, sus imágenes parecían mejores que las de ChatGPT en ese aspecto. Pero ChatGPT Images 2.0 reduce esa brecha.
Un mejor razonamiento, especialmente con el texto, significa que ChatGPT puede hacer mella en los puntos fuertes de Gemini en tareas estructuradas y multimodales. Esto no convierte a ChatGPT en un claro ganador, pero sí lo acerca a la paridad en más aspectos.
Los modelos de texto ya han establecido un estándar para respuestas fluidas y sensibles al contexto. Incorporar ese mismo tipo de razonamiento a la generación de imágenes comienza a unificar la experiencia. Ya sea que estés escribiendo algo o visualizándolo, el sistema funciona a partir de la misma comprensión subyacente. Ahí es hacia donde se dirigen claramente herramientas como ChatGPT y Gemini, y esta actualización se siente como un paso que hace tangible esa convergencia.
En última instancia, lo que más les importa a la mayoría de los usuarios es la reducción de la fricción y la mejora de las imágenes. Si ChatGPT Images 2.0 logra destacarse como la mejor opción, Google podría tener más dificultades para atraer a los usuarios a migrar o permanecer en su propia burbuja de IA.
Sigue a TechRadar en Google News y añádenos como fuente preferida para recibir nuestras noticias, reseñas y opiniones de expertos en tus feeds. ¡No olvides hacer clic en el botón «Seguir»!
Y, por supuesto, también puedes seguir a TechRadar en TikTok para ver noticias, reseñas y unboxings en formato de video, además de recibir actualizaciones periódicas de nuestra parte en WhatsApp.

➡️ Lee nuestra guía completa sobre las mejores laptops para empresas
1. La mejor en general:
Dell Precision 5690
2. La mejor "oferta":
Acer Aspire 5
3. La mejor MacBook:
Apple MacBook Pro 14-inch (M4)

- Eric Hal SchwartzContributor