Google lanza Imagen 3, el nuevo generador de imágenes por IA de Gemini

(Crédito de imagen: Google)

El generador de imágenes más avanzado de Google ya está disponible, meses después de que el gigante tecnológico lo anunciara en el evento Google I/O de este año. El modelo Imagen 3 ya está disponible en la plataforma Gemini AI de Google, tanto en su versión gratuita como en el servicio Gemini Advanced por suscripción, así como en los productos empresariales de Google. Está claro que Google tiene mucho interés en que Imagen 3 compita con la creciente competencia entre los generadores de imágenes de IA con su propio enfoque para convertir palabras en imágenes.

Al igual que sus predecesores, Imagen 3 puede crear imágenes de cualquier estilo, incluidos los paisajes fotorrealistas y los dibujos animados de plastilina que se ven arriba. La nueva versión mejora a Imagen 2 en muchos aspectos, sobre todo a la hora de crear imágenes de personas. La empresa ha insinuado que Imagen 3 no caerá en los errores históricos que avergonzaron a la empresa a principios de año. Dicho esto, las «personas fotorrealistas e identificables» siguen estando prohibidas.

Imagen 3 también incluye las opciones de edición en tiempo real detectadas en el código el mes pasado. Puedes decirle a Gemini tu opinión sobre las imágenes generadas e indicarle a la IA que las cambie de la forma que prefieras. La empresa no mencionó la posibilidad de marcar con un círculo la parte de la imagen que se desea ajustar, pero es posible que esto se incluya más adelante. Imagen 3 se ha integrado en Gemini, empezando en inglés, pero con más idiomas en camino. Se supone que Imagen 3 será el principal atractivo de Gemini, al que Google parece querer que la gente recurra como opción predeterminada, del mismo modo que mucha gente recurre sin pensarlo a su motor de búsqueda.

Guerra de imágenes AI

Imagen 3 también continúa el marcado visual de Google con la herramienta SynthID, que permite poner marcas de agua a las imágenes generadas por IA y creadas con Gemini. SynthID incrusta marcas de agua invisibles en las imágenes, por lo que no se notará, pero cualquier intento de hacerla pasar por una foto real o algo que hayas pintado será desmentido rápidamente. Google lo describe como una forma de contrarrestar la desinformación y hacer más transparente el mundo de las imágenes de IA. SynthID es otra de las medidas de seguridad empleadas por Google para Imagen 3, junto con sus barreras contra la producción de imágenes de personas, imágenes violentas y otras escenas problemáticas.

Imagen 3 es un claro indicador de los rápidos avances en la creación de imágenes con IA y su integración en todo tipo de plataformas de creación de contenidos. Ese es un ámbito en el que Google tiene ventaja sobre la mayoría de sus complementarios. Ideogram, Midjourney y otros creadores de imágenes de IA tienden a ser herramientas independientes. Por otro lado, OpenAI cuenta con DALL-E como función clave para ChatGPT, y X ha integrado recientemente Flux en el chatbot Grok AI. Imagen 3 combinada con Gemini da a Google un impulso definitivo, pero no hay forma de saber cuál de los generadores de imágenes de IA dominará la carrera, si es que lo hace alguno.