Transformando bocetos en obras de arte: La IA revoluciona la creatividad móvil

Qualcomm ControlNet showing a sketch of a kitten turning into a more artistic drawing of a kitten
(Crédito de imagen: Qualcomm)

La generación de imágenes de IA local y móvil se perfila como la próxima tendencia revolucionaria. Muchos de nosotros ya hemos experimentado en cierta medida con la creación de imágenes generativas, donde ingresamos un mensaje en un campo de texto y obtenemos resultados sorprendentes a través de plataformas en línea como Stable Diffusion, Midjourney o DALL-E. Sin embargo, todas estas plataformas comparten un requisito común: la necesidad de una conexión a Internet. Pero ¿qué sucedería si pudiéramos lograr una creación de imágenes generativas de IA igual de impresionante, e incluso mejor, directamente desde nuestros teléfonos sin conexión a la nube? Qualcomm cree que ha encontrado una solución con ControlNet.

Presentado recientemente en la Conferencia de reconocimiento de patrones y visión por computadora (CVPR) en Vancouver, Canadá, ControlNet es un innovador modelo de generación de imágenes de IA móvil que ofrece dos beneficios muy atractivos. En primer lugar, el modelo es local, lo que significa que puede funcionar en casi cualquier plataforma sin requerir una conexión en línea. Esto representa una gran ventaja en términos de accesibilidad y flexibilidad. En segundo lugar, a diferencia de utilizar únicamente texto para generar imágenes de IA, ControlNet parte de una imagen inicial proporcionada por el usuario y la manipula en función de un mensaje de texto.

En resumen, ControlNet abre la puerta a la creación de imágenes de IA generativas directamente desde nuestros teléfonos móviles, sin necesidad de conectividad en línea. Este enfoque híbrido, que combina imágenes iniciales y texto, promete resultados aún más fascinantes y personalizados. La presentación de ControlNet en la CVPR ha generado gran expectativa en la comunidad de reconocimiento de patrones y visión por computadora, señalando un emocionante avance en la democratización de la creación de imágenes generativas de IA.

De cierta manera, esto guarda similitudes con Firefly AI de Adobe, que puede generar elementos de IA para mejorar imágenes preexistentes. No obstante, este modelo también requiere de una conexión a internet para su funcionamiento.

ControlNet can start with almost any image and alter it based on your prompt.

ControlNet can start with almost any image and alter it based on your prompt. (Image credit: Qualcomm)

La presentación de este modelo de código abierto, que se basa en parte en Stable Diffusion pero añade quinientos millones de parámetros adicionales a los mil millones existentes del modelo, y que puede ser utilizado libremente por empresas de terceros, no es simplemente un acto altruista.

Si bien es cierto que ControlNet puede ejecutarse en sistemas operativos como Windows, Mac, iOS y Android, su rendimiento no será óptimo a menos que se ejecute en la plataforma Snapdragon de Qualcomm, especialmente en el procesador de señal digital (DSP) Hexagon presente en el procesador móvil Snapdragon 8 Gen. 2, como el que se encuentra en el Samsung Galaxy S23 Ultra.

Yes, even a simple sketch will work and Qualcomm ControlNet can turn it into something interesting.

Yes, even a simple sketch will work and Qualcomm ControlNet can turn it into something interesting. (Image credit: Qualcomm)

En las demostraciones que presencié, ControlNet demostró su capacidad para transformar una imagen de una monótona oficina en un tema de los años 70 con paredes naranjas, y luego convertir las calles de Barcelona en fluidos canales. La fidelidad de la imagen de la oficina fue impresionante, mientras que la representación de Barcelona parecía salida de la imaginación de un apasionado Van Gogh.

ControlNet lleva a cabo su tarea al tomar las formas y estructuras básicas encontradas en las imágenes y trazar alrededor de ellas. No obstante, la velocidad y la calidad de los resultados implican que los desarrolladores de hardware y software de terceros seguramente mostrarán interés. Esto se debe especialmente a los beneficios evidentes de la computación local, algo que Apple ya favorece en gran medida para su trabajo en IA.

The Qualcomm ControlNet architecture.

The Qualcomm ControlNet architecture. (Image credit: Qualcomm)

ControlNet tiene la capacidad de generar imágenes nuevas o modificadas sin necesidad de utilizar fotografías en su formato completo. Incluso un boceto aproximado y un mensaje de texto pueden ser suficientes para producir algo interesante y potencialmente útil. En una muestra proporcionada por Qualcomm, se muestra un boceto aproximado de un gatito que se transforma en un gato surrealista, pero aún mantiene cierta similitud con el dibujo original.

Con la generación de IA local, la imagen inicial proporcionada no se envía nuevamente a la nube, ni se comparte con terceros ni se almacena en servidores remotos. Esto se ajusta a las preferencias de privacidad de la mayoría de los defensores, ya que se trata de un ciclo cerrado de procesamiento.

How ControlNet runs on device.

How ControlNet runs on device. (Image credit: Qualcomm)

Qualcomm está implementando los SDK de ControlNet para los desarrolladores que desean comenzar a programar y realizar pruebas en Hexagon.

Alexa Hernandez
Editor

Alexa Hernandez es amante de los animales, series, películas y tecnología. 

Aportaciones de