Estás en Telenord Medios

Puedes continuar navegando en esta versión o visitar nuestra web de Servicios.

Skip to main content

Ni ChatGPT ni Gemini: esta IA china genera imágenes en pocos segundos

Alibaba presentó un nuevo modelo de IA con el que busca hacer frente a los gigantes de la industria. Conocido como Qwen-Vlo, este modelo multimodal puede generar y modificar imágenes a partir de entradas de texto. La nueva IA cuenta con una característica que la distingue de otros modelos como Imagen o el generador de ChatGPT.

De acuerdo con una publicación en su blog, Alibaba Group presentó el nuevo integrante de su familia de modelos de IA. Qwen-Vlo es un modelo unificado de comprensión y generación multimodal que puede procesar texto, imágenes, audio y video. Una de sus funciones más importantes es la generación y modificación de imágenes.

Alibaba asegura que su IA "entiende" el mundo y es capaz de construir recreaciones de alta calidad. El gigante chino define a Qwen-Vlo como un motor creativo de IA que permite a los usuarios generar escenas complejas paso a paso. Esto último es posible gracias a una técnica de generación progresiva en la que los usuarios pueen visualizar cómo se construye la imagen en tiempo real.

A diferencia de DALL-E y Stable Difussion que utilizan técnicas de generación difusa a partir de ruido aleatorio, Qwen-VLo construye la imagen paso a paso. La generación progresiva permite visualizar el proceso como si la IA estuviera dibujando en tiempo real, de izquierda a derecha y de arriba hacia abajo. Esto se logra a partir de una estructura básica o imagen borrosa, a partir de la cual se van añadiendo capas de detalle como contornos, colores, texturas y refinamientos.

Qwen-VLo genera las imágenes paso a paso
La compañía señala que esta técnica ofrece una mayor sensación de transparencia al usuario y le da poderes para editar la imagen durante la generación. Qwen-VLo también puede modificar imágenes existentes, cambiando el color o estilo sin sacrificar la estructura. Por ejemplo, puedes cargar una foto y pedirle que la convierta a estilo Ghibli o Pixar, como lo vimo
Qwen VLo, la IA de Alibaba que genera imágenes como ChatGPT
Otras capacidades incluyen la posibilidad de sustituir el fondo, añadir o eliminar sujetos, transferir estilos o modificar la imagen usando instrucciones con lenguaje natural. Qwen-VLo es compatible con varios idiomas, por lo que podremos escribir el prompt en español, inglés o chino. Alibaba presume que su modelo "rompe las barreras lingüísticas" y siempre entregará el resultado deseado.