Alibaba Introduce el Modelo de Código Abierto Wan2.2-S2V para la Generación de Vídeos Digitales
Alibaba ha presentado su último modelo de código abierto, Wan2.2-S2V (Speech-to-Video), diseñado específicamente para la creación de vídeos de humanos digitales. Este innovador modelo transforma fotos de retratos en avatares de calidad cinematográfica, capaces de hablar, cantar y actuar. Parte de la serie de generación de vídeos Wan2.2, el nuevo modelo puede generar vídeos animados de alta calidad a partir de una única imagen y un clip de audio.
Con capacidades versátiles de animación de personajes, Wan2.2-S2V permite la creación de vídeos en múltiples opciones de encuadre, incluyendo retrato, busto y cuerpo completo. Puede generar acciones de personajes y factores ambientales de manera dinámica basándose en las instrucciones dadas, lo que permite a los creadores de contenido profesionales capturar representaciones visuales precisas adaptadas a requisitos específicos de narración y diseño.
Transformación de la Expresión Artística
Impulsado por una avanzada tecnología de animación basada en audio, Wan2.2-S2V ofrece actuaciones de personajes realistas que van desde diálogos naturales hasta interpretaciones musicales. Además, maneja múltiples personajes dentro de una escena, permitiendo que los creadores transformen grabaciones de voz en movimientos animados vívidos, apoyando una amplia gama de avatares, desde personajes de dibujos animados hasta animales y figuras estilizadas.
Para satisfacer las diversas necesidades de los creadores de contenido profesionales, la tecnología proporciona resoluciones de salida flexibles de 480P y 720P. Esto garantiza una calidad visual que cumple con varios estándares profesionales y creativos, siendo adecuada tanto para contenido en redes sociales como para presentaciones profesionales.
Tecnologías Innovadoras de Wan2.2-S2V
El modelo Wan2.2-S2V supera las animaciones tradicionales de cabezas parlantes al combinar el control de movimiento global guiado por texto con movimientos locales de alta precisión impulsados por audio. Esto permite performances de personajes naturales y expresivas en escenarios complejos y desafiantes.
Otro avance clave radica en la técnica innovadora de procesamiento de fotogramas del modelo. Al comprimir fotogramas históricos de longitud arbitraria en una única representación latente compacta, la tecnología reduce significativamente la sobrecarga computacional. Este enfoque permite una generación de vídeos largos sorprendentemente estable, abordando un desafío crítico en la producción de contenido animado prolongado.
Metodología de Entrenamiento y Acceso al Modelo
Las capacidades avanzadas del modelo se amplifican aún más mediante su metodología de entrenamiento integral. El equipo de investigación de Alibaba construyó un conjunto de datos audiovisual a gran escala específicamente adaptado a escenarios de producción de cine y televisión. Usando un enfoque de entrenamiento multi-resolución, Wan2.2-S2V soporta la generación flexible de vídeos en diversos formatos, desde contenido corto vertical hasta producciones tradicionales de cine y televisión.
El modelo Wan2.2-S2V está disponible para su descarga en Hugging Face y GitHub, así como en la comunidad de código abierto de Alibaba Cloud, ModelScope. Como un contribuyente importante a la comunidad global de código abierto, Alibaba abrió los modelos Wan2.1 en febrero de 2025 y los modelos Wan2.2 en julio. Hasta la fecha, la serie Wan ha generado más de 6,9 millones de descargas en Hugging Face y ModelScope.
Acerca de Alibaba Group
Alibaba Group es una empresa tecnológica global centrada en el comercio electrónico y la computación en la nube. Facilitamos que comerciantes, marcas y minoristas comercialicen, vendan y se relacionen con consumidores al proporcionar infraestructura digital, herramientas de eficiencia y un amplio alcance de marketing. Empoderamos a las empresas con nuestra infraestructura de nube líder, servicios y capacidades de colaboración laboral para facilitar su transformación digital y hacer crecer sus negocios.
Para más información, visite: Alibaba Introduces Open-Source Model for Digital Human Video Generation
Nota: Este contenido original ha sido modificado con IA y revisado por un especialista. Imagen generada por IA.












