2026-02-16T13:22:06+01:00

Seedance 2.0, el modelo de creación de videos de próxima generación

Juan Cascón Baños Actualizada: 16/02/2026 13:22 Creada: 16/02/2026 Destacada, Internet, Tecnología

Hoy lanzan oficialmente Seedance 2.0, el modelo de creación de videos de próxima generación.¡Nuevo salto evolutivo en la IA para generar vídeos! Te hablamos del nuevo Seedance 2.0 de ByteDance, la empresa detrás de TikTok.

Seedance es un modelo de inteligencia artificial creado por ByteDance, la empresa creadora de la red social TikTok. Este modelo sirve para generar vídeo a partir de texto, siendo la competencia de modelos como Veo de Google o Sora de OpenAI.

La verdad es que ByteDance es una de las cinco empresas chinas más relevantes en IA. De hecho, tiene una familia propia de modelos llamada Seed, en la que tenemos un Seedream para crear imágenes, Seededit para editar imágenes, Seed3D para crear modelos en tres dimensiones, Seed LiveInterpret para traducir voz en tiempo real, Seed-Music para crear música y más.

Seedance 2.0 adopta una arquitectura unificada de generación conjunta de audio y video multimodal, admite cuatro entradas modales: texto, imágenes, audio y video, e integra las capacidades de edición y referencia de contenido multimodal más completas de la industria.

Seedance 2.0 de ByteDance aprovecha la entrada multimodal para generar vídeos realistas con sonido estéreo. Los usuarios pueden introducir simultáneamente texto, hasta nueve imágenes, tres clips de vídeo y tres clips de audio e indicar sus instrucciones mediante lenguaje natural para tener mayor control sobre lo que quieren generar. manteniendo una consistencia estable del tema.

En comparación con la versión 1.5, Seedance 2.0 ha mejorado significativamente la calidad de su producción. Es más útil en escenarios complejos de interacción y movimiento, y su precisión física, realismo y controlabilidad se han mejorado significativamente, lo que lo hace más adecuado para las necesidades de escenarios creativos de nivel industrial.

Sus aspectos más destacados son los siguientes:

Mayor disponibilidad en escenarios complejos: con su excelente estabilidad de movimiento y capacidades de reproducción física, el modelo funciona bien en la interacción de múltiples sujetos y en escenarios de movimiento complejos, logrando una disponibilidad de última generación (SOTA) en la industria.
Capacidades multimodales significativamente mejoradas : Basado en una arquitectura unificada de audio y video multimodal para entrenamiento, admite entrada modal mixta, lo que permite a los usuarios introducir simultáneamente hasta 9 imágenes, 3 videoclips, 3 audioclips y comandos de lenguaje natural. El modelo puede referirse a elementos como composición, acción, movimiento de cámara, efectos especiales y sonido en los materiales de entrada, rompiendo así las barreras de la generación de video tradicional.
La capacidad de control de la generación de video se ha mejorado enormemente: el cumplimiento y la consistencia de las instrucciones del modelo se han mejorado integralmente y admite una extensión de video y una edición de video estables y controlables, lo que permite a los usuarios comunes controlar fácilmente todo el proceso de creación de video como un director.
Gran compatibilidad con la creación de contenido de nivel industrial: El modelo admite salida de audio y video multicámara de alta calidad de 15 segundos, tiene capacidad de audio de doble canal y puede lograr efectos audiovisuales extremadamente realistas. Combinado con funciones de referencia y edición, puede reducir significativamente los costos de producción de contenido para cine, publicidad, comercio electrónico, videojuegos y otros escenarios.