字节发布Seedance 2.0：统一多模态音视频生成模型，支持9图+3视频+3音频混合输入

推荐 2026-02-12 13:56

字号

SmartHey2月12日消息，今天，字节正式发布新一代视频创作模型 Seedance 2.0。

Seedance 2.0 采用统一的多模态音视频联合生成架构，全面支持文字、图片、音频、视频四种输入模态，集成了当前业界最完整的多模态内容参考与精细化编辑能力。

相较前代 Seedance 1.5，新版本在生成质量上实现显著跃升：在复杂交互与动态运动场景中的可用率更高，物理合理性、画面逼真度及用户指令可控性均大幅增强，更契合影视、广告、电商等工业级内容生产需求。

其核心升级亮点如下：

复杂场景可用率业界领先：依托优异的运动稳定性与物理规律建模能力，模型在多人物协同、高动态运镜等复杂场景中表现稳健，生成结果可用率达当前行业最优（SOTA）水平。
多模态融合能力全面强化：基于统一联合训练架构，支持图文声像混合输入——最多可同时提供9张参考图片、3段视频片段、3段音频素材及自然语言指令；模型能精准解析并复现输入中的构图逻辑、动作节奏、镜头调度、视觉特效与声音特征，真正突破传统视频生成的单一模态限制。
视频全流程可控性显著提升：指令理解准确率与跨帧一致性明显优化，支持高质量视频延长、局部重绘、时序编辑等操作，让非专业用户也能以导演思维高效完成创意表达。
深度适配工业化内容生产：原生支持15秒高质量多镜头音视频输出，具备双声道立体音频生成能力，视听还原度达专业水准；结合强大的参考驱动与非破坏性编辑功能，可显著降低影视制作、品牌广告、直播电商、游戏宣传等内容领域的创作门槛与时间成本。

目前，Seedance 2.0 已正式上线即梦AI、豆包等平台，面向创作者开放体验，欢迎提交使用反馈以助力持续迭代。

猜你喜欢