字节发布Seedance 2.0:统一多模态音视频生成模型,支持9图+3视频+3音频混合输入

SmartHey2月12日消息,今天,字节正式发布新一代视频创作模型 Seedance 2.0。

Seedance 2.0 采用统一的多模态音视频联合生成架构,全面支持文字、图片、音频、视频四种输入模态,集成了当前业界最完整的多模态内容参考与精细化编辑能力。

相较前代 Seedance 1.5,新版本在生成质量上实现显著跃升:在复杂交互与动态运动场景中的可用率更高,物理合理性、画面逼真度及用户指令可控性均大幅增强,更契合影视、广告、电商等工业级内容生产需求。

其核心升级亮点如下:

  • 复杂场景可用率业界领先:依托优异的运动稳定性与物理规律建模能力,模型在多人物协同、高动态运镜等复杂场景中表现稳健,生成结果可用率达当前行业最优(SOTA)水平。

  • 多模态融合能力全面强化:基于统一联合训练架构,支持图文声像混合输入——最多可同时提供9张参考图片、3段视频片段、3段音频素材及自然语言指令;模型能精准解析并复现输入中的构图逻辑、动作节奏、镜头调度、视觉特效与声音特征,真正突破传统视频生成的单一模态限制。

  • 视频全流程可控性显著提升:指令理解准确率与跨帧一致性明显优化,支持高质量视频延长、局部重绘、时序编辑等操作,让非专业用户也能以导演思维高效完成创意表达。

  • 深度适配工业化内容生产:原生支持15秒高质量多镜头音视频输出,具备双声道立体音频生成能力,视听还原度达专业水准;结合强大的参考驱动与非破坏性编辑功能,可显著降低影视制作、品牌广告、直播电商、游戏宣传等内容领域的创作门槛与时间成本。

目前,Seedance 2.0 已正式上线即梦AI、豆包等平台,面向创作者开放体验,欢迎提交使用反馈以助力持续迭代。