Happy Horse 1.0开源：全球首个端到端音视频联合生成AI模型，单卡H100仅38秒生成1080p带声视频

推荐 2026-04-09 06:41

字号

SmartHey4月9日消息，据AIPress报道，备受关注的AI视频生成模型Happy Horse 1.0正式开源。该模型以“拳打字节Seedance2.0、脚踢快手可灵”之势亮相，目前用户可通过其官网，使用文本提示或图片输入两种方式体验视频生成功能，不同模式对输出时长设有差异化限制。

Happy Horse 1.0的最大技术突破在于彻底打破传统音视频分离生成范式——它将视频与音频合成整合进单一推理流程。主流开源视频模型通常需分三步完成：先生成无声视频，再调用独立语音模型配音，最后借助额外工具进行唇形/动作对齐。这一串串工序不仅拖慢效率，还因模块间误差累积导致口型失准、声画不同步等问题。

而Happy Horse 1.0采用统一Transformer架构，仅需一次前向传播即可输出音画同步的完整成片：人物口型、脚步节奏、环境音效等全部由模型在去噪过程中自主协同生成，全程无需后期拼接或人工干预。

模型参数量为150亿，基于纯自注意力机制构建，摒弃了交叉注意力、专用音频分支及外部条件网络，整体设计贯彻极简哲学——将文本、图像、视频、音频统一编码为同一序列的token，让模型在扩散去噪过程中自发学习跨模态对齐关系。

其40层Transformer采用创新“三明治”结构：首尾各4层配备模态专属投影层，负责输入嵌入与输出解码；中间32层则完全共享参数，成为跨模态理解与生成的核心区域，也是整套架构中参数利用效率最高的部分。

为保障多模态联合训练稳定性，每个注意力头均集成一个可学习标量门控单元，经Sigmoid激活后动态调节梯度流——有效缓解音频损失与视频损失反向传播时的冲突问题。

在推理速度方面，Happy Horse 1.0引入DMD-2蒸馏技术（Distribution Matching Distillation v2），将典型去噪步数从25–50步大幅压缩至仅8步，并取消无分类器引导（CFG）依赖，单此项即降低近50%计算开销；叠加MagiCompiler全图编译运行时带来的约1.2倍加速，在单张NVIDIA H100 GPU上，生成一段1080p分辨率视频仅需约38秒，256p预览版更可在2秒内实时输出。

值得一提的是，模型原生支持英语、普通话、粤语、日语、韩语、德语和法语共七种语言的精准唇形同步。所有语言的发音韵律、口型运动与语音时序均在训练阶段与视频内容联合建模，绝非后期合成或规则驱动贴合。