Happy Horse 1.0开源:全球首个端到端音视频联合生成AI模型,单卡H100仅38秒生成1080p带声视频

SmartHey4月9日消息,据AIPress报道,备受关注的AI视频生成模型Happy Horse 1.0正式开源。该模型以“拳打字节Seedance2.0、脚踢快手可灵”之势亮相,目前用户可通过其官网,使用文本提示或图片输入两种方式体验视频生成功能,不同模式对输出时长设有差异化限制。

Happy Horse 1.0的最大技术突破在于彻底打破传统音视频分离生成范式——它将视频与音频合成整合进单一推理流程。主流开源视频模型通常需分三步完成:先生成无声视频,再调用独立语音模型配音,最后借助额外工具进行唇形/动作对齐。这一串串工序不仅拖慢效率,还因模块间误差累积导致口型失准、声画不同步等问题。

而Happy Horse 1.0采用统一Transformer架构,仅需一次前向传播即可输出音画同步的完整成片:人物口型、脚步节奏、环境音效等全部由模型在去噪过程中自主协同生成,全程无需后期拼接或人工干预。

模型参数量为150亿,基于纯自注意力机制构建,摒弃了交叉注意力、专用音频分支及外部条件网络,整体设计贯彻极简哲学——将文本、图像、视频、音频统一编码为同一序列的token,让模型在扩散去噪过程中自发学习跨模态对齐关系。

其40层Transformer采用创新“三明治”结构:首尾各4层配备模态专属投影层,负责输入嵌入与输出解码;中间32层则完全共享参数,成为跨模态理解与生成的核心区域,也是整套架构中参数利用效率最高的部分。

为保障多模态联合训练稳定性,每个注意力头均集成一个可学习标量门控单元,经Sigmoid激活后动态调节梯度流——有效缓解音频损失与视频损失反向传播时的冲突问题。

在推理速度方面,Happy Horse 1.0引入DMD-2蒸馏技术(Distribution Matching Distillation v2),将典型去噪步数从25–50步大幅压缩至仅8步,并取消无分类器引导(CFG)依赖,单此项即降低近50%计算开销;叠加MagiCompiler全图编译运行时带来的约1.2倍加速,在单张NVIDIA H100 GPU上,生成一段1080p分辨率视频仅需约38秒,256p预览版更可在2秒内实时输出。

值得一提的是,模型原生支持英语、普通话、粤语、日语、韩语、德语和法语共七种语言的精准唇形同步。所有语言的发音韵律、口型运动与语音时序均在训练阶段与视频内容联合建模,绝非后期合成或规则驱动贴合。