阶跃星辰宣布开源语音模型Step-Audio-R1.1

推荐 2026-01-16 08:41

字号

SmartHey1月16日消息，据报道，全球知名权威大模型评测榜单 Artificial Analysis Speech Reasoning 更新，阶跃星辰原生语音推理模型 Step-Audio-R1.1 登顶榜首。

该榜单是目前业界评估“原生语音模型”（Native Audio Models）最权威的第三方基准之一，核心聚焦于模型直接处理音频并进行复杂逻辑推理的能力，主要评估维度包括准确率、首包延迟等关键指标。

与大语言模型类似，语音模型也需具备强大的推理能力，才能实现更高阶的智能表现和更自然的人机交互体验。Step-Audio-R1.1 以 96.4% 的准确率，超越 Grok、Gemini、GPT-Realtime 等主流一线模型，创下该榜单历史最佳成绩。

在性能与响应速度的综合表现上，Step-Audio-R1.1 全面领先同类语音模型。Step-Audio-R1 是由阶跃星辰发布的全球首个开源原生语音推理模型，能够不依赖额外时延，实现端到端的语音内容理解，真正做到“像人类一样听到对话即可思考”。

据悉，其核心能力涵盖深度语音推理、实时响应以及音频领域可扩展的思维链（CoT）。Step-Audio-R1.1 作为最新升级版本，在保持低延迟的同时，进一步增强了复杂语音推理与实时对话的表现力。

完整的实时语音 API 将于 2 月正式上线，当前开放的 chat 模式已集成 R1.1 核心，支持边想边说的流式推理体验。目前，Step-Audio-R1.1 的模型权重已上传至 HuggingFace，供开发者与研究社区使用。

猜你喜欢