云知声发布原生智能体大模型U2:聚焦任务交付,实现“少Token,深思考”
SmartHey6月8日消息,刚刚,云知声正式发布新一代通用大语言模型——U2。

U2是一款面向个人用户、开发者与企业组织打造的原生智能体大模型,其技术理念高度凝练:高智能密度 × 高Token价值。它摒弃盲目扩大参数规模的做法,转而追求单位计算资源下的更强认知与执行能力;也不再以输出长度为标尺,而是强调每一次Token调用都更贴近真实任务交付结果。
区别于传统大模型侧重单轮问答或短链路生成,U2核心突破在于面向真实任务的连续执行能力。在复杂办公、软件工程、深度研究及多工具协同等场景中,U2可自主拆解并推进超100步的长链路工作流,将需求理解、任务规划、环境交互、工具调用、过程纠错与结果验收整合为完整闭环,真正实现从“给出答案”到“完成任务”的跃迁。
权威评测稳居第一梯队
在最新发布的多项国内外主流能力评测中,U2已在推理、代码、Agent及办公交付等关键维度跻身头部阵营:

在高难度知识与复杂推理评测GPQA Diamond中,U2取得87.9分,超越GLM-5.1、Hy3 preview、DeepSeek-V4-Flash(High)和MiniMax M2.7,展现出对艰深问题的稳定理解、逻辑推演与求解能力。
在真实软件工程能力评测SWE-Bench Verified中,U2得分75分,进入主流模型第一梯队。
在面向自主Agent端到端执行能力的Claw-Eval(pass@3)中,U2达76.9分,领先Hy3 preview、DeepSeek-V4-Flash(High)和MiniMax M2.7,印证其在工具调度、流程编排与任务交付中的可靠性。
在聚焦真实办公交付能力的GDPval评测中,U2获得72.9分,覆盖资料分析、报告撰写、表格处理、图表生成、幻灯片制作等典型高价值办公任务,凸显扎实的专业应用实力。
这一系列成绩表明:U2并非依赖单项能力突围,而是在推理、编程、Agent执行与办公交付等多个维度形成系统性优势。
让AI原生能力深度融入真实工作流
对云知声而言,U2不仅是一个新模型代号,更是对AI 2.0时代大模型价值的重新定义。当大模型真正嵌入日常工作流,用户关注的已不再是“是否答得漂亮”,而是“能否把事办成”。
因此,U2从设计之初就定位为面向任务执行的原生智能体模型,而非仅适配聊天场景的通用语言模型。
真实工作流具有动态性、复杂性与长链路特征——模型需快速理解目标、拆解任务、探索路径,并在关键节点完成逻辑校准、约束检查与结果验证。传统显式思维链(CoT)虽具可解释性,但易导致大量中间文本生成,增加Token消耗与延迟;而纯隐式推理虽高效,却可能在复杂任务中出现逻辑漂移,缺乏可控性与可验证性。
为此,U2首创混合思考机制:不拘泥于显式或隐式推理的二元选择,而是依据任务阶段、复杂度与不确定性,动态切换思考形态。
在任务初期,U2优先于隐空间进行高效探索,完成路径搜索、任务拆解、方案生成与执行规划,避免将每一步中间思考强制解码为可见Token;当进入关键判断、强约束处理或结果收敛阶段,则自动切换至显式推理,通过清晰、可读、可校验的推理过程保障逻辑严谨性与决策准确性。
进一步地,U2引入两项核心技术:可控隐空间展开(Bounded Latent Rollout)与熵感知切换(Entropy-aware Switching)。模型能实时评估推理过程中的不确定性——若隐式探索稳定,则持续高效推进;若不确定性升高、路径存在发散风险,则即时回归显式思维链,借助确定性Token完成精准推导与结果收敛。
这意味着,U2并非简单压缩思维链,而是重构了模型的“思考分工”:将开放探索、路径规划等高开销环节内化至隐空间,而将逻辑验证、约束校准与结果收敛交由显式推理承担。由此,在显著减少冗余推理步骤与中间文本的同时,确保复杂任务的可靠性与可控性,真正践行“少Token,深思考”。
在知识底座方面,U2采用高知识密度数据精筛提纯技术,剔除重复、低质与幻觉内容,实现知识点级萃取;结合稀疏知识编码与知识蒸馏架构,压缩冗余参数,将高价值知识能力固化于更紧凑、高效的模型结构中。
在任务执行层面,U2创新提出Agent-Harness协同训练范式。Harness不是外部封装层,而是与模型能力同步演进的核心组件。U2将原生Agent能力提升与Harness优化纳入统一训练闭环:一方面,Harness基于U2特性持续优化执行链路;另一方面,真实任务中产生的高质量执行轨迹,反向强化模型的任务规划、工具调用、过程纠错与结果验收能力。
支撑这一闭环的,是一套务实的训练体系:U2不追求死记硬背标准答案,而是通过课程学习、过程监督、轨迹对比与多维奖励机制,教会模型如何在复杂任务中科学规划、稳健执行、主动纠错、严格验收。配合Agent-Harness协同进化,U2得以在真实任务轨迹中持续强化长链路执行能力,完成从“能聊天”到“能办事”的实质性跨越。
三大核心能力:Reasoning、Coding、Agent
围绕真实任务交付目标,U2重点构建并强化以下三大原生能力:
· Reasoning(深度推理):强调低偏差执行与长程逻辑稳定性。面对多步骤复杂任务,U2不仅能解答局部问题,更能始终锚定整体目标,动态权衡预算、时间、约束与可行性,输出更优综合方案。
· Coding(端到端编程):超越基础代码生成,直指工程级交付。U2可依据自然语言需求编写代码,亦能理解多文件项目结构,保持接口一致性、依赖完整性与调用逻辑正确性,并支持环境调试与自主Debug,持续推进任务闭环。
· Agent(智能体协同):强化多工具协同、长流程编排与动态环境交互能力。面对开放式目标,U2可自主拆解任务优先级,准确识别API能力边界,灵活组合调用不同工具,并依据外部系统反馈实时调整执行策略。
这三类能力有机融合,构成U2完整的任务交付闭环:先理解与规划,再执行与协作,最后校验与交付。正因如此,U2更适合在真实业务场景中接受检验,而非停留于单轮对话或孤立能力演示。
目前,U2已正式上线云知声Token Hub,全面向个人用户、开发者及企业组织开放使用。
