云知声发布原生智能体大模型U2：聚焦任务交付，实现“少Token，深思考”

推荐 2026-06-08 09:06

字号

SmartHey6月8日消息，刚刚，云知声正式发布新一代通用大语言模型——U2。

U2是一款面向个人用户、开发者与企业组织打造的原生智能体大模型，其技术理念高度凝练：高智能密度 × 高Token价值。它摒弃盲目扩大参数规模的做法，转而追求单位计算资源下的更强认知与执行能力；也不再以输出长度为标尺，而是强调每一次Token调用都更贴近真实任务交付结果。

区别于传统大模型侧重单轮问答或短链路生成，U2核心突破在于面向真实任务的连续执行能力。在复杂办公、软件工程、深度研究及多工具协同等场景中，U2可自主拆解并推进超100步的长链路工作流，将需求理解、任务规划、环境交互、工具调用、过程纠错与结果验收整合为完整闭环，真正实现从“给出答案”到“完成任务”的跃迁。

权威评测稳居第一梯队

在最新发布的多项国内外主流能力评测中，U2已在推理、代码、Agent及办公交付等关键维度跻身头部阵营：

在高难度知识与复杂推理评测GPQA Diamond中，U2取得87.9分，超越GLM-5.1、Hy3 preview、DeepSeek-V4-Flash（High）和MiniMax M2.7，展现出对艰深问题的稳定理解、逻辑推演与求解能力。

在真实软件工程能力评测SWE-Bench Verified中，U2得分75分，进入主流模型第一梯队。

在面向自主Agent端到端执行能力的Claw-Eval（pass@3）中，U2达76.9分，领先Hy3 preview、DeepSeek-V4-Flash（High）和MiniMax M2.7，印证其在工具调度、流程编排与任务交付中的可靠性。

在聚焦真实办公交付能力的GDPval评测中，U2获得72.9分，覆盖资料分析、报告撰写、表格处理、图表生成、幻灯片制作等典型高价值办公任务，凸显扎实的专业应用实力。

这一系列成绩表明：U2并非依赖单项能力突围，而是在推理、编程、Agent执行与办公交付等多个维度形成系统性优势。

让AI原生能力深度融入真实工作流

对云知声而言，U2不仅是一个新模型代号，更是对AI 2.0时代大模型价值的重新定义。当大模型真正嵌入日常工作流，用户关注的已不再是“是否答得漂亮”，而是“能否把事办成”。

因此，U2从设计之初就定位为面向任务执行的原生智能体模型，而非仅适配聊天场景的通用语言模型。

真实工作流具有动态性、复杂性与长链路特征——模型需快速理解目标、拆解任务、探索路径，并在关键节点完成逻辑校准、约束检查与结果验证。传统显式思维链（CoT）虽具可解释性，但易导致大量中间文本生成，增加Token消耗与延迟；而纯隐式推理虽高效，却可能在复杂任务中出现逻辑漂移，缺乏可控性与可验证性。

为此，U2首创混合思考机制：不拘泥于显式或隐式推理的二元选择，而是依据任务阶段、复杂度与不确定性，动态切换思考形态。

在任务初期，U2优先于隐空间进行高效探索，完成路径搜索、任务拆解、方案生成与执行规划，避免将每一步中间思考强制解码为可见Token；当进入关键判断、强约束处理或结果收敛阶段，则自动切换至显式推理，通过清晰、可读、可校验的推理过程保障逻辑严谨性与决策准确性。

进一步地，U2引入两项核心技术：可控隐空间展开（Bounded Latent Rollout）与熵感知切换（Entropy-aware Switching）。模型能实时评估推理过程中的不确定性——若隐式探索稳定，则持续高效推进；若不确定性升高、路径存在发散风险，则即时回归显式思维链，借助确定性Token完成精准推导与结果收敛。

这意味着，U2并非简单压缩思维链，而是重构了模型的“思考分工”：将开放探索、路径规划等高开销环节内化至隐空间，而将逻辑验证、约束校准与结果收敛交由显式推理承担。由此，在显著减少冗余推理步骤与中间文本的同时，确保复杂任务的可靠性与可控性，真正践行“少Token，深思考”。

在知识底座方面，U2采用高知识密度数据精筛提纯技术，剔除重复、低质与幻觉内容，实现知识点级萃取；结合稀疏知识编码与知识蒸馏架构，压缩冗余参数，将高价值知识能力固化于更紧凑、高效的模型结构中。

在任务执行层面，U2创新提出Agent-Harness协同训练范式。Harness不是外部封装层，而是与模型能力同步演进的核心组件。U2将原生Agent能力提升与Harness优化纳入统一训练闭环：一方面，Harness基于U2特性持续优化执行链路；另一方面，真实任务中产生的高质量执行轨迹，反向强化模型的任务规划、工具调用、过程纠错与结果验收能力。

支撑这一闭环的，是一套务实的训练体系：U2不追求死记硬背标准答案，而是通过课程学习、过程监督、轨迹对比与多维奖励机制，教会模型如何在复杂任务中科学规划、稳健执行、主动纠错、严格验收。配合Agent-Harness协同进化，U2得以在真实任务轨迹中持续强化长链路执行能力，完成从“能聊天”到“能办事”的实质性跨越。

三大核心能力：Reasoning、Coding、Agent

围绕真实任务交付目标，U2重点构建并强化以下三大原生能力：

· Reasoning（深度推理）：强调低偏差执行与长程逻辑稳定性。面对多步骤复杂任务，U2不仅能解答局部问题，更能始终锚定整体目标，动态权衡预算、时间、约束与可行性，输出更优综合方案。

· Coding（端到端编程）：超越基础代码生成，直指工程级交付。U2可依据自然语言需求编写代码，亦能理解多文件项目结构，保持接口一致性、依赖完整性与调用逻辑正确性，并支持环境调试与自主Debug，持续推进任务闭环。

· Agent（智能体协同）：强化多工具协同、长流程编排与动态环境交互能力。面对开放式目标，U2可自主拆解任务优先级，准确识别API能力边界，灵活组合调用不同工具，并依据外部系统反馈实时调整执行策略。

这三类能力有机融合，构成U2完整的任务交付闭环：先理解与规划，再执行与协作，最后校验与交付。正因如此，U2更适合在真实业务场景中接受检验，而非停留于单轮对话或孤立能力演示。

目前，U2已正式上线云知声Token Hub，全面向个人用户、开发者及企业组织开放使用。

云知声发布原生智能体大模型U2：聚焦任务交付，实现“少Token，深思考”

猜你喜欢