火山引擎发布豆包大模型1.8，多模态Agent能力进入全球第一梯队

推荐 2025-12-18 14:26

字号

SmartHey12月18日消息，火山引擎在FORCE原动力大会上正式发布豆包大模型1.8及音视频创作模型Seedance 1.5 pro。权威评测数据显示，豆包大模型在多模态理解、生成能力及Agent能力上，已跻身全球第一梯队。

据火山引擎总裁谭待介绍，截至今年12月，豆包大模型日均token使用量突破50万亿，较去年同期增长超过10倍；目前已有超过100家企业客户累计token使用量超过一万亿。

图：火山引擎总裁谭待

豆包大模型1.8：打造更强多模态Agent”大脑”

作为豆包家族的最新旗舰模型，豆包大模型1.8（Doubao-Seed-1.8）面向多模态Agent场景进行了定向优化。其工具调用能力、复杂指令遵循能力及OS Agent能力均得到增强，显著提升了模型在处理复杂任务时的规划与执行效率。

在视觉理解方面，豆包1.8的单次视频理解帧数从640帧提升至1280帧，实现翻倍增长。模型支持以低帧率解析超长视频，并可智能调用高帧率模式对关键片段进行精细分析。这一能力可广泛应用于在线教育、工业质检等实际场景。

图：豆包大模型1.8测试表现

在多项公开评测中，豆包1.8展现出卓越的综合性能：在视觉推理、通用视觉问答、空间理解和视频理解等任务中，成绩达到领先水平或接近最优；在通用智能体测评集BrowserComp上表现位居全球前列；在数学与逻辑推理等基础能力维度，整体水平已逼近国际顶尖通用大模型。

Seedance 1.5 pro：音画高精同步，重塑AI视频生产力

为满足快速增长的AI视频创作需求，火山引擎推出Seedance 1.5 pro音视频创作模型。该模型不仅具备影视级叙事表现力，能精准还原运动细节并细腻表达人物情绪，更在音画同步技术上取得重大突破。

Seedance 1.5 pro采用创新的原生音视频联合生成架构，支持环境音效、背景音乐、人声对话等多种音频元素，实现毫秒级精准音画同步输出。在对白生成方面，模型支持多人多语言对话，口型匹配高度准确，涵盖中文方言（如四川话、粤语）、英语及多种小语种，大幅增强内容的真实感与全球化适用性。

为进一步降低创作门槛与成本，Seedance系列即将上线“Draft样片”功能。创作者可先生成低分辨率预览版本，其核心内容与最终成片保持一致，真正实现“所见即所得”。实测数据显示，该功能可帮助创作者提升65%的整体效率，并减少60%的无效资源投入。

目前，个人用户已可通过豆包、即梦AI等平台体验该模型；企业用户则可自12月23日起，通过火山引擎API接入Seedance 1.5 pro服务。

升级AI云原生架构，构建Agent规模化落地基座

谭待指出，传统IT架构难以适应Agent时代的发展需求，以模型为核心的AI云原生架构正加速形成，并围绕Agent的开发与运营进行系统性重构。

在开发层面，火山引擎全面升级企业级AI Agent平台——AgentKit。该平台覆盖Agent从创建、部署到管理的全生命周期，致力于解决企业在落地过程中面临的身份权限控制、输出稳定性及系统集成等关键难题。

在运营层面，火山引擎推出HiAgent智能体工作站。通过构建统一的企业AI任务调度中心，提供一系列开箱即用的通用智能体，并支持个性化定制应用，助力企业实现智能体的规模化部署与高效管理。

此外，为降低企业使用成本，火山引擎推出业内首个“AI节省计划”。该计划覆盖所有按量计费的大模型产品，通过阶梯式折扣机制，最高可帮助企业节省47%的支出。

谭待表示，依托从模型能力到基础设施的全方位革新，火山引擎正推动AI应用从简单的模型调用迈向复杂的智能体生态体系，加速AI技术在各行业的深度应用与价值释放。

猜你喜欢