让AI“听懂人话”并“干好活儿”,火山引擎都做了什么?
撰
文 | 雁 秋
编辑 | 李信马
题图 | 火山引擎原动力大会
不久前,机器人中的“当红小生”宇树和智元高价赞助春晚的消息引发众人一片猜想,然而最终敲定的却是字节跳动(以下简称“字节”)旗下的火山引擎。
据《晚点独家》报道,火山引擎将成为2026年央视春晚的独家AI云合作伙伴。同时,其智能助手豆包也将深度参与,上线多种创新互动玩法,为观众带来前所未有的智能化体验。
火山引擎为何能脱颖而出?答案或许藏在不久前举办的火山引擎Force原动力大会上。会上,火山引擎总裁谭待公布了关键数据:截至2025年12月,豆包大模型日均Token使用量已突破50万亿,自发布以来增长达471倍,相较去年同期增长超10倍。
这一迅猛增长不仅得益于字节内部AI应用的广泛落地,更来自大量外部企业的积极采用——累计使用上万亿Token的客户已超过100家,数量是全球云计算巨头AWS的两倍。

结合IDC发布的2025年上半年模型即服务(MaaS)市场报告,火山引擎以37.5%的市场份额位居中国第一,紧随其后的阿里、百度、腾讯分别占21%、15.5%、4.2%。
谁能想到,五年前初出茅庐的火山引擎,如今已成为支撑千行百业的技术底座。在竞争激烈的云计算赛道中,字节不仅成功入局,更稳稳坐上了牌桌中央的位置。
过去,字节在视频处理与云基础设施方面的对外输出虽扎实,但未能形成颠覆性的商业价值或用户增长;而如今,以豆包大模型为核心的AI能力开放,则迅速点燃市场关注,并催生出活跃的技术生态。
对此,谭待坦言主要有两点原因:其一,此前尚未迎来技术爆发期,进步多为线性提升,属于效率层面的“增益”;其二,企业服务市场节奏较慢,To B业务需要长期沉淀。而AI大模型的兴起,恰好让火山引擎“赶上了好时机”。
当前,AI大模型已成为明确的技术风口,它如同“价值放大器”,能在短短一两年内显著释放技术潜能,快速重塑市场格局与生态体系。“如果风口来了,可能一两年内就会发生巨大变化。”谭待强调。
在这轮由大模型驱动的浪潮中,火山引擎不仅是平台提供者,更通过持续的产品迭代,将技术势能转化为切实的市场动能。
本次大会聚焦两大方向进行升级:模型侧推出了豆包旗舰模型1.8及视频生成模型Seedance 1.5 pro;围绕Agent则发布了系列工具链与生态服务,如企业级AI Agent平台AgentKit,以及面向Agent运营的HiAgent“1+N+X”智能体工作站等。
其中最值得关注的是豆包大模型1.8与Seedance 1.5 pro。
豆包大模型1.8可被理解为更强大的多模态Agent大脑。它在工具调用、复杂指令遵循等方面进行了专项优化,不仅能准确理解用户指令,还能自主规划执行步骤,完成一系列任务。
该模型在视频理解能力上也有重大突破,单次可处理的视频帧数翻倍至1280帧。这意味着它不仅能高速浏览长视频,还能自动识别重点,并切换至逐帧精读模式,深入分析细节。
现场演示了利用豆包大模型1.8解析一段长达1小时4分钟的监控录像,精准定位车辆剐蹭事故的过程。整个流程分为三步:
快速初筛:以低帧率快速浏览全片,初步锁定异常时间段。
工具调用:借助“Video Card”等专用工具,在可疑区间进一步缩小范围。
精细分析:切换高帧率模式,对关键片段逐帧分析,最终准确识别肇事车辆及事故发生时间。
这项能力直击现实痛点——当车辆在小区或停车场被剐蹭后,传统人工回看监控耗时费力,往往需数小时。而借助大模型技术,整个过程可压缩至几分钟,极大提升追责效率。

至于Seedance 1.5 pro音视频创作模型,则专注于音画同步与多人多语言对话,响应速度达到毫秒级。发布会现场展示的样片中,人物表情自然,口型精准匹配,画面质感堪比电影。
该模型支持中文、英语、西班牙语等多种语言,甚至能处理四川话、陕西话等方言,为内容创作者打造高度本地化、沉浸感十足的作品提供了强大支持。

降本增效同样是火山引擎的关注重点。官方宣布,Seedance系列将上线“Draft样片”功能,帮助创作者节省成本。
Draft样片允许先生成低分辨率预览版,确认效果后再投入资源生成高清成品。这有效避免了因结果不符预期而导致的资源浪费。据官方数据,该功能可提升约65%的创作效率,并减少60%的无效支出。
此外,火山引擎还推出业内首个“AI节省计划”,覆盖所有按量付费的大模型产品,通过阶梯式折扣,最高可帮助企业节省47%的成本。
此次大会不仅是技术发布,更是一场生态成果展。字节划出近4000平方米展区,集中呈现基于豆包大模型的端侧硬件产品。
SmartHey受邀参加,现场最直观的感受是AI落地场景正不断拓展,从常见的C端社交娱乐,延伸至B端的汽车、金融、广告、能源等多个行业。
入口处陈列着奔驰、奥迪、小米、比亚迪等品牌汽车。谭待透露,中国超过九成主流车企已是火山引擎的客户。

他指出,以往即便是顶级智能座舱系统也显得“笨拙”。例如,用户说“我好热”,系统无法自动调温;说“打开天窗”,若实际想开遮阳板,系统也会因字面不符而失败。
而引入大模型后,新型座舱能像人一样理解真实意图。用户说“冷了”,系统会自动升温;说“打开天窗”,即使目标是遮阳板,也能正确执行。这种泛化理解能力,使交互更加自然流畅。
其核心在于构建一种以Agent为中介的全新交互范式——如同与真人对话般自然高效。这种模式有望成为未来所有终端设备的标准交互方式,无论是手机、汽车还是其他智能硬件。
除汽车行业外,火山引擎已在金融、医药、文娱、餐饮、消费等领域取得进展。2025年,已有超100万企业和个人使用其大模型服务,覆盖100多个行业。
在金融领域,头部机构正推动大模型落地。华泰证券推出的国内首款AI原生交易APP“AI涨乐”,依托火山引擎提供的算力、大模型和智能体工具,为投资者提供专业且实时的投资服务。
据工作人员介绍,“AI涨乐”配备多种风格的AI投资助手,不仅能聊天互动,还可执行选股、盯盘、下单、提醒等复杂操作。
例如,用户若不清楚“买什么”,可直接提问“今天有什么热点股”,“AI涨乐”将从热点、连板、主题、资金四个维度提供建议,满足不同投资者需求。对于“何时买”的问题,AI助手可根据用户设定条件实时监测市场动态,并及时发出提醒。

基于豆包大模型的AI玩具与教育产品,成为展区内占比最高的类别之一。字节旗下AI开发平台扣子Coze与AI+机器人品牌灵宇宙联合推出的AI智能体“Yummy”,吸引了众多目光。
“Yummy”并非机械问答的玩具,而是具备上下文理解与环境感知能力的陪伴者。它可通过小方机摄像头识别物体,并结合历史、生物等知识讲述背后的故事,如屈原与粽子、奥斯曼帝国的兴衰等。这种寓教于乐的方式,让学习变得轻松有趣。

另一款情感陪伴潮玩“芙崽”,外形为小巧毛绒挂件,便于随身携带。其亮点在于“长期养成”机制——通过持续交互,逐渐形成独特性格,甚至拥有自己的MBTI人格类型。

豆神学伴机器人融合了火山引擎RTC技术与豆包大模型,能够持续理解孩子的学习习惯,提供个性化辅导。同时配备情绪化表达系统:开心时翅膀轻颤,困惑时摇头晃脑,肯定时点头示意,以更生动的情感回应孩子的情绪状态。

无论是为九成主流车企赋能“最强大脑”,还是在金融、文娱、消费领域孵化出“AI涨乐”“Yummy”“芙崽”等新物种,其底层逻辑一致:将大模型的泛化理解与生成能力,转化为各行业可感知、可交互、可持续增长的用户体验。
这也是火山引擎原动力大会传递的核心观点:AI时代,真正的主角是Agent。 谭待预测,随着大模型能力向执行层下沉,Agent正演变为新一代通用人机交互层,其落地路径正加速从软件应用向硬件终端延伸。
(图片由SmartHey拍摄以及主办方提供)
