
通用 Agent(智能体)的火爆,仍在继续。
引爆这一领域的明星初创公司 Manus AI,近期被曝出完成了新一轮 7500 万美元融资,估值在短短不到 2 个月内,飙升至 5 亿美元。
被 Manus 打开未来想象空间的通用 Agent 市场,正在吸引一众科技大厂的入局。最新加入进来的是百度。
近日,百度对外推出了类通用 Agent 产品 " 心响 "。百度之前,字节抢跑一众国内科技大厂,率先上线了自家的 Agent 产品 " 扣子空间 "。
相比传统 Agent 产品,通用 Agent 本质区别在于其定位从 " 工具 " 向 " 伙伴 " 的角色转变,能够处理复杂、多步骤的任务场景。
背靠大厂已有的产品生态,字节和百度共同盯上了同一目标,即借 AI Agent 寻找自家 AI 产品体系的新增长点:字节试图将通用 Agent 概念嵌入工作流,寻找专业场景的落地应用;百度则想要在普通消费者中率先破局。
两者都在尝试打破各自内部的生态壁垒,构建更广泛的 AI Agent 生态体系,将通用 Agent 概念彻底打入用户的心智。
然而,受限于大模型技术的成熟度,包括字节、百度在内的所有参与者,都不得不在探索的路上,不断地扪心自问:AI Agent 的真正应用场景是什么?
一、追逐 AI Agent 的场景答案
在找寻差异化应用场景的道路上,字节与百度在这一问题上选择了不同的路径。
字节的扣子空间主要入口为网页端,更易于接触日常办公场景下的软件资源;百度的心响主要面向手机端,目前仍只支持安卓系统,意图将自身产品打入用户的日常场景体验之中。
字节希望用 AI 深度嵌入工作流已成为业界共识。扣子空间 " 和 Agent 一起开始你的工作 " 这句宣传语精准地贯穿了产品逻辑。

扣子空间的最大目标:生产力全面提升。其 MCP 扩展中,飞书云文档、多维表格和电子表格尤为令人关注。如果能够与飞书平台进行高度整合的话,打通生态间壁垒,扣子空间将会成为企业效率的 " 智能中枢 "。

我们让扣子空间作为一位艺术类型公众号撰稿者,搜集日本艺术家的文字与图片信息,制作成一份文字与艺术作品图片交叉的稿件。

在实际测试中,它对提示词的遵循能力优异,能够自动检索网页、制作可视化报告,流程流畅几乎没有卡顿,给出了一份完整的、规规矩矩的文字报告以及作品时间轴。


字节希望把 Agent 当作办公过程中的 "AI 实习生 ",主动帮助用户处理文件检索、表格制作、报告生成等任务。其背后的逻辑是:在企业私域内,聪明的 AI 辅助工具才更容易产生价值。
百度则选择进一步降低使用门槛,从更广泛的普通 C 端用户切入,其产品心响专为移动端设计,在实际测试中的产品逻辑有些不同:" 把难题留给心响,把时间留给生活。"
从功能模块的设计来看,心响相对于字节的扣子空间一个最大的区别是 " 灵感广场 " 模块。在该模块内,百度的产品设计者集成了大量的任务模板:晚安故事集、AI 绘本、AI 相亲等等。

不过,百度的 C 端策略既聚焦于用户习惯的培养,也有在一定程度上限制了产品的想象空间的嫌疑。技术上来看,心响给了外界一个明显的感受:主模型的指令遵循能力似乎并不如字节扣子空间那样精准,它的思维更加发散。

相比于扣子空间迅捷的内容生成速度,百度的心响在响应速度上显得相对缓慢的多,生成过程耗时更长。
然而,与扣子空间严格遵循提示词、输出规整的报告不同,心响在生成结果时额外设计了交互元素和视觉优化,在输出中融入更多细节和附加价值。

这样的产品逻辑,非常适配于日常场景,因为用户往往被认为在与 AI 的交互中,提示词工程的经验较弱,甚至很多时候自己都不清楚自己想要的是什么。
二、大厂摸着 Manus 过河
尽管产品体验上仍有不完美之处,令字节、百度们争抢推出相应 Agent 产品的一大原因,则离不开其在商业变现上的天花板足够高。
要知道,竞争打到现在,无论国外的 OpenAI,还是国内的字节、百度,其在大模型上都处于亏钱投入阶段。如何寻找到足够强的付费变现模式,无疑是一众大模型厂商的当务之急。
Manus 成功拿下 7500 万美元融资的现身说法,让科技大厂看到了进军 Agent 领域的一丝曙光。最近 OpenAI 的一份预期收入报告,则让这丝曙光变得更明亮了些。
据 The Information 报道,OpenAI 预测至 2029 年,AI Agent 及其他新产品的销售额将超越 ChatGPT,推高总营收至 1250 亿美元,2030 年总营收有望达到 1740 亿美元。Agent,正被视为继对话式大模型产品之后的下一个大金矿。
而且,对于字节和百度这样生态庞大的公司而言,在各自的生态体系下,借助需要外部 MCP 交互的 Agent,还可以达到盘活现有产品矩阵的效果。
但是,MCP 本身不足以实现 " 世界的互通互联 "。其需要大模型在多模态(尤其是推理能力)以及成本价格方面,给予支持。这也反过来说明,为什么是此时此刻,字节和百度才有能力推出 " 扣子空间 " 和 " 心响 "。
根据 The Information 报道,Manus 仅仅在 Claude 大模型的调用上,两周内就烧掉了超过百万美元。AI Agent 的基础工作流中的必要部分——多步推理涉及多次模型调用,处理复杂任务时需结合文本、图像等多模态数据,导致计算量激增,消耗大量 GPU 资源,说得直白点:AI 智能体需要强算力资源、高多模态能力、强推理能力、低成本价格。
进入 2025 年,推理模型尤其是视觉推理领域的进步,使得 Agent 在实际产品中的部署变得技术上可行且经济上可持续。字节与百度在多模态大模型领域的早期投入开始有了回报,AI Agent 的基础产品形态有了现实支撑。
近期,百度发布了文心 4.5 Turbo 及 X1 Turbo,强调推理性能与成本优化。代码智能体文心快码更是接入 MCP,李彦宏本人直接提出 " 创新的核心在于成本下降 "。
字节同样在 4 月中旬更新了豆包 1.5 深度思考模型,同样主打一个多模态和性价比。据晚点 LatePost 报道,扣子空间对比了六款国内大模型,最终还是选用了自家的豆包作为基座模型技术支撑,原因是后者推理成本较低,大规模调用可行性高。
三、大厂寻找新 " 增长点 " 旅途坎坷
AI Agent 概念虽然打得火热,但其定义正被泛化、滥用。通用 Agent 的资本故事里每一个字都异常美妙,市场潜力巨大,其仍然面临多重技术挑战,包括高任务失败率、上下文理解不足、数据安全风险及潜在的偏见放大问题。例如,无论是 Manus、还是字节的扣子空间、百度的心响,这些产品在复杂任务中的可靠性仍说不上有多高。
从较短的时间尺度上来看,AI Agent 在复杂任务中的表现仍难以配得上 " 通用 " 二字。但如果将目光放得更长远,其作为大厂们 AI 产品体系的新增长点的潜力无法被忽视。
没有大厂愿意冒着落后的风险,而不选择跟进。这一点深刻地体现在了字节、百度这样的中国科技大厂身上。根据晚点 LatePost 报道,Manus 出圈前后,字节就搞了至少 5 个团队在开发不同 Agent 产品;百度的心响则由一群 95 后组成的团队,在 30 天内研发出来。
对大厂而言,技术优化迭代是必由之路,挖掘差异化的应用场景才是打开这条路的起始。谁能率先找到复杂用户场景的解决方案,谁就能从这块蛋糕里分走一部分。
这也意味着,字节和百度绝不会是这条赛道里的唯二玩家。国内方面,阿里和腾讯同样虎视眈眈。国外,不光是率先确立了 A2A 协议的 Google,MCP 协议的 Anthropic,OpenAI 对 Agent 也下了重注。一个月前,The Information 报道称,OpenAI 已经在与投资者商议了三类未来的 Agent 产品的发布,价格从每月 2000 美元到 20000 美元不等。
可以想见的是,技术、资本、场景、标准正在 AI Agent 领域进行混合博弈,对于大厂们而言,这不仅仅是烧钱的开始,也是为产品体系找到全新商业引擎的起点。