电商比价、浏览微信,字节为何敢于打破行业默契?

文|《中国企业家》记者 闫俊文

编辑|何伊凡 见习编辑|李原

头图来源|视觉中国

字节的硬件野心,从未加以掩饰。但当它踏入了手机和超级 App 们的领地,甚至希望重新分配移动互联网的控制权时,很快撞上了阻力墙。

12 月 1 日,豆包发布手机助手,在中兴 nubia M153 系列手机上,获得了操作系统层面的高权限。用户通过唤醒 " 豆包 ",可以完成跨应用比价、购物、撰写报告等任务;也可以打开微信,自动回复消息,玩小程序游戏等。

该产品一经发布,便在市场上掀起风浪。

消息发布当日,中兴通讯即涨停。nubia M153 型号官方售价 3499 元,目前在闲鱼上已涨价 500 元至 3000 元不等。就连预约购机的 F 码(优先码),也炒到了 100 元至 300 元不等。一位闲鱼卖家表示,来问的都是手机厂商的研发、测试人员,手机目前功能有限,不推荐普通消费者购买。

虽然字节反复强调,只是做手机助手,不会研发手机。但网络比价、浏览聊天记录的操作,无疑触动了超级 App 们的 " 逆鳞 "。其中,微信最先出手了。

12 月 2 日晚间,《中国企业家》发现,在字节官方组建的 " 豆包手机助手交流群 " 内,部分 nubia M153 用户发出截图,显示微信提示 " 登陆环境异常 "。甚至有用户反馈,微信账号被封,需要申诉解禁。

12 月 3 日晚间,前述用户群发出通知:" 豆包手机助手 Pro 模式已经下线操作微信的能力;在 Nubia M153 上被禁止登陆的微信账号会陆续解封,请大家等待一段时间并尝试重新登陆。"

《中国企业家》就此向腾讯方面求证,腾讯表示,没有什么特别动作。

但微信 " 拉黑 " 对手的越界,并非首次。华为小艺、小米小爱等手机助手都曾宣称可以打开微信,帮助用户回复消息。但用户反馈,这些功能后来都陆续下架。

2024 年 10 月,智谱 AI 发布手机助手 AutoGLM,智谱 AI CEO 张鹏现场展示了用 AI 在微信群内发了 1 万元的红包。但到 2025 年 8 月,智谱将 AutoGLM 升级为 Agent 产品,其中包含了抖音、美团、滴滴打车等 30 款高频应用——微信已不在其列。一位知情人士表示,之所以取消了微信发红包的功能,主要是跟微信没谈下来。

今年 4 月,微信安全中心曾发布公告称:近期,我们发现有第三方工具以 "AI 管理用户微信聊天记录 " 等名义,绕过微信安全技术措施,违法违规获取或利用微信终端用户数据。对此,微信安全中心提醒,不要安装或使用任何访问本地聊天记录的第三方工具。

12 月 3 日晚间,有用户反映:在使用豆包手机比价时,已经发现了从淘宝端弹出的验证码。阿里相关人士表示:有可能是触发了正常的行业风控措施。

在豆包手机的官方视频演示中,它表现出了不少令人兴奋的、AI 手机该有的样子。

用户使用手机时,可以通过语音、侧边键或豆包 Ola Friend 耳机直接唤醒豆包。豆包也打通了手机底层系统应用,用户可直接在相册内通过语音,对图片下达修图指令,例如删除人物、P 掉杂物等。

在手机 Pro 模式下,当用户说 " 帮我给女儿推荐几个礼物放进购物车 " 时,若手机记忆中已存储了女儿的年龄、兴趣等信息,助手可以直接查询可能符合女儿偏好的方案。

但如果用来高频使用,豆包手机只是一部很不成熟的工程机。

有用户发现,豆包可以完成屏幕阅读识别、点击、滑动操作。但因为手机由 AI 驱动,每个页面都需要重新识别,因此延时很高,反应很慢。

更有争议的是,豆包还 " 实时监听 " 着用户的对话内容," 会把点击按钮前说的话也识别进去 ",屏幕识别也让手机内容没有任何隐私可言。

业内专家对《中国企业家》表示,豆包手机助手之所以能 " 自动化 " 操作 App,大致分为两步:一是识别并理解当前屏幕的内容,如聊天记录等;二是将当前内容上传云端分析后,回传指令进行自动点击操作。

对内容如何识别?豆包要对屏幕的所有内容进行录制,然后上传到云端分析识别。自动操作怎么实现?是因为豆包使用了系统级的 "INJECT_EVENTS" 权限,模拟真人用户操作——这也与外挂和木马的技术原理异曲同工。

虽然 12 月 3 日,豆包手机助手官方发文,回应了此种质疑。它指出,豆包手机助手需要用户主动授权,才可以调用 "INJECT_EVENTS" 权限。但这种通过获取系统权限,模拟手指点击屏幕,用视觉技术 " 看懂 " 界面的方法,与通过官方 API 接口合作,有着本质区别。

" 这意味着,你屏幕上的所有内容如聊天记录、转账记录、付款码等高敏感信息均可能被上传到云端,包括自己或聊天对象等第三方的隐私信息。另外,如果手机助手被劫持,因为它有很高的权限,也可能导致其他安全隐患,如控制账号发送恶意信息、盗取资金等。"

豆包手机交流群 来源:记者截图

对此,豆包手机助手回应称,助手确实需要读取屏幕,但数据不会在服务器端留下存储,且所有的相关内容不会进入模型训练,确保用户隐私安全。

豆包手机一经推出,便引起了对手的强烈抵制,字节对此应该并不意外。

在豆包手机的宣发中,字节一直低调地将 nubia M153 称为工程样机,并特别强调:没有开发手机的计划。但据第一财经报道," 豆包手机基本算是字节自己研发的,但是迫于压力说的合作,其实中兴只是代工。"

虽然字节表示,正在和多家手机厂商推进手机助手的合作落地计划,但留给字节的选择或许不多。

今年,华为、小米都不约而同地从操作系统、智能体框架等维度重构软硬件生态,打造 AI 原生的能力、代码以及协议,他们自然不会向模型厂让渡入口。

另据 " 极客公园 " 报道,字节跳动与努比亚的工程机首销备货量为 3 万台,并为此订购了对应数量的手机关键元器件。而国产品牌主流旗舰,首销期备货通常在 200~300 万台。

行业人士向《中国企业家》透露,这个量级仅够针对开发者、体验者的试水,字节或许意在收集用户数据,优化模型,为接下来的硬件开发提供更多思路。

目前,豆包手机助手免费体验仅有一年时间。根据官方披露,为防止部分用户滥用,导致算力资源不足,手机会设置 token 限额,具体额度后续公布。

而 AI 手机运行中的 token 消耗,当下还做不到可以被忽略不计。以智谱 AutoGLM 为例,其技术负责人刘潇曾告诉《中国企业家》,在 AutoGLM 上完成任务,算上模型与虚拟机,单任务的成本为 0.2 美元。

尤其是在未来手机端将可能面临多任务 Agent 执行下,token 消耗或更为可观。根据字节官方披露,豆包大模型使用量从 2024 年 5 月 1200 亿 tokens,到今年 9 月超 30 万亿 tokens,增速已达 253 倍。

实际上,今年从手机厂商到模型厂,都在积极探索边界,想象下一代硬件的形态——只是字节的脚步,迈得格外激进。

一位 AI 开发者告诉《中国企业家》:豆包开发手机助手最大的困难,不在操作系统层面,更在于生态。超级 App 不会允许 GUI(图形用户界面)的肆意调用,豆包用 " 传统系统 + 语音助手 " 作为视觉方案,颠覆性体验也不够强。

来源:视觉中国

"GUI Agent 的‘模拟点击’本质而言,还是上个时代的技术思维 ",上述开发者认为,这只是一种过渡方案。

今年 8 月,谷歌发布了首款 AI 原生手机 Pixel 10,其搭载了谷歌原生的 Tensor G5 芯片,可以在本地直接运行小型大模型 Gemini Nano ——这也被视为谷歌全面展开软硬件全栈布局的标志性事件。

谷歌在 Pixel 10 中预装了超过 30 个原生应用,它们深度整合了 Gemini Nano。但与其他 Android 手机相比,Pixel 10 没有预装第三方大众软件。因此对于大众来说,Pixel 10 还只是谷歌的试验田。

在国内,小米的 " 小爱 " 和华为的 " 小艺 ",也都未敢朝着绕过 App,直接打乱对手商业闭环的方向去探索。

相比之下,字节打破了行业默契,或许因为在 App 已逐步走向原子化之际,未来的杀手级硬件形态是否还是手机,已经成为未知数。而面对未知的新市场,字节通常会选择用更急迫的方式进击。

今年 11 月,山姆 奥特曼宣布:OpenAI 正致力于打造一款以 AI 为核心的设备,他称其将如同 iPhone 一样具有革命性。

谷歌在自研硬件的同时,也在和 Claude 一起,尝试开发新的 AI 系统,抛弃 GUI 的范式。谷歌宣布,计划在 2026 年推出统一的桌面平台 "Aluminium OS",该桌面将基于 Android,以谷歌 AI 为核心,整合 Chrome OS 和 Android。

显而易见,字节也在效仿谷歌,探索大模型与硬件的深度融合,在耳机、AI 眼镜、汽车、具身智能等硬件领域 " 饱和式 " 布局。

《中国企业家》获悉,11 月底刚刚推出的豆包输入法也同步上线了 nubia M153 手机,试图全力补足入口闭环。

一位输入法产品行业人士曾告诉《中国企业家》,输入法是用户需求产生的第一入口。如何实现人与 AI 的双循环驱动是个大命题,比如让入口更浅、操作更稳。

作为试水产品,豆包手机短期内或许不会改变任何行业生态。但字节以颠覆之势,先一步亮出底牌,意味着新一轮 AI 入口大战已经全面打响。