界面新闻记者 | 伍洋宇 周末

界面新闻编辑 | 文姝琪

互联网巨头正在激烈进行大模型角力,面壁智能创始人李大海没觉得生存空间被压缩,他的判断仍然乐观。

AI本身就是一个产业级机会,是第四次技术革命,创业公司肯定有大量的机会。”他说,“就看到底是进入极其广阔的市场占据一小部分份额,还是在更聚焦的场景中争取头部位置——这只取决于你自己的策略是什么。”

“全模态模型+端侧硬件”是个好策略吗?面壁智能正试图照此进一步推动大模型从云端走向终端设备。

2月4日,面壁智能发布新一代全模态模型MiniCPM-o 4.5,并同时推出首款硬件产品智能开发板松果派(Pinea Pi),计划于今年量产上市。

MiniCPM-o 4.5是一款参数规模约9B的全模态大模型,同时支持视频、音频、文本流输入,以及文本与语音的连续输出。该模型被定义为全双工全模态模型:在输出内容的同时,仍可持续接收多模态输入信息,并且可在不阻塞输入输出的情况下,实时调整回应策略。

同时,模型在输出过程中,不会中断对外界环境的感知。例如持续监听环境变化并在“公交车到站”“信号灯变化”等事件发生时给出提醒,面壁智能通过盲人引导展现了该功能的应用场景。

面壁智能多模态首席科学家姚远告诉界面新闻记者,相较于此前通过语音活动检测(VAD)等工程手段实现的双工方案,这种技术方案更接近AI原生,由模型自身完成对时机与内容的判断。

面壁智能提出,全模态模型是潜在的“具身大脑”。其判断依据在于,9B级别的参数规模相对可控,更适合在机器人、车载系统、PC 等终端侧运行。

以具身智能为例,目前行业研发重心多集中于运控系统和视觉-语言-动作(VLA)模型,而在理解、沟通和持续交互层面仍存在缺口。团队认为,全模态、可持续感知的模型形态有望补足这一部分能力。

与模型一同发布的松果派,是面壁首款面向开发者的端侧AI硬件产品。基于现有模型及智能硬件发展阶段,松果派是一个教育市场的产品,而不会是最终形态。

该开发板基于NVIDIA Jetson系列模组打造,集成麦克风、摄像头及多种接口,支持离线多模态个人知识助理、具身智能原型、编程教学等场景。

其定位AI原生(AI Native)端侧开发套件的原因在于,强调通过自然语言直接驱动硬件行为,降低开发门槛;MiniCPM-V与MiniCPM-o系列模型“开箱即用”;支持模型离线运行,避免持续token成本,并借此提升数据安全性与稳定性。

松果派预计在年中进入量产阶段,价格尚未公布。面壁智能表示,定价将主要基于硬件成本,更多信息将通过官网与开发者社群对外披露。

对多模态模型的上限进行探索是行业共识,不过在算法架构层面,面壁智能对于技术能否快速收敛的判断并不乐观。

姚远对界面新闻记者指出,目前多模态模型在理解与生成的架构底层仍然高度割裂:视觉理解多依赖连续表征,而生成任务往往基于扩散模型,两者并非同一技术路径。这种割裂限制了模型在理解与生成之间的泛化能力,也并不符合通用人工智能的长期设想。

行业正在探索通过自回归等统一建模方式,将不同模态纳入同一架构之下,以实现理解与生成的统一。但这一方向仍面临现实挑战,尤其是在视觉与音频等高连续模态被离散化后,信息损失在 OCR、细粒度文字等任务上尤为明显。在算力和数据规模相同的条件下,统一架构目前仍难以全面超越模态特异模型的最优性能。

在数据层面,姚远认为多模态领域尚未进入数据耗尽阶段。与文本数据不同,互联网上的视频和音频数据规模仍在高速增长,但当前真正被有效用于训练的比例仍然有限。问题的关键不在于数据总量,而在于是否具备合理的学习机制,将这些数据转化为可泛化的能力。

尽管面对云端模型“神仙打架”,面壁智能想为端侧模型趟出一条前景远大的路,但在应用与产业层面,团队对当前AI硬件与终端形态的判断相对克制。

李大海表示,随着豆包手机、千问等应用出现,行业已经形成共识:新一代以AI为核心的人机交互形态已经显现方向,但距离真正成熟仍有较长距离。

李大海将这一变化类比为从功能机向智能机的演进过程——方向明确,但不会一蹴而就,而是伴随着云端模型与端侧模型能力的持续提升而逐步展开。即便在当前阶段,即使采用行业内最领先的云端模型,其对复杂任务的完成率仍未达到完全可用的水平。

在此背景下,李大海认为,纯云端方案难以成为最终形态。一方面,复杂交互场景对实时性与稳定性提出更高要求;另一方面,用户隐私与数据安全也限制了云端模型在终端场景中的使用边界。



他认为,未来更可行的路径,是端侧模型与云端模型的协同工作,在能力、体验与隐私之间取得平衡——这是一个从软件到硬件的全产业链任务,面壁智能除了将模型能力延伸至手机、汽车、智能硬件等终端领域,也正在与芯片厂商加紧合作突破相应的硬件限制。