界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

2025年的AI爆点正在发生转移。

自DeepSeek R1上半年引爆行业情绪之后,“纯文本+推理”范式下的模型鲜少再现重量级成果。进入下半年,话题重心明显滑向多模态领域。

Sora 2被封装成可交付应用、谷歌推出图像编辑能力更强悍的Nano Banana;AI Agent这端同样如此,在Manus这样文本属性更突出的通用型产品之后,达到相近级别热度的是主攻视觉创作场景的LoveArt。

在这背后,文本模型的迭代进入一种基线较高、小步抬升的阶段,而多模态理解与生成能力在可用性上,向“破圈”层级又近了一步。

一名从事模型训练的研究人员对界面新闻记者指出,要理解这个现象,首先要认识到文本与多模态两个方向的研究是并行而非串行。

经过GPT-3、GPT-4、OpenAI o1等重大节点之后,大模型的语言理解能力足以交付C端(用户)应用,后续优化集中在稳态工程,例如对齐、降本、延迟优化、鲁棒性等等,这些能够进一步优化C端应用体验和B端(企业)商用价值,但用户感知不再像GPT-4来临时那样有强烈冲击。

一个典型的例子是DeepSeek-OCR。这是一个在话题性上不足以震撼人心的demo,但有其长期影响力。

DeepSeek-OCR在10月20日推出,定位于探索文本的视觉压缩能力(光学上下文压缩,Contexts Optical Compression)。简单而言,随着上下文输入增多,模型计算量以平方级陡增,但通过将长文本转化为图像识别,可以大幅压缩token计算数量。这一思路得到验证的成果是,它一旦落地到应用端,也是一个前景颇为确切的降本增效方式。

多模态这一侧完全不同,其能力曲线仍在还可以被更多人感知的区域内。不过,前述受访者指出,从并行的思路来看,多模态模型这端还未实现架构层级的突破,更多是足够的数据累积和训练技巧提升。

图源:界面新闻

正如他对Sora 2和Nano Banana的判断,除去OpenAI对多模态生成类产品的初步构想成型,以及谷歌对图像编辑器现阶段用户需求的把握(例如锚定一个点进行针对性修改),两款产品在生成质量上并未实现飞跃。

并且,在很大程度上,以“文生图、文生视频”为代表的多模态生成领域,其表现优化是以文本模型性能提升为前提。阶跃星辰创始人兼CEO姜大昕此前在接受界面新闻记者采访时指出,理解与生成之间的关系是,理解控制生成、而生成监督理解。

一级市场也在见证这种关注点切换。一名AI投资人对界面新闻记者表示,他的体感是今年行业整体投资事件增多,但投资规模在降低,这是投资重点由模型层向应用层过渡后,后者的市场规模及估值所决定的。

在这之中,今年最显眼的一笔来自应用层视觉创作领域的LiblibAI。10月23日,LiblibAI宣布完成1.3亿美元B轮融资,红杉中国、CMC资本等参与其中,促成今年国内资本市场AI应用赛道最大的一笔融资。这意味着相较其他赛道,团队的PMF(product-market-fit)更大程度受到资本认可。

在往后很长一段时间,业界能够期待的“爆点”或许都将更多来自于多模态领域。

姜大昕一直强调的观点是,光有语言的智能不够,多模态是大模型的必经之路。而在这片领域,理解与生成的统一仍是现阶段的突破点。

多名受访者曾对界面新闻记者表示,站在模型训练角度,视觉模态比文本模态面临的挑战更大。单从数据上来看,文本的表征可以在语义上自闭环,但视觉信息的表征需要先与文本对齐,不存在天然自闭环的数据,“可能需要几次像ChatGPT、强化学习范式这样的大技术变迁才能解决。”一名受访者说。

而一派观点认为,基于更好的多模态模型,世界模型、具身智能、空间智能等才能得到长足发展,行业才能进一步靠近AGI(通用人工智能)。

更现实的考量是,模型决定应用能力上限,在文本模型集中火力降本增效和缓慢提升性能的同时,多模态模型的突破有望给市场带来更多PMF机会,这将是创业者和投资人眼中更具实际价值的关键变化。