2025 年开年,AI 芯片领域就传出两则重磅的消息:
埃隆 马斯克在社交平台确认特斯拉重启 Dojo 3 超级计算机项目,其表示特斯拉将成为全球最大的 AI 芯片厂商;
同为 AI 芯片行业的重要参与者 Cerebras Systems 则与 OpenAI 敲定了一份价值超百亿美元、承诺交付 750 兆瓦算力的多年采购协议,该产能将在 2028 年前分批投入使用。
一个是自研训练芯片的 " 死而复生 ",一个是晶圆级系统的商业突破——两条迥异新闻背后,让 " 大芯片 " 这一曾被视为异类的技术路线再次站回了聚光灯下。
在 AI 芯片的演进史上,大芯片从来不是一个精确的技术术语,而更像是对两种截然不同设计的概括。
一种是以 Cerebras 为代表的晶圆级单片集成,另一种则是特斯拉 Dojo 这类介于单芯片与 GPU 集群之间的 " 晶圆级系统 "。前者追求大道至简,用一整片 300 毫米晶圆构建单一处理器,后者则走中间路线,通过先进封装将多个预测试芯片集成为类单芯片系统。
这种分野的根源,在于对 " 内存墙 " 和 " 互连瓶颈 " 两大痛点的不同解法。
传统 GPU 架构下,处理器与内存的分离导致数据不断在 HBM 与计算核心间往返。根据技术文献,英伟达从 A100 到 H100,计算能力增加约 6 倍,但内存带宽仅增长 1.7 倍,这种失衡让训练时间的主导因素从计算能力转向了内存带宽。而多 GPU 系统更是将这种开销放大——即便 NVLink 6.0 已将单 GPU 带宽推至 3.6TB/s,芯片间通信的延迟依然是片上互联的数百倍。
2024 年发布的 Cerebras WSE-3 用 4 万亿晶体管、90 万个 AI 核心和 44GB 片上 SRAM 给出了一个自己的答案:把计算和存储塞进同一块硅片,让数据足不出户就能完成处理。其片上互联带宽达到 214Pbps,是英伟达 H100 系统的 3715 倍,内存带宽高达 21PB/s,是 H100 的 880 倍。这种极致的集成密度带来了极致的性能提升,在 Llama 3.1 8B 模型上跑出 1800 token/s 的生成速度,而 H100 仅为 242 token/s。
但这种极致也带来了极致的工程挑战。一整片晶圆的良率问题几乎是反摩尔定律的:面积越大,缺陷概率指数级上升。Cerebras 的破局之道是将每个 AI 核心缩小到 0.05 平方毫米——仅为 H100 SM 核心的 1%,并通过冗余设计和智能路由绕过缺陷区域。这种蚁群式的容错机制让单颗芯片即便存在瑕疵也能维持整体性能,但代价是需要专门的固件映射和复杂的散热系统,WSE-3 的 23 千瓦功耗需要定制的液冷循环和混合冷却剂。
相比之下,特斯拉 Dojo 走的是介于两者之间的晶圆级系统路线。D1 芯片本身只有 645 平方毫米,但通过 5×5 阵列排列在载片上,利用台积电 InFO 封装技术实现高密度互连,让 25 颗芯片像单一处理器般协同工作。这种设计既避免了单片晶圆的良率风险 . 每颗 D1 都可以预先测试,又在一定程度上缓解了多芯片系统的互联瓶颈,芯片间延迟仅 100 纳秒,远低于传统 GPU 集群的毫秒级。
2025 年 8 月,彭博社报道特斯拉解散 Dojo 超算团队,这一度被视为自研训练芯片路线的终结。但在短短半年后,Dojo 就迎来了重启,而它背后逻辑也已发生根本性转变。
马斯克在社交平台透露,AI5 芯片设计状况良好,特斯拉将重启 Dojo 3 的工作,其将采用 AI6 或 AI7 芯片,目标不再是训练地球上的自动驾驶模型,它将专注于 " 太空人工智能计算 "。
这个转向耐人寻味。原本 Dojo 被定位为对标 10 万张 H100 的通用训练平台,摩根士丹利一度估值其能给特斯拉带来 5000 亿美元增量。但现实是核心团队接连离职,项目在 2024 年底被叫停,特斯拉转而采购 6.7 万张 H100 等效算力组建 Cortex 集群。背后原因不难理解,尽管 D1 纸面性能强大,但训练芯片的关键并不是单芯片性能。
英伟达的护城河,是 CUDA 生态的十几年积累、CoWoS 先进封装产能的锁定、HBM 供应链的深度绑定。对比之下,特斯拉的自研 Dojo2 方案即便流片成功,也要在软件适配、集群调度、可靠性工程上补课数年,而这段时间英伟达早已迭代两至三代产品。
特斯拉如今选择的是训练外采和推理自研,其本质上是对机会成本的重新计算。马斯克表示,特斯拉在两种完全不同的 AI 芯片设计上分散资源不合理,AI5、AI6 及后续芯片在推理方面将非常出色,至少在训练方面也相当不错。AI5 芯片采用 3nm 制程,由台积电代工,预计 2026 年底量产,单颗性能接近英伟达 Hopper 级别,双芯片配置则可接近 Blackwell 架构。
更关键的是战略重心的转移。Dojo 3 不再是对标 GPU 集群的通用训练平台,而是面向太空算力部署,马斯克计划通过 SpaceX 未来的 IPO 为该设想融资,利用星舰部署可在持续日照下运行的算力卫星。
这种定位的精妙在于:太空算力作为新兴赛道,既没有英伟达的生态壁垒,也不需要与成熟 GPU 生态正面硬刚,而是开辟全新应用场景。2025 年 11 月,英伟达投资的 Starcloud 首次将 H100 发射上天,3 天后谷歌宣布要在 2027 年初将 TPU 部署到太空,这场太空算力竞赛才刚刚开始。
但即便重启,依旧有其他方面的挑战。据报道,特斯拉已将 Dojo 3 芯片制造合同授予三星,芯片封装业务交由英特尔承接。这一供应链调整既反映了台积电产能饱和无法为 Dojo 3 提供积极支持的现实,也暴露出特斯拉在争抢代工产能上的弱势。
如果说特斯拉的 Dojo 是在试错中重新定位,那么 Cerebras 与 OpenAI 的百亿美元合作则是在推理爆发前夜的一次精准卡位。OpenAI 承诺到 2028 年从 Cerebras 购买高达 750 兆瓦的计算能力,交易金额超过 100 亿美元。这笔订单的关键在于 OpenAI 愿意为所谓的 " 超低延迟推理 " 支付溢价。
巴克莱研报预测,未来 AI 推理计算需求将占通用 AI 总算力的 70% 以上,推理计算的需求甚至可以超过训练计算需求,达到后者的 4.5 倍。当 ChatGPT 等生成式 AI 应用从 " 训练一次、部署多次 " 转向 " 持续推理、实时交互 " 之际,低延迟推理能力的价值陡增。OpenAI 基础设施负责人 Sachin Katti 表示,当 AI 实时响应时,用户会做更多事情、停留更长时间、运行更高价值的工作负载。
Cerebras 的独特速度来自于将大量计算、内存和带宽集成在单个巨型芯片上,消除了传统硬件中减慢推理速度的瓶颈。这种架构优势能够在实际应用中转化为惊人的性能差距。Cerebras WSE-3 在碳捕获模拟中跑出比 H100 快 210 倍的速度,在 AI 推理上实现 20 倍加速。如果 Cerebras 能持续在规模上提供亚秒级响应,它可能会削减基础设施成本,并为依赖流式响应的更丰富、更对话化的应用打开大门。
但这种商业突破来之不易。在 2024 年上半年,Cerebras 87% 的收入来自阿联酋的 G42,这种过度依赖单一客户的状况一度让其 IPO 计划受阻。2024 年 10 月,Cerebras 撤回 IPO 申请,但持续融资,最新报道称公司正在洽谈新一轮 10 亿美元融资,估值约 220 亿美元。OpenAI 的订单金额超过了 Cerebras 目前的公司估值,实际上使 OpenAI 成为 Cerebras 最大也是唯一的主要客户,这种紧密关系既是商业突破,也潜藏风险。
知情人士认为,如果 OpenAI 的财务状况更强劲,它或许会效仿其他科技巨头,直接收购 Cerebras 及其工程人才和运营基础设施。当前的合作结构更多是出于财务现实而非战略意图。OpenAI CEO Sam Altman 早在 2017 年就个人投资了 Cerebras,2018 年埃隆 马斯克还曾试图收购 Cerebras 并入特斯拉,这些历史纠葛让当前合作显得更加微妙。
这笔投资,也在一定程度上促成了供应链多元化。2025 年,OpenAI 与英伟达、AMD 和博通都签署了协议。在 9 月,英伟达承诺投入 1000 亿美元支持 OpenAI,建设至少 10 吉瓦的英伟达系统,相当于 400 万至 500 万个 GPU。OpenAI 执行官表示,计算规模与收入增长高度相关,但计算能力的可用性已成为进一步增长的最重要限制因素之一。在这种背景下,Cerebras 提供了专为低延迟推理优化的专用系统的差异化选项。
分析师 Neil Shah 指出,这促使超大规模提供商实现计算系统多样化,针对通用 AI 工作负载使用英伟达 GPU,针对高度优化任务使用内部 AI 加速器,针对专业低延迟工作负载使用 Cerebras 等系统。推理场景的碎片化(从对话生成到代码补全到图像渲染)意味着没有一种芯片架构能通吃所有场景,专用加速器的存在价值恰在于此。
无论是 Cerebras 还是特斯拉,都无法回避一个终极问题:在竞争愈发激烈的当下,大芯片路线的生存空间究竟有多大?
要知道,AI 芯片市场早已人满为患,去年 6 月,AMD 推出了 MI350X 和 MI355X 两款 GPU,训练及推理速度与 B200 相当或更优,而在今年 1 月,英伟达又在 CES 上推出了 Rubin 平台,这两家芯片早已到了一个令人咋舌的更新速度。
当 GPU 市场走向一超多强,留给第三条技术路线的窗口期急剧收窄——客户可以用 AMD 这样的通用 GPU 厂商对冲英伟达,何必冒险押注尚未成熟的晶圆级系统 ?
Cerebras 的应对策略是彻底错位竞争。CS-3 系统不以训练平台自居,而是主打推理专用机,通过存算一体架构将推理延迟压到极致,同时简化软件栈。这种定位的精妙在于:推理市场的爆发才刚刚开始,生态锁定效应远弱于训练侧,而推理任务的多样性给专用架构留下了施展空间。OpenAI 的百亿订单本质上是在用真金白银验证这一商业逻辑,当推理成本占运营支出的大头时,15 倍的性能提升足以重塑供应商格局。
而特斯拉,则是押注于先进封装之上。台积电预计 2027 年推出的晶圆级 CoWoS 技术,将实现 40 倍于现有系统的计算能力、超过 40 个光罩的硅片面积、容纳 60+ 个 HBM 芯片——这几乎是为晶圆级集成量身定制的工艺路线。
当封装技术允许在单一衬底上集成数十颗预先测试的逻辑芯片和数十块 HBM,传统意义上的 " 大芯片 " 与 " 小芯片互联 " 之间的界限将变得模糊。此前特斯拉 D2 芯片选择的就是这条路:用 CoWoS 封装实现晶圆级性能,同时规避单片晶圆的良率风险,未来的 Dojo3 可能也会在这方面继续进行探索。
大芯片再度走入大家的视线,但 " 大 " 的边界似乎已悄然改变。
首先是物理尺寸上的 " 大 " —— Cerebras 那块占据整片晶圆的单芯片依然是技术奇迹,但商业价值被限定在特定场景。Cerebras WSE 系统大约需要 200 万至 300 万美元,迄今为止部署在阿贡国家实验室、梅奥诊所等机构,以及与 G42 合作的 Condor Galaxy 设施。它不会取代 GPU 成为通用训练平台,但可以在推理、科学计算等对延迟敏感的领域开辟新战场。
其次是系统集成度上的 " 大 " ——无论是特斯拉的晶圆级封装,还是英伟达 GB200 NVL72 的整柜方案——正在成为主流。SEMI 报告显示,2025 年全球晶圆厂设备支出将达 1100 亿美元,2026 年增长 18% 至 1300 亿美元,逻辑微组件领域在 2 纳米制程和背面供电技术等先进技术投资推动下成为关键驱动力。台积电 CoWoS 路线图的演进、HBM4 的标准化推进、UCIe 互联协议的普及,都在推动小芯片异构集成走向系统级单芯片化。
最后是商业模式上的 " 大 " ——这是真正的分水岭。OpenAI 与 Cerebras 的合作被广泛视为领先科技公司吸收有前途的 AI 芯片初创公司的又一例证,无论是通过直接收购,还是通过独家、大规模的商业合作关系,有效地将这些初创公司纳入一个主导的生态系统。SambaNova、Groq 和 Cerebras 各自采用了不同的技术方案,多年来被视为少数几家能够在特定工作负载方面与 AI 芯片市场行业领导者竞争的利基挑战者,但随着竞争加剧和客户接受度持续有限,许多此类初创公司难以突破与主要客户的试点部署阶段。
特斯拉 Dojo 的停摆与重启,本质上是一次昂贵的商业试错——它验证了全栈自研训练芯片对非云巨头不具可复制性,但也为推理侧的自主可控保留了技术储备。Cerebras 与 OpenAI 的联姻,则是在推理爆发前夜的一次精准卡位,用晶圆级架构的极致性能换取垂直场景的定价权。
在摩尔定律放缓、先进封装接力、AI 场景碎片化的三重背景下,晶圆级集成这条看似小众的技术路线,正在以意想不到的方式重新定义 " 大 " 的边界。
它们不是要复刻英伟达的成功,而是在 AI 算力版图的裂隙中,找到那些被通用方案忽视的价值洼地。从这个意义上说,它不是崛起或没落的二元叙事,而是一场关于如何在巨人阴影下生存,并最终开辟新疆域的持久战。
* 免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

