盛赞完DeepSeek,黄仁勋就发新模型要抢客户
来源:中阳国际期货 作者:qihuo
从揭晓新AI处理器致敬女天文学家,到发布首款开源机器人(19.760, -0.19, -0.95%)模型,再到盛赞DeepSeek并强调不会冲击自家芯片需求,最后又发布一款新推理模型号称可以秒杀DeepSeek;这构成了今天黄仁勋在GTC大会主题演讲的几个精彩时刻。
还是那身黑色皮衣,黄仁勋走上GTC舞台,宣布自己依然不会使用提词器,甚至笔记都没有准备。激情即兴是他的演讲标志风格,拿着幻灯片遥控器就可以一路说下去。
今天在加利福尼亚州圣何塞举办的GTC 2025大会上,英伟达CEO黄仁勋向全球展示了他们在人工智能(AI)领域的最新技术突破。从宣布下一代GPU架构到将AI带入商用,宣布快餐巨头Taco Bell的合作,英伟达不仅巩固了其在AI计算领域的领导地位,还将其技术触角延伸至零售服务业。
这是英伟达在疫情之后第二次在圣何塞举办GTC大会。本次大会吸引了约2.5万名与会者,包括微软、谷歌、Waymo和福特等行业巨头,共同探讨AI硬件的未来应用。
早上八点SAP体育场外就排起了队,只为了尽早入场现场聆听黄仁勋的主题演讲,因为体育馆场内座位有限,排在后面的只能在外面看大屏幕。黄仁勋开玩笑称,自己需要更大的会场。
为什么GTC大会如此吸引关注?作为AI时代的引擎提供商,英伟达在短短两年就成为了半导体巨无霸,甚至一度市值超过苹果,成为了全球市值最高企业。不夸张地说,整个科技行业都在密切关注英伟达的每一次发布会,关注着新一代处理器,因为这直接关系到未来几年的AI算力。
那么今天的GTC 2025,黄仁勋宣布了哪些重磅产品与消息?
新处理器致敬女天文学家
如外界预期,黄仁勋在主题演讲中发布了全新AI处理器“Vera Rubin”,以美国女天文学家维拉·鲁宾(1928-2016)命名。这款芯片整合了英伟达首款定制CPU “Vera”和全新设计的GPU,标志着英伟达在处理器设计上的重大突破。这款处理器预计于2026年下半年出货。
Vera CPU基于英伟达自研的Olympus核心架构,此前英伟达多依赖Arm的现成设计(如Cortex系列)。定制化设计让Vera在性能上比Grace Blackwell芯片中的CPU快约两倍,具体表现为更高的每时钟周期指令数(IPC)和更低的功耗。
英伟达表示,这款全新处理器将采用台积电的3nm工艺制造,晶体管密度较5nm工艺提升约2.5倍,达到每平方毫米约1.5亿个晶体管。这种工艺进步显著提升了计算效率,尤其适合AI推理任务的高并行需求。
Rubin GPU技术上由两个独立芯片组成,通过英伟达的NV-HBI(High Bandwidth Interface)技术以超高带宽互联,工作时表现为单一逻辑单元。其核心规格包括支持高达288GB的HBM3e内存(高带宽内存第三代增强版),带宽达每秒5TB,比Blackwell的HBM3内存(141GB,带宽4TB/s)提升显著。
在推理任务中,Rubin可实现50 petaflops的性能(每秒5´10¹⁶次浮点运算),是当前Blackwell芯片(20 petaflops)的两倍多。这一提升得益于其新增的Tensor Core单元,专为矩阵运算优化,加速深度学习模型的推理和训练。
Rubin的目标客户包括亚马逊和微软等云服务商和AI研究机构。其高内存容量和计算能力特别适合运行大型语言模型(如Llama 3或Grok),这些模型通常需要数百GB内存来存储权重和中间结果。英伟达还展示了Rubin支持的新软件工具包Dynamo,可动态优化多GPU协同工作,进一步提升性能。
除了Rubin之后,黄仁勋还宣布英伟达计划在2027年下半年推出”Rubin Ultra”,将四个GPU芯片集成于单一封装,性能高达100 petaflops。
Rubin Ultra采用名为NVLink 5.0的下一代互联技术,芯片间带宽预计达每秒10TB,比NVLink 4.0(600GB/s)提升一个数量级。这种设计允许将多个Rubin Ultra组合成超级计算集群,如Vera Rubin NVL144机架(含144个GPU),为超大规模AI训练提供支持。
Rubin Ultra的每个GPU核心预计包含超过200亿个晶体管,采用2nm工艺制造,功耗控制在约800W以内(相比Blackwell单芯片700W)。其内存支持升级至HBM4,提供高达576GB容量,带宽预计达每秒8TB/s。这种配置使其能处理复杂的生成式AI任务,如实时视频生成或多模态模型推理。
虽然Rubin两款处理器堪称怪兽级别,但市场需要等到明后年才能部署。英伟达计划今年下半年推出当前Blackwell系列的增强版产品——Blackwell Ultra。
Blackwell Ultra提供多种配置,包括:
- 单芯片版本(B300):20 petaflops性能,288GB HBM3e内存;
- 双芯片版本(GB300):搭配Arm CPU,功耗约1kW;
- 机架版本:含72个Blackwell芯片,适用于数据中心。
Blackwell Ultra的亮点是内存升级(从192GB增至288GB)和更高的token生成速率。英伟达称,其每秒可生成更多AI输出(如文本或图像),适合时间敏感的应用。云服务商可利用其提供高级AI服务,潜在收入可能是2023年Hopper芯片的50倍。
此外,黄仁勋还透露,英伟达计划在2028年将推出以物理学家理查德·费曼(Richard Feynman)命名的Feynman GPU。Feynman将延续Vera CPU设计,但架构细节未公开。预计其将采用1.5nm工艺,性能可能突破200 petaflops,目标是支持下一代AI代理模型,如具备推理能力的自主系统。