作者 | 周易暁メール | zhouyixiao@pingwest.com sukeケーringu法は壁にぶつかりました。 AI界では1年多前からこの声を闻いていた。从Gary Marcus对收入下降的批评,到有关OpenAI下一代Orion模型进展不佳的传言,再到许多人在GPT-5发布时觉得“不足为奇”。释放。看来,一直追求奇迹的公式真的走到了尽头。我们第一次真正在功能、推理、速度、成本、生态等各个方面都赶上了并超越了OpenAI。视界には壁がありません。重要的是,Gemini 3并不是通过更换新架构来实现的。谷歌表示,这一进步是由训练前后的公式更新推动的。阶段。 25ん。あるいは、データを处理するための新しい技术を発见したのかもしれません。しかし、理由が何であれ、谷歌は「事前トreninguにはまだ改善の余地がある」と公言するつもりだ。これ自体がシグナルです。缩放の2つの主要グ前とtoreningu后がまだ终わっていません。 2.5と3.0 与此同时,马斯克的xAI宣布其超级计算集群Colossus已扩展到20万个GPU,目标是100万个。我做到了。 OpenAI、Anthropic 和 Microsoft 还斥资数千亿美元扩建其数据中心。如果规模化真的已经死了,这些人还押注什么呢? 1.没有墙。我们先来看最直接的证据。 Gemini 3 证明,即使算法改进提高了计算能力,预训练缩放仍然有效。 DeepMind 前研究科学家 Oriol Vinyals 将 Gemini 3 的改进归因于两件事:训练前和训练后。这不是一种新方法,而是对现有方法的改进。换句话说,并不是缩放不起作用,而是因为旧方法不够好。黄仁勋提出了一个更加系统的框架。目前,三个缩放曲线同时运行:训练前缩放、训练后缩放和推理时间缩放(测试时间计算)。传统的预训练扩展使用更多的数据和计算能力来训练更大的模型。训练后缩放使用 RLHF、DPO 和 o这些技术在训练后继续优化。推理期间的缩放可用于增加模型在回答问题时“思考”的时间,例如 OpenAI 的 o1 系列。 Sam Altman 在 2025 年初的一篇博客中更直接地写道。他说,模型的智能水平大约等于用于训练和运行模型的资源的对数。这看起来似乎是个坏消息,但硬币的另一面是,只要你愿意继续投资,你的模型就会不断改进。曲线没有弯曲。您只需要了解对数坐标中的斜率。谷歌 DeepMind 首席执行官 Demis Hassabis 也同样清楚。他在一次公开活动中表示,现有系统至少将成为最终 AGI 系统的关键组成部分,在某些情况下,甚至是全部,这将限制扩展。他说有必要向前迈进。如果扩展方法确实遇到了障碍,那么很难解释为什么该行业仍在花费大量时间他们以前所未有的速度。这些人到底在赌什么?即使我们退一步说,计算能力可以用于推理而不是训练,但如此大规模的投资也必须得到模型能力的不断改进的支持。如果没有,为什么?是否值得在停滞的模式下建设价值数万亿美元的基础设施? 1 他们说的不是同一件事。然而,如果你仔细聆听各方的说法,就会发现一个有趣的现象。大家谈论的缩放定律可能并不完全相同。传统意义上的缩放定律非常简单。更多的数据、更大的模型和更强的计算能力等于更强的性能。这是2020年著名的OpenAI论文所建立的范式,也是近年来大规模模型竞赛中的底层逻辑。至于曲线,它确实在放缓。数据几乎耗尽,纯堆参数的边际效益正在减少。这是真实的。然而,目前业界讨论的扩展不仅仅只是这个维度。黄仁勋提出的三步框架就是一个例子。前期训练只是第一阶段,相当于把你的模型送到大学去获取广泛的基础知识。研究生培训相当于研究生院,侧重于特定领域的额外研究。测试期间的计算是第三步,相当于让模型思考问题,而不是在回答问题之前脱口而出。 o1、DeepSeek-R1等推理模型的出现基本上是第三阶段的盛行。 IBM 的 Mixture of Experts 播客有一个更有趣的观点。在讨论Gemini 3时,几位嘉宾提出了这样的问题:“我们是否应该将其称为实验尺度定律而不是尺度定律?”也就是说,算力变大的真正作用并不是它直接转化为它进入了智能,而是让研究人员能够更快地进行实验、实验和迭代。计算能力的提高可以提高实验速度、改进算法并最终增强模型。这就是攀登的真正意义。因此,即使Scale的营收持续下滑,排名靠前的公司也不会盈利。跟上比赛的压力。从这个角度来看,Ilya Satskeva所说的重返研究时代与其他人所说的缩放方法不会消亡并不矛盾。伊利亚的论点是,简单粗暴的公式已经用尽,单纯靠积累资源不会出现奇迹。但他从未说过计算能力不重要。他的意思是我们又回到了使用大型计算机进行研究的时代。计算能力是先决条件,但不再是唯一变量。当然,Ilya的说法不能完全被认为是纯粹的技术判断nt。他目前正在通过采取非商业方法并专注于基础研究来致力于安全超智能。说扩张时代已经结束,研究时代又回来了,这在某种程度上意味着初创公司正在寻找差异化的故事。因此,与其问缩放是否已死,不如问哪些曲线正在减速,哪些曲线正在加速。一、各方立场 就立场和利益而言,这场争论中各方的立场都十分明确。 Nvidia 是最明显的。无论缩放法则如何发展,无论您是进行堆前训练、堆后训练还是堆推理,您仍然需要 GPU。对他来说,三条曲线变成一条还是十条并不重要。只要大家都坚持攀登,他就是卖铲子的人。所以他当然说他没有死,而且还有三个人。 OpenAI、Google 和 Anthropic 等 C 型公司也是如此。他们正在建设的数据中心的投资规模投资或规划金额达数百亿美元。在某些情况下,它达到数千亿美元。钱已经花掉或承诺了。如果说扩展方法在这一点上失败了,那就是说正在进行错误的投资。从企业盈利的角度来看,企业必须像投资者一样相信规模扩张仍然有效。马斯克的xAI也遵循这个逻辑。他多次警告,人工智能中长期最大的瓶颈将从芯片转向发电和电网。未来几年,数据中心和人工智能集群将消耗全球大量电力,对电网造成严重限制。结合他疯狂堆叠GPU和建造超级工厂/超级计算能力集群的行为,很难说我主观上认为增加更多的计算能力不会改善任何事情。看来伊利亚和他的SSI是站在另一边的。但是,如果您认为如此看来,他的立场是相当合理的。 SSI 没有与 OpenAI 或 Google 同等水平的资金,无法与算力竞争。此时,更重要的是说规模化时代已经结束,研究的进步既是技术决策,也是竞争策略。它需要让投资者相信,还有另一条通往超级智能的道路,可能不需要数万亿美元的基础设施。另一个是“世界模范学校”。 Yann LeCun 和李飞飞都认为,无论他们在目前的 LLM 道路上扩大多少规模,都很难创建一个真正的 AGI。 Yann LeCun 创立了 AMI,一家专注于全球模特的公司。他认为法学硕士很有用,但它是“自动完成高级”。真正的通用智能需要一种新的架构:世界模型+自监督学习+规划+持久记忆+具身交互。 World Labs由李飞飞创立,押注于世界模型和空间智能,专注于可以重建和生成 3D 世界的基本模型,而不是构建大规模的聊天法学硕士。我正在做。从这个意义上说,它们都代表了与“只是让语言模型更大”不同的扩展路径。世界模型意味着学习环境的动态和结构,而不是简单地学习令牌。因此,这场争论与其说是技术上的分歧,不如说是双方都讲述了对自己有利的不同版本的故事。 1 DeepSeek 的一句话 中国人工智能公司在这场讨论中占有特殊的地位,而 DeepSeek 或许是最具代表性的例子。去年,DeepSeek 利用其极高的计算能力效率构建了一个模型,该模型的构建成本远低于硅谷同行。这曾经被解释为缩放定律的反例。不用花很多钱就可以做一些好事。然而,这可能是一种误解。 DeepSeek 真正展示了什么其原因在于,架构优化和工程能力可以在相同的算力预算下产生更好的结果。用他们自己的话来说,他们将缩放曲线转向节省计算能力。但曲线本身仍然存在。如果想要晋级,就需要投入更多的资源。这在DeepSeek-V3.2白皮书中有明确说明。总之,他们直接认识到该模型在世界知识广度上的缺点主要是由于训练的总计算能力低于更现代的闭源模型。为了弥补这一缺陷,只有一种方法来扩展预训练计算能力。翻译成一句话:“我要买更多的卡。”这也适用于下一代模型。这就是中国人工智能企业的现实。算法优化和工程效率是当前的障碍,但不是永久性的。从长远来看,计算能力如果缩放法则仍然存在,这将成为不可避免的障碍。如果芯片有限,这意味着寻找其他方法或利用有限的资源最大化效率。惨痛的教训:足够的GPU,只要我有足够的计算能力,我就能碾压你。 1 升级已死,升级万岁。回到最初的问题,缩放已经死了吗?根据目前的证据,答案是否定的。 Gemini 3的业绩、投资持续Nua的几家公司以及技术演进的方向都指向了相同的结论。缩放仍然有效,但方法已更改。过去简单粗暴的公式——更大、更强大——肯定面临障碍。但攀岩的意义正在发生变化。训练前、训练后和测试计算都有自己的增长曲线。计算能力值也直接转换:它成为一个智能的基础设施,加速实验和迭代。对于大型制造商来说,扩张是不仅是一个技术问题,更是一个平衡问题。已宣布和在建的数据中心项目数量仍然很高,模型能力需要不断改进才能吸收这些投资。因此,这并不意味着一切都很乐观,模型正在变得越来越强大,但如果紧缩的程度足以支撑当前的估值和投资规模,那就是另一回事了。华尔街有句俗话:“趋势是你的朋友,直到它不再是你的朋友。”缩放定律也是如此:它一直有效,直到不起作用为止。但那一天显然还没有到来。 单击“爱”即可。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(含图片、视频,如有)由社交媒体网易号用户上传发布仅提供信息存储服务的媒体平台。