奥特曼发红色警报,大模型走进死胡同了吗?

(图片来源:摄图网)
作者|苗正 来源|直面AI(ID:faceaibang)
昨天,OpenAI CEO奥特曼发出了一份内部备忘录,宣布公司进入“Code Red”(红色警报)紧急状态。
表面上看,这是OpenAI针对谷歌、Anthropic这两位强力竞争对手的应急响应。
但更深层的问题是,OpenAI正在面临一个整个行业都无法回避的技术困境。那就是训练成本飙升,模型规模不断扩大,但性能提升却越来越有限。
根据斯坦福大学的《2025年AI指数报告》,2019年到2022年间,训练成本每增加10倍,模型在主流基准测试上的性能平均能提升25%-35%。但到了2023年之后,同样10倍的成本投入,性能提升就只剩下10%-15%。
更糟糕的是,2024年以来,即使训练成本再翻倍,性能提升往往不足5%,投入产出比正在断崖式下跌。
各家头部模型的表现开始趋同,仿佛集体撞上了某种看不见的天花板。
这引发了一个在AI学术界和产业界激烈争论的问题:大语言模型,是否已经走进了死胡同?
01
首先从用户数据来看,OpenAI的领先地位已经开始动摇。
谷歌的Gemini 3模型在基准测试上超越了OpenAI,这使得Gemini的月活用户飙升,谷歌第三季度财报披露,目前Gemini的月活已经从7月的4.5亿增长到10月的6.5亿。
与此同时,Anthropic的Claude也在企业客户中越来越受欢迎。根据OpenRouter的数据,截至2025年11月末,Claude的周访问量达0.41亿人次,较六周前增长17.1%。
但更要命的消息还在后面。
根据半导体行业分析公司SemiAnalysis的爆料,自2024年5月GPT-4o发布以来,OpenAI的顶尖研究人员就再也没有成功完成过一次大规模的全面预训练。
这意味着GPT-5跟GPT-4o之间,其实没有经历真正意义上的代际升级,更像是在GPT-4o基础上做的微调和优化,而不是一个全新训练出来的模型。
SemiAnalysis还在分析中给OpenAI补了一刀:“预训练一个前沿模型,是整个AI研发中最困难、资源最密集的挑战。而谷歌的TPU平台已经决定性地通过了这个测试,可OpenAI并没有。”
预训练是训练大语言模型的第一步,也是最关键的一步。在这个阶段,模型要在海量的文本数据上学习语言的基本规律,比如语法、语义、事实知识等等。
无法完成大规模预训练,就无法升级迭代到下一个时代的模型,这对于OpenAI这种必须保持技术领先的企业来说是致命的。
MMLU的跑分进一步佐证了SemiAnalysis的观点。其全称为大规模多任务语言理解(Massive Multitask Language Understanding),是衡量大模型综合知识与推理能力的核心权威基准测试。
从结果来看,GPT-5的MMLU评分只比GPT-4提升了10%-20%。
要知道,Anthropic CEO 达里奥·阿莫迪(Dario Amodei)曾公开表示,2024-2025年期间的大模型,训练成本是10亿到20亿美元,是一年前大模型训练成本的10倍。而GPT-5的成本更是比GPT-4(约 6000万-1亿美元)高了约20-30倍。
面对如此的双重困境,奥特曼不得不调整策略,将重心转向优化现有产品。
奥特曼在备忘录中表示,公司需要改进ChatGPT的个性化功能、提高速度和可靠性、扩大其可回答的问题范围。
为此,OpenAI决定推迟广告、健康和购物AI代理、名为Pulse的个人助手等其他项目的开发,鼓励员工临时调岗,每天召开专门会议讨论ChatGPT的改进。
在此之前,OpenAI曾于2025年10月拉响过“Code Orange”(橙色警报)。
OpenAI内部的警报分为三个级别:黄色、橙色、红色。颜色越红,就代表事态越严重。而拉响内部警报的标准,是根据OpenAI当前的市场竞争压力和产品危机。
橙色警报对应明确的竞争威胁或产品危机,核心业务已出现 “被动局面”,比如市场份额被蚕食、用户流失。需要OpenAI “局部资源倾斜” 应对。
当时OpenAI的做法是成立 “应急优化小组”,由产品、技术、算法核心负责人牵头,调配 50% 以上的研发资源聚焦核心产品。
02
但OpenAI不是唯一陷入瓶颈的公司,整个行业都在面临同样的困境。
从2024年底到2025年初,顶尖大模型的性能提升曲线出现了明显的平缓。根据LMSYS Chatbot Arena的盲测数据,2024年6月时,排名第一和第十的模型之间Elo评分差距超过150分。
但到2025年11月,这个差距已经收窄到不足50分。更值得注意的是,几乎所有主流模型在关键基准测试上的得分都开始集中在一个狭窄的区间内。这种趋势意味着,即使各家公司投入的资源差异巨大(从数千万美元到数十亿美元不等),但最终产出的模型性能却越来越相似。
在2023年3月,OpenAI刚发布GPT-4时,其在MMLU测试中的得分确实为86.4%。而当时主流竞争对手的成绩大多集中在60%-75%区间,比如同期的Claude v1在该测试中得分仅为75.6%,LLaMA-65则只有 63.4%。
可是到了2025年9月的MMLU-Pro(MMLU的进阶版评测基准,评分标准更严格)中,所有的头部模型都是85%到90%,几乎没有任何差别。
从更新的频率来看,Meta的Llama模型从第二代到第三代间隔约9个月,而Llama 3到计划推出的Llama 4间隔已超15个月;Anthropic从Claude 3到Claude 4的间隔也长达11个月。
种种迹象都在表明,曾经被奉为大语言模型黄金定律的Scaling Law,正在失效。
造成这一结果的原因,其实就来自于大模型本身。
大模型训练的核心任务是“预测下一个词”。
通过在海量文本上反复训练这个任务,模型逐渐学会了语法、常识、推理能力等。当模型已经足够强,明白语法和常识时,语言本身的不确定性就成为了影响模型输出结果的变量。
举个例子:“他把苹果放在桌子上,然后它就不见了。”这里的“它”是指苹果还是桌子?从语法上讲,两种理解都说得通。要搞清楚“它”指什么,需要的不是更好的语法知识,而是对现实世界的常识判断。
但如果换一种说法:“他把手机放在桌子上,然后它就倒了。”这里的“它”可能是手机,也可能是桌子。如果是廉价折叠桌,确实可能因为放了个手机就倒了;如果是手机壳打开了,手机本身也可能倒。没有足够的上下文,连人类也很难做出准确判断。
这种由语言本身的歧义和不确定性造成的误差,在统计学上叫“不可约误差”(Irreducible Error),或者“贝叶斯误差率”(Bayes Error Rate)。
即使你有完美的算法、无限的数据和算力,这个误差也无法消除,它是问题本身固有的特性。
人类语言充满了这种不确定性。我们平时说话,很多信息靠语境、肢体语言、声调、共同背景知识来传递。把这些都去掉,只留下纯文本,信息损失巨大。
大语言模型训练的就是这些纯文本,所以天生就会面临不可约误差的限制。
当模型还比较弱时,它会犯很多低级错误,比如语法错误、事实错误、逻辑错误。解决这些可以通过增加数据、增大模型、改进算法来实现。但当模型已经足够强,不再犯低级错误时,剩下的错误主要就是这种不可约的、由语言本身特性造成的误差。
到这个阶段,再怎么砸钱砸资源,提升也是有限的。
第二个问题是数据枯竭。到GPT-4的时候,OpenAI几乎已经把整个互联网上的高质量文本都学完了。各种百科、数字图书馆、GitHub代码、Reddit讨论、各种专业论文和文档。
能用的高质量数据基本都用完了。剩下的是大量低质量内容,比如广告软文、垃圾帖子、重复内容、机器生成的垃圾信息。
要解决数据不足,一些厂商开始用AI生成数据来训练AI。但这会导致一个严重问题,叫“模型崩溃”(Model Collapse)。简单说,如果一个模型只吃自己或其他模型产出的数据,它的多样性会下降,甚至会放大自身的错误和偏见,最终导致模型变得越来越笨,输出越来越单调。
这个过程有点像生物学上的近亲繁殖。在生物界,如果一个种群长期近亲繁殖,基因多样性会逐渐丧失,遗传缺陷会被放大,最终导致种群退化。模型崩溃也是同样的道理。
2024年发表在Nature上的一篇论文《当 AI 模型在递归生成的数据上训练时,会出现性能崩溃》(AI models collapse when trained on recursively generated data),就系统研究了这个问题。研究人员发现,在早期模型崩溃阶段,模型会首先丢失数据分布尾部的信息。到了后期,整个数据分布会收敛到一个非常狭窄的范围,跟原始数据几乎没有相似之处。
研究人员做过实验:用一个预训练好的语言模型生成一批文本,然后用这批文本训练新模型,再用新模型生成文本,再训练更新的模型……如此反复几代后,模型的输出变得越来越单调、重复,原本数据中那些出现频率较低但很重要的信息(比如专业领域知识、小众但正确的观点)逐渐消失了。
每一代模型生成数据时,都会倾向于生成那些在训练数据中最常见、最“安全”的内容。那些出现频率低的、边缘的信息,在生成的数据中出现概率会更低。经过几代迭代,这些信息就彻底丢失了。
更麻烦的是,现在互联网上已经充斥着大量AI生成的内容。ChatGPT发布后,网络上的文章、社交媒体帖子、甚至学术论文,都开始出现越来越多AI生成痕迹。
如果未来模型通过爬取互联网获取训练数据,不可避免地会把这些AI生成内容也包含进去。这意味着,模型崩溃不再只是实验室里的理论问题,而是整个AI行业都将面临的实际威胁。
03
关于大语言模型是否进入了死胡同,这个问题其实一直充满争议。
以AI教母李飞飞为代表的维新派认为:大语言模型不是万能的,它只是AI系统中的一个组件。要实现真正的人工智能,需要把不同类型的任务分配给不同类型的模型。
李飞飞曾直言不讳地说,AGI是一个营销术语,不是科学术语。现如今真正缺失的不是“通用智能”,而是“空间智能”,也就是理解和操作三维物理世界的能力。
她认为,未来的AI系统可能是“世界模型”(World Model)。它的核心能力是理解三维空间、物理规律和因果关系。它不是通过学习文本理解世界,而是通过观察视频、图像、传感器数据来建立对物理世界的认知。
世界模型使用严格的逻辑规则和数学证明技术,而不是像现在的大语言模型一样依赖统计模式。
谷歌DeepMind开发的AlphaGeometry就是这个方向的例子,它能够解决奥林匹克竞赛级别的几何问题,靠的不是语言模型,而是符号推理系统和神经网络的结合。
图灵奖得主、Meta前首席AI科学家杨立昆(Yann LeCun)对语言模型路径的批评更加直接。他形容这条路径是“给鹦鹉喂更大的芯片”。
在他看来,语言模型只是在学习统计规律,在做模式匹配,并没有真正理解世界。要实现真正的智能,必须让AI建立对物理世界的模型,理解物体、空间、时间、因果关系这些基本概念。
彼时,大语言模型将会成为“翻译官”。当用户用自然语言提出需求时,大语言模型负责理解需求,把它翻译成机器能处理的指令,分配给合适的像是世界模型这样的子系统来执行。
当任务完成后,大语言模型再把结果翻译成自然流畅的人类语言输出给用户。
OpenAI和Anthropic则是守旧派。
奥特曼认为,只要把语言模型继续放大,投入更多数据和算力,智能就会“自动涌现”。
他相信,当模型规模达到某个临界点时,会突然展现出质的飞跃,获得真正的理解能力和推理能力。这个观点在业内被称为“scaling hypothesis”(规模假说)。
OpenAI联合创始人兼首席科学家伊尔亚·苏兹科维(Ilya Sutskever)的观点是压缩就是理解。
他坦言,“如果你能把全世界的数据无损地压缩进一个大语言模型的神经网络,那么这个模型就在内部构建出了一个关于这个世界的真实模型。”
Anthropic的联合创始人杰拉德·卡普兰(Jared Kaplan)则认为语言模型本身可能不是智能,但可以成为智能的基础。他认为通过改进训练方法、增强安全性对齐、结合其他技术,语言模型路径仍然有潜力达到AGI。
MIT的认知学家伊芙琳娜·费多林柯(Evelina Fedorenko)以及多位MIT和伯克利的学者,在《Nature》期刊上发表文章,他们指出:语言不是思维,人类的思维是独立于语言的。婴儿在学会说话之前就已经有了对物理世界的理解,对因果关系的认知。盲人和聋人虽然缺失某些感官通道,但思维能力并不受影响。
语言主要是交流工具而非思维工具,语言模型也就不可能是真正的人工智能。
编者按:本文转载自微信公众号:直面AI(ID:faceaibang),作者:苗正
品牌、内容合作请点这里:寻求合作 ››

前瞻经济学人
专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

























