当前位置：前瞻产业研究院 » 经济学人 » 观察家专栏

闫俊杰不甘心

分享到：

字母榜 • 2025-06-09 15:59:20 　来源：字母榜　E3945G0

闫俊杰不甘心

（图片来源：摄图网）

作者|赵晋杰来源|字母榜(ID：wujicaijing)

从AI六小龙缩减为AI四小强后，四家明星大模型创业公司终于都要上线自己的推理模型了。

在智谱AI、月之暗面和阶跃星辰相继上线自研推理模型后，近期虎嗅爆料MiniMax筹备半年多的文本推理模型也即将发布。

有接近MiniMax的知情人士向字母榜（ID：wujicaijing）确认了上述爆料的真实性。

字母榜曾在《无人再谈AI六小龙》一文中率先指出，原本被冠以六小龙称号的队伍中，因为有人明显掉队（零一万物明确放弃追逐AGI，百川智能专注医疗垂类赛道），剩下的四家（智谱AI、MiniMax、月之暗面和阶跃星辰），也失去了如一条过江龙般，足以挑战乃至对抗大厂的资本和技术底气。曾经的AI六小龙，已经在新一轮大模型竞赛中滑落成了新的“AI四小强”。

曾几何时，四小强中的MiniMax一度引领行业之先。2023 年下半年，大部分国内大模型厂商还在继续迭代稠密模型（dense model）之际，MiniMax创始人兼CEO闫俊杰就把80%以上的研发和算力资源投到了一件不确定的事情上—— MoE（Mixture of Experts 混合专家模型）。

2024年 1 月，MiniMax上线的abab6，成为国内首个MoE大模型。此后，MoE架构彻底取代稠密架构，成了大模型领域技术迭代的新方向，年初爆火出圈的DeepSeek，应用的也是MoE。

但在DeepSeek R1掀起的新一轮推理模型浪潮中，MiniMax却成了那个后来者。当腾讯等玩家纷纷靠接入DeepSeek赚取用户关注之际，不甘心的MiniMax选择了一种折中方案：国内C端应用上坚持不接入DeepSeek，只在海外的AI应用上选择接入DeepSeek。

MiniMax的此番操作，不免让人联想到字节，后者同样选择不在国内主力C端应用豆包上接入DeepSeek，而是坚持等到后续自研推理模型的上线，才补上了深度思考的能力短板。

如今，闫俊杰也等来了一个如字节一般的机会，即尝试通过借助自家推理模型的上线，来重新证明MiniMax的技术底色。

一

缺失推理模型的影响，正从多个方面左右着大模型玩家的发展状态。

首当其冲的便是外界对其高估值和后续融资是否可持续的质疑。

2024年3月，MiniMax拿下6亿美元A轮融资后，投后估值来到25亿美元，这是MiniMax最后一次公开披露的投融资和估值信息。

2025年年初，外界有传闻MiniMax估值已经超过30亿美元，不过，据字母榜从接近MiniMax知情人士处获悉的消息，当前MiniMax估值已经超过40亿美元，仍然是当前四小强中估值最高的一家，“（MiniMax）全栈技术价值更高一些。”恒业资本管理合伙人江一如此评价道。

但迟迟未上推理模型，资本市场也开始重估MiniMax的估值体系。

比上线推理模型更难的是，不仅要有，作为后来者，还要做到比R1更好才行，“Kimi就是一个例子，尽管跟R1同时期上线了K1.5推理模型，但效果对比上显然败给了R1。”人工智能专家林峰博士说。

这也成了拖住MiniMax自家推理模型未能更早上线的因素之一。在MiniMax前员工李俊（化名）回忆中，去年中公司就开启了推理模型的研发工作。MiniMax高级研究总监钟怡然更是曾对外剧透，公司有望在4月到5月间，推出深度推理模型。

但现实的情况是，在技术迭代优化过程中，MiniMax食言了。按照当前进度来看，乐观情况下，MiniMax自研推理模型也要到6月中旬左右上线了。

因缺失推理模型所带来的深度思考能力短板，还使得MiniMax在应用侧难以吸引并聚拢起更多用户，考虑到国内应用还坚持不接入DeepSeek，这一难题无疑被进一步放大。

对比腾讯元宝，靠着率先接入DeepSeek的举动，其月活用户一跃从去年AI原生APP阵营中的others，变成了当前的行业TOP3（仅次于DeepSeek和豆包）。

B端的影响也在逐步显现。因为无法提供推理模型选项，公司可能会被迫将更多模型调用需求推向对手。

因模型能力短板或性价比因素而转投新阵营的事例比比皆是。去年5月DeepSeek掀起价格战后，作为第一家在旗舰模型上跟进降价的玩家，字节就曾靠着性价比优势，从MiniMax手中分润走了一部分AI儿童玩具公司Haivivi的语音模型调用需求。

二

拖累MiniMax推理模型更早上线的原因，一部分要归因于闫俊杰更大的赌性。

当DeepSeek、Kimi们着手研发推理模型之际，MiniMax则将重心放在了架构创新上。“相同的算力和资源的情况下，内部没有太多人力去做深度推理的，这导致我们跟随深度推理的脚步慢一点。”MiniMax高级研究总监钟怡然曾对外如此解释。

早于DeepSeek R1发布近一周，1月15日，MiniMax发布了MiniMax-01并正式开源，在新模型中首次尝试使用线性注意力架构Linear Attention。

官方介绍，MiniMax-01是首次在4000亿以上参数的大模型中，使用了线性注意力机制新架构（ChatGPT采用的标准Transformer是非线性注意力机制），能高效处理全球最长的 400万token上下文。

就像当年冒险赌注MoE一样，闫俊杰将筹码再次押在了Linear Attention上。

2024年4月，MiniMax成为第一批钻研Linear Attention的AI公司。随着MiniMax-01发布，公司内部也开始迎来新架构的更换，即从此前abab系列模型采用的Transformer架构，逐步更换为MiniMax-01模型采用的线性架构，后续视频、音乐等多模态模型更新，都将基于全新架构。

这也是MiniMax内部没有选择立马跟进OpenAI o1的原因之一。“我们认为单纯强调推理能力，可能仅会在某些特定方面增强模型性能。”钟怡然解释说。

然而，R1的发布，给了MiniMax一个措手不及，“我们发现融入这些推理能力，模型的外推能力显著提升，泛化能力更好。”为了追赶行业新态势，钟怡然所在的模型研发团队，整个春节期间都在赶工，以图加快推理模型上线。“内部给出的目标是，要做出比R1更好、甚至要达到o1或o3相近水准的推理模型，且实现多模态推理能力。”

不甘心的闫俊杰决定再次冒险：试图赶在DeepSeek前面，推出一个原生多模态深度推理模型，既能实现文本推理能力，又具备视觉理解能力。

但在虎嗅爆料中，MiniMax即将发布的推理模型则指具备文本理解能力。后续是否会加入视觉理解，还是分阶段逐步推出，目前仍留有悬念。

三

除了因冒险押注新架构带来的资源分散之外，在应用上的豪赌布局，也分散了MiniMax追求模型迭代的精力。

AI六小龙中，MiniMax布局几乎最广：既做To C，又做to B；既做国内，又做海外。庞大的业务策略，带来的代价之一便是产品和模型团队之间的“打架”。

MiniMax前员工李俊告诉字母榜，2024年，公司将收入和产品日活视为两大重要指标，甚至会出现这月追求收入，下月强调用户增长的频繁变动情况。

从2023年开始，围绕娱乐和生产力工具赛道，MiniMax一个都不打算放过：Talkie、星野、海螺AI相继问世，堪比AI圈的新APP工厂。

为了打造产品，闫俊杰还特意挖来前今日头条用户产品负责人张前川，给其赋予了公司合伙人的身份。

但豪赌一年后，闫俊杰为公司设立的2024年收入过亿美元和产品日活过千万两大目标，均未能实现。这也成为公司后续人员变动和组织架构调整的新导火索。

今年3月份，MiniMax负责商业化的合伙人兼副总裁魏伟离职，更早之前，从去年9月份开始，MiniMax产品负责人张前川，便淡出公司事务，改任产品顾问一职。

两大合伙人相继变动之下，MiniMax在应用侧也改变了策略：旗下AI应用“海螺AI”一分为二，拆分为一个主打AI助手的“MiniMax”，和侧重视频创作的“海螺AI”。

几次豪赌过后，闫俊杰吸取到的最大教训之一是，对技术品牌没有很深的认知。在2023年初认识梁文锋后，后者有两件事对闫俊杰一直带来启发：一是DeepSeek品牌做得非常好；另一个是DeepSeek一开始没有产品，所以更聚焦。

DeepSeek爆火并在短短时间内成为国内月活第一AI原生APP后，闫俊杰纠正了自己过去两年来的一个误区：即认为用户越多，模型能力提升越快。实际则是“更好的模型可以导向更好的应用，但更好的应用和更多用户并不会导向更好的模型。”

基于这一新的判断，闫俊杰重新做了取舍，不再将用户规模和商业化视作重点，而是重新将技术迭代确立为MiniMax的最重要目标。

四

但新的挑战接踵而至。

当下大模型赛道正进入淘汰赛，资金持续承压已成为行业现实。恒业资本管理合伙人江一爆料称，魏伟的离职原因之一，是因为融资KPI考核未达标。

但被融资困住的不只有MiniMax。“本质上是市梦率的时代在短短两年内已经结束。现在面临的是融资放缓+收入压力+战略调整的新阶段。”在江一看来，外界对大模型公司的考核标准，正从交付MaaS变成交付结果，竞争焦点也从过去比参数大小、多模态能力，偏向现在比谁能真正解决用户问题。

“最后市场状态，基础模型市场上正常情况下应该不超过三家。”怎么能确保继续留在这场大模型牌桌之上，持续获取融资的能力便成了决定胜负的关键手。

毕竟，无论是更新迭代模型能力，还是打造能够解决用户真实需求的Agent，无一例外都需要人才和算力资源的支撑，这些要素都得靠源源不断的金钱来维系运转。

稍有松懈，这些大模型厂商就可能面临被迫落后的局面：要么核心研发人员出走创业，要么在重要技术迭代方向上慢人一步。

即便解决好内部人才和资源问题，但随着DeepSeek重新激起大厂的AI热情，如MiniMax一般的初创公司，该如何在竞争中继续做出自己的技术亮点并保持领先地位，正变得越来越难。

MiniMax当前正寄望于用新的原生多模态推理模型重回舞台中央，但在这一领域，字节、阿里，腾讯，提前一步已经在文本推理模型之外，上线了图像推理模型：3月份，阿里通义千问团队推出QVQ-Max视觉推理模型；4月份，豆包深度思考模型专门打造了视觉版，具备视觉推理能力；5月份，腾讯混元T1-Vision上线元宝，可深度理解图片内容。

更大的竞争还在后面。延期后的MiniMax推理模型，即将直面DeepSeek R2和GPT-5的竞争，后两者都有望在今年下半年上线。

近期在墨西哥举办的AI Summit上，OpenAI代表确认正在开发下一代基础模型GPT-5，并有望年内上线。

DeepSeek R2的推出步伐也越来越近。按照DeepSeek以往内部模型每7个月一更新的节奏，新一代V4模型有望在今年7月份亮相。如果梁文锋希望在V4版本上训练R2,以R1与V3相隔1个月的推出时间差评估，R2最快便有望在8月份上线。

对于想要继续留在牌桌上的闫俊杰而言，这场AI大模型的竞争还远没到尽头。

参考资料：

《MiniMax正暗戳戳憋大招》虎嗅

《奥特曼逼梁文锋出大招》直面AI

《晚点对话 MiniMax 闫俊杰：创业没有天选之子》晚点对话

《3700 次预训练寻找 “线性注意力” 非共识，MiniMax-01 开发者讲述 4 年探索》晚点LatePost

《MiniMax-01开源：新架构开启Agent时代》MiniMax稀宇科技

《MiniMax：7000万美金营收下的甜蜜和隐忧》智能涌现

《MiniMax大模型每日与世界的30亿次交互》MiniMax稀宇科技