报告服务热线400-068-7188

闫俊杰不甘心

分享到:
20 字母榜 • 2025-06-09 15:59:20  来源:字母榜 E960G0

闫俊杰不甘心

(图片来源:摄图网)

作者|赵晋杰 来源|字母榜(ID:wujicaijing)

从AI六小龙缩减为AI四小强后,四家明星大模型创业公司终于都要上线自己的推理模型了。

在智谱AI、月之暗面和阶跃星辰相继上线自研推理模型后,近期虎嗅爆料MiniMax筹备半年多的文本推理模型也即将发布。

有接近MiniMax的知情人士向字母榜(ID:wujicaijing)确认了上述爆料的真实性。

字母榜曾在《无人再谈AI六小龙》一文中率先指出,原本被冠以六小龙称号的队伍中,因为有人明显掉队(零一万物明确放弃追逐AGI,百川智能专注医疗垂类赛道),剩下的四家(智谱AI、MiniMax、月之暗面和阶跃星辰),也失去了如一条过江龙般,足以挑战乃至对抗大厂的资本和技术底气。曾经的AI六小龙,已经在新一轮大模型竞赛中滑落成了新的“AI四小强”。

曾几何时,四小强中的MiniMax一度引领行业之先。2023 年下半年,大部分国内大模型厂商还在继续迭代稠密模型(dense model)之际,MiniMax创始人兼CEO闫俊杰就把80%以上的研发和算力资源投到了一件不确定的事情上—— MoE(Mixture of Experts 混合专家模型)。

2024年 1 月,MiniMax上线的abab6,成为国内首个MoE大模型。此后,MoE架构彻底取代稠密架构,成了大模型领域技术迭代的新方向,年初爆火出圈的DeepSeek,应用的也是MoE。

但在DeepSeek R1掀起的新一轮推理模型浪潮中,MiniMax却成了那个后来者。当腾讯等玩家纷纷靠接入DeepSeek赚取用户关注之际,不甘心的MiniMax选择了一种折中方案:国内C端应用上坚持不接入DeepSeek,只在海外的AI应用上选择接入DeepSeek。

MiniMax的此番操作,不免让人联想到字节,后者同样选择不在国内主力C端应用豆包上接入DeepSeek,而是坚持等到后续自研推理模型的上线,才补上了深度思考的能力短板。

如今,闫俊杰也等来了一个如字节一般的机会,即尝试通过借助自家推理模型的上线,来重新证明MiniMax的技术底色。

缺失推理模型的影响,正从多个方面左右着大模型玩家的发展状态。

首当其冲的便是外界对其高估值和后续融资是否可持续的质疑。

2024年3月,MiniMax拿下6亿美元A轮融资后,投后估值来到25亿美元,这是MiniMax最后一次公开披露的投融资和估值信息。

2025年年初,外界有传闻MiniMax估值已经超过30亿美元,不过,据字母榜从接近MiniMax知情人士处获悉的消息,当前MiniMax估值已经超过40亿美元,仍然是当前四小强中估值最高的一家,“(MiniMax)全栈技术价值更高一些。”恒业资本管理合伙人江一如此评价道。

但迟迟未上推理模型,资本市场也开始重估MiniMax的估值体系。

比上线推理模型更难的是,不仅要有,作为后来者,还要做到比R1更好才行,“Kimi就是一个例子,尽管跟R1同时期上线了K1.5推理模型,但效果对比上显然败给了R1。”人工智能专家林峰博士说。

这也成了拖住MiniMax自家推理模型未能更早上线的因素之一。在MiniMax前员工李俊(化名)回忆中,去年中公司就开启了推理模型的研发工作。MiniMax高级研究总监钟怡然更是曾对外剧透,公司有望在4月到5月间,推出深度推理模型。

但现实的情况是,在技术迭代优化过程中,MiniMax食言了。按照当前进度来看,乐观情况下,MiniMax自研推理模型也要到6月中旬左右上线了。

因缺失推理模型所带来的深度思考能力短板,还使得MiniMax在应用侧难以吸引并聚拢起更多用户,考虑到国内应用还坚持不接入DeepSeek,这一难题无疑被进一步放大。

对比腾讯元宝,靠着率先接入DeepSeek的举动,其月活用户一跃从去年AI原生APP阵营中的others,变成了当前的行业TOP3(仅次于DeepSeek和豆包)。

B端的影响也在逐步显现。因为无法提供推理模型选项,公司可能会被迫将更多模型调用需求推向对手。

因模型能力短板或性价比因素而转投新阵营的事例比比皆是。去年5月DeepSeek掀起价格战后,作为第一家在旗舰模型上跟进降价的玩家,字节就曾靠着性价比优势,从MiniMax手中分润走了一部分AI儿童玩具公司Haivivi的语音模型调用需求。

 二

拖累MiniMax推理模型更早上线的原因,一部分要归因于闫俊杰更大的赌性。

当DeepSeek、Kimi们着手研发推理模型之际,MiniMax则将重心放在了架构创新上。“相同的算力和资源的情况下,内部没有太多人力去做深度推理的,这导致我们跟随深度推理的脚步慢一点。”MiniMax高级研究总监钟怡然曾对外如此解释。

早于DeepSeek R1发布近一周,1月15日,MiniMax发布了MiniMax-01并正式开源,在新模型中首次尝试使用线性注意力架构Linear Attention。

官方介绍,MiniMax-01是首次在4000亿以上参数的大模型中,使用了线性注意力机制新架构(ChatGPT采用的标准Transformer是非线性注意力机制),能高效处理全球最长的 400万token上下文。

就像当年冒险赌注MoE一样,闫俊杰将筹码再次押在了Linear Attention上。

2024年4月,MiniMax成为第一批钻研Linear Attention的AI公司。随着MiniMax-01发布,公司内部也开始迎来新架构的更换,即从此前abab系列模型采用的Transformer架构,逐步更换为MiniMax-01模型采用的线性架构,后续视频、音乐等多模态模型更新,都将基于全新架构。

这也是MiniMax内部没有选择立马跟进OpenAI o1的原因之一。“我们认为单纯强调推理能力,可能仅会在某些特定方面增强模型性能。”钟怡然解释说。

然而,R1的发布,给了MiniMax一个措手不及,“我们发现融入这些推理能力,模型的外推能力显著提升,泛化能力更好。”为了追赶行业新态势,钟怡然所在的模型研发团队,整个春节期间都在赶工,以图加快推理模型上线。“内部给出的目标是,要做出比R1更好、甚至要达到o1或o3相近水准的推理模型,且实现多模态推理能力。”

不甘心的闫俊杰决定再次冒险:试图赶在DeepSeek前面,推出一个原生多模态深度推理模型,既能实现文本推理能力,又具备视觉理解能力。

但在虎嗅爆料中,MiniMax即将发布的推理模型则指具备文本理解能力。后续是否会加入视觉理解,还是分阶段逐步推出,目前仍留有悬念。

除了因冒险押注新架构带来的资源分散之外,在应用上的豪赌布局,也分散了MiniMax追求模型迭代的精力。

AI六小龙中,MiniMax布局几乎最广:既做To C,又做to B;既做国内,又做海外。庞大的业务策略,带来的代价之一便是产品和模型团队之间的“打架”。

MiniMax前员工李俊告诉字母榜,2024年,公司将收入和产品日活视为两大重要指标,甚至会出现这月追求收入,下月强调用户增长的频繁变动情况。

从2023年开始,围绕娱乐和生产力工具赛道,MiniMax一个都不打算放过:Talkie、星野、海螺AI相继问世,堪比AI圈的新APP工厂。

为了打造产品,闫俊杰还特意挖来前今日头条用户产品负责人张前川,给其赋予了公司合伙人的身份。

但豪赌一年后,闫俊杰为公司设立的2024年收入过亿美元和产品日活过千万两大目标,均未能实现。这也成为公司后续人员变动和组织架构调整的新导火索。

今年3月份,MiniMax负责商业化的合伙人兼副总裁魏伟离职,更早之前,从去年9月份开始,MiniMax产品负责人张前川,便淡出公司事务,改任产品顾问一职。

两大合伙人相继变动之下,MiniMax在应用侧也改变了策略:旗下AI应用“海螺AI”一分为二,拆分为一个主打AI助手的“MiniMax”,和侧重视频创作的“海螺AI”。

几次豪赌过后,闫俊杰吸取到的最大教训之一是,对技术品牌没有很深的认知。在2023年初认识梁文锋后,后者有两件事对闫俊杰一直带来启发:一是DeepSeek品牌做得非常好;另一个是DeepSeek一开始没有产品,所以更聚焦。

DeepSeek爆火并在短短时间内成为国内月活第一AI原生APP后,闫俊杰纠正了自己过去两年来的一个误区:即认为用户越多,模型能力提升越快。实际则是“更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。”

基于这一新的判断,闫俊杰重新做了取舍,不再将用户规模和商业化视作重点,而是重新将技术迭代确立为MiniMax的最重要目标。

但新的挑战接踵而至。

当下大模型赛道正进入淘汰赛,资金持续承压已成为行业现实。恒业资本管理合伙人江一爆料称,魏伟的离职原因之一,是因为融资KPI考核未达标。

但被融资困住的不只有MiniMax。“本质上是市梦率的时代在短短两年内已经结束。现在面临的是融资放缓+收入压力+战略调整的新阶段。”在江一看来,外界对大模型公司的考核标准,正从交付MaaS变成交付结果,竞争焦点也从过去比参数大小、多模态能力,偏向现在比谁能真正解决用户问题。

“最后市场状态,基础模型市场上正常情况下应该不超过三家。”怎么能确保继续留在这场大模型牌桌之上,持续获取融资的能力便成了决定胜负的关键手。

毕竟,无论是更新迭代模型能力,还是打造能够解决用户真实需求的Agent,无一例外都需要人才和算力资源的支撑,这些要素都得靠源源不断的金钱来维系运转。

稍有松懈,这些大模型厂商就可能面临被迫落后的局面:要么核心研发人员出走创业,要么在重要技术迭代方向上慢人一步。

即便解决好内部人才和资源问题,但随着DeepSeek重新激起大厂的AI热情,如MiniMax一般的初创公司,该如何在竞争中继续做出自己的技术亮点并保持领先地位,正变得越来越难。

MiniMax当前正寄望于用新的原生多模态推理模型重回舞台中央,但在这一领域,字节、阿里,腾讯,提前一步已经在文本推理模型之外,上线了图像推理模型:3月份,阿里通义千问团队推出QVQ-Max视觉推理模型;4月份,豆包深度思考模型专门打造了视觉版,具备视觉推理能力;5月份,腾讯混元T1-Vision上线元宝,可深度理解图片内容。

更大的竞争还在后面。延期后的MiniMax推理模型,即将直面DeepSeek R2和GPT-5的竞争,后两者都有望在今年下半年上线。

近期在墨西哥举办的AI Summit上,OpenAI代表确认正在开发下一代基础模型GPT-5,并有望年内上线。

DeepSeek R2的推出步伐也越来越近。按照DeepSeek以往内部模型每7个月一更新的节奏,新一代V4模型有望在今年7月份亮相。如果梁文锋希望在V4版本上训练R2,以R1与V3相隔1个月的推出时间差评估,R2最快便有望在8月份上线。

对于想要继续留在牌桌上的闫俊杰而言,这场AI大模型的竞争还远没到尽头。

参考资料:

《MiniMax正暗戳戳憋大招》虎嗅 

《奥特曼逼梁文锋出大招》直面AI

《晚点对话 MiniMax 闫俊杰:创业没有天选之子》晚点对话 

《3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索》晚点LatePost 

《MiniMax-01开源:新架构开启Agent时代》MiniMax稀宇科技

《MiniMax:7000万美金营收下的甜蜜和隐忧》智能涌现

《MiniMax大模型每日与世界的30亿次交互》MiniMax稀宇科技

编者按:本文转载自微信公众号:字母榜(ID:wujicaijing),作者:赵晋杰 

本文来源字母榜,内容仅代表作者本人观点,不代表前瞻网的立场。本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com) 品牌合作与广告投放请联系:0755-33015062 或 hezuo@qianzhan.com

p36 q0 我要投稿

分享:

品牌、内容合作请点这里:寻求合作 ››

前瞻经济学人

专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院

中国产业咨询领导者,专业提供产业规划、产业申报、产业升级转型、产业园区规划、可行性报告等领域解决方案,扫一扫关注。

前瞻数据库
企查猫
作者 字母榜
科技自媒体
613746
关注
1120
文章
13
前瞻经济学人App二维码

扫一扫下载APP

与资深行业研究员/经济学家互动交流让您成为更懂趋势的人

研究员周关注榜

企查猫(企业查询宝)App
×

扫一扫
下载《前瞻经济学人》APP提问

 
在线咨询
×
在线咨询

项目热线 0755-33015070

AAPP
前瞻经济学人APP下载二维码

下载前瞻经济学人APP

关注我们
前瞻产业研究院微信号

扫一扫关注我们

我要投稿

×
J