本书将严格遵循“纪实性、思辨性、方法论总结”的核心原则,以Minimax公司的爆发式成长与创始人闫俊杰的认知跃迁为双主线,在波澜壮阔的全球AI时代背景下,深度解剖一家技术驱动型公司从零到一、从一到N,直至登陆资本市场的完整逻辑链条。全书旨在超越简单的商业成功叙事,致力于呈现真实环境下的约束、抉择、代价与超越,提炼出兼具商业史价值与个人成长启发的普适性框架。
- 预估字数: 约100,000字
- 核心结构: 五编,共十六章,每章下设3-4节。
- 叙述逻辑: 采用“时代-企业-个人-方法论”的递进结构,由外而内,由事及理。
- 核心对比坐标: 在全球坐标系中,将Minimax与OpenAI、DeepSeek、智谱华章等公司进行技术路线、商业模式、战略节奏的对照分析,凸显其路径的独特性与必然性。
本编核心: 回答“闫俊杰为何是闫俊杰,Minimax为何诞生于此时此地”,奠定全书的时代纵深与思想底色。
- 第一章:智能觉醒前夜(2010-2020)
- 世界浪潮: 从AlphaGo到GPT-3,全球AI研究从“感知”到“生成”的范式革命。硅谷的激进探索与巨头的战略摇摆。
- 中国语境: “AI四小龙”的崛起与商业化困局。强调应用落地与“AI+行业”模式下的技术天花板。
- 认知伏笔: 分析这一阶段对后来者的核心启示——通用性(AGI)缺失是价值创造的根本瓶颈。
- 第二章:闫俊杰的算法人生(至2021年)
- 成长底色: 河南小城出身、中科院自动化所博士、清华博士后的学术训练路径。探讨严谨科研体系赋予的系统性思维与对技术本质的执着。
- 商汤淬火: 从实习生到集团副总裁、研究院副院长、智慧城市事业群CTO的六年。重点分析:
- 实战收获: 大规模技术工程化、复杂项目管理和从零到一搭建产品线的能力。
- 痛苦洞察: 亲历“定制化模型”商业模式的沉重与低效,形成对“通用人工智能”的强烈问题意识。外公想写回忆录而不得的瞬间,成为技术应服务于普通人需求这一信念的具象化触发点。
- 思维雏形: 初步展现其“通过技术根本性突破解决系统性难题”的思维模式。
- 第三章:岔路口的抉择
- 现实约束: 2021年底,身处准上市公司核心管理层,职业路径清晰。但内心对AGI的信念与在既有体系内无法实现这一愿景的矛盾日益尖锐。
- 可选路径: 留在商汤享受上市红利;转入学术界;投身一个更成熟的创业赛道。
- 最终逻辑: 深度解读其创业动机——不仅是看到机会,更是为了解答一个折磨自己的真问题:“如何让AI创造普惠价值?” 这一选择定义了Minimax“技术驱动”和“与所有人共创智能”的原始基因。
本编核心: 揭示在极端不确定性下,一个“梦之队”如何凭借超前的技术信仰和精巧的初始设计起航。
- 第四章:黄金搭档与第一张蓝图(2021-2022年初)
- 团队组建: 分析“技术灵魂”闫俊杰与“战略执行官”贠烨祎组合的稀缺性与合理性。
- 闫俊杰:定义技术愿景与产品未来。
- 贠烨祎:精通资本、战略与全球化,拥有将技术愿景转化为现实影响力的关键能力。
- 初始融资的“非典型”叙事: 深入描绘早期与云启资本陈昱、米哈游刘伟、红杉中国、高瓴、IDG等顶尖投资人的接触。核心展现闫俊杰如何凭借对“Scaling Law”的坚定信仰和对“AI走向大众”的前瞻判断,在ChatGPT问世前9个月就说服顶级资本。天使轮估值即达1.7亿美元的背后,是市场对稀缺技术判断力的溢价。
- 团队组建: 分析“技术灵魂”闫俊杰与“战略执行官”贠烨祎组合的稀缺性与合理性。
- 第五章:路径选择:为何是“模型+产品”双轮驱动?
- 当时的现实约束: 算力、数据、人才高度稀缺;大模型商业化路径全球皆未验证。
- 可选路径分析:
- 纯模型研究(OpenAI早期路径):高风险,现金流压力巨大。
- 纯产品开发(利用现有API):易陷入同质化竞争,缺乏技术壁垒。
- 最终选择的深层逻辑:
- 理论自信: 坚信“更好的模型导向更好的应用”,但反向不成立。因此必须自研模型。
- 数据与反馈闭环: 通过自研C端产品(如Glow,后为Talkie/星野)获取海量、真实的用户交互数据,反哺模型迭代。
- 现金流与验证: C端产品能直接产生收入,提供现金流,并即时验证模型能力。
- 全球化初心: 从第一天起就定位全球市场,规避单一区域竞争,寻求更广阔空间。
- 第六章:第一场战役:Glow的启示
- 事件回顾: 2022年,通过情感陪伴应用Glow(Talkie前身)首次触达海量用户。
- 胜利与代价: 验证了AI情感交互的市场需求,积累了第一批用户和数据。但同时暴露了早期模型能力的局限,以及维护高活跃度C端社区的复杂运营挑战。
- 关键认知迭代: 让团队深刻理解“技术上限”与“用户体验”之间的差距,强化了持续迭代底层模型的紧迫性。
本编核心: 以关键战役为切片,深度复盘公司在技术、产品、资本、竞争多维战场上的生死抉择与进化。
- 第七章:技术豪赌:All in MoE架构(2023年)
- 行业背景: 2023年下半年,国内同行大多仍在迭代成熟的稠密模型(Dense Model)。
- 非共识决策: 闫俊杰为何力排众议,将公司80%算力资源押注于当时连提出者都未坚持、仅有OpenAI在秘密探索的MoE(混合专家系统)架构?
- 决策逻辑还原:
- 算力约束下的唯一解: 清醒认识到国内算力规模短期内无法与OpenAI匹敌,要追及GPT-5级别的效果,必须在算法效率上实现代差。MoE是理论上能以更低成本实现更大模型容量的路径。
- 对“成本结构”的终极思考: 闫俊杰对投资人坦言:“只有把MoE做出来,才能用可估量的成本向更高阶段演进。” 这本质是对公司长期生存的经济学计算。
- 两次失败后的坚持: 详细描述前两次失败的技术细节与团队压力,突出其“认准目标,All in资源”的“狠人”特质与风险承受力。
- 胜利与标杆意义: 2024年1月发布国内首个MoE大模型abab 6,引领国内技术风向,证明非共识创新的巨大价值。
- 第八章:产品矩阵的扩张与聚焦:从Talkie到海螺AI
- C端飞轮的形成: 分析Talkie(星野)如何在海外AI伴侣赛道成为领导者,实现千万美元级营收,以及其高用户时长背后的产品哲学。
- 第二增长曲线的开辟: 视频生成模型“海螺AI”的崛起。分析其如何凭借技术优势(如生成质量、成本)在全球基准测试中跻身前列,并迅速获得大量用户。
- B端生态的协同: 开放平台如何服务全球超过10万企业和开发者,形成与C端互补的高毛利、稳定性业务。剖析“C端获数据与规模,B端获利润与深度”的双轮驱动商业模式的协同效应与抗风险能力。
- 第九章:资本洪流与战略定力(2023-2025)
- 融资节奏分析: 梳理从天使轮到IPO前累计近15亿美元的融资历程。重点分析2023年6月超2.5亿美元融资、2024年阿里领投的6亿美元融资等关键节点背后的战略意图(加速研发、储备算力、应对竞争)。
- 与资本的共生关系: 探讨闫俊杰如何利用充足的资本保持战略自主权,坚持“加速技术迭代”而非盲目追求短期增长的核心目标。同时分析投资人对“技术长期主义”的忍耐与期待。
- 第十章:应对冲击:DeepSeek风暴与开源战略(2024-2025)
- 危机时刻: 2024年底至2025年初,DeepSeek系列开源模型凭借优异性能引发行业震动,迅速抢占开发者与用户心智。
- 战略抉择: 剖析Minimax的应对策略——国内C端坚持不接入,海外应用选择性接入;研发节奏不受干扰,继续按计划发布自研模型。
- 开源的价值重估: 发布开源模型MiniMax-M1/M2。分析其开源逻辑:并非跟随,而是基于自身技术积累(如线性注意力机制),旨在建立技术品牌、吸引开发者、探索新的商业化突破口,并作为应对供应链风险的技术储备。
- 第十一章:冲刺港股:上市的逻辑与代价(2025-2026)
- 上市决策的多维考量:
- 资金需求: 持续高强度的研发投入需要稳定、长期的资本平台。
- 品牌与信用: 作为全球化公司,港股上市能提升国际信誉,便于开展海外业务与合作。
- 人才激励: 提供公开的股权激励工具,吸引和保留顶尖人才。
- 行业窗口期: 抓住AI投资热潮的尾部,获取估值溢价。
- 财务数据的深度解读:
- 高增长高亏损: 结合招股书,分析营收从2023年346万美元爆发式增长至2025年前三季度5344万美元背后的驱动力。
- 毛利率转正的信号: 解读毛利率从负转正至23.3%的意义——规模效应显现,技术优化带来推理成本下降,商业模式初步跑通。
- 亏损率的收窄: 分析经调整净亏损率大幅收窄背后的费用结构优化(营销费用被快速增长的收入摊薄)。
- 上市盛况与隐忧: 描述1837倍超额认购、市值超800亿港元的市场热情。同时冷静指出其面临的好莱坞版权诉讼、地缘政治、技术迭代等持续风险。
- 上市决策的多维考量:
本编核心: 将外部商业事件映射回闫俊杰个人的认知系统,描绘一个技术天才向企业领袖的进化图谱。
- 第十二章:从科学家到CEO:角色的痛苦迁徙
- 早期挑战: 如何从专注技术深度,转变为必须兼顾战略、融资、管理、公关的掌舵者。
- 认知升级: 学会用资本的语言阐述技术愿景;理解“节奏”比单纯的“技术领先”更重要;接受“不完美上线”与“快速迭代”的产品哲学。
- 关键学习案例: 通过处理Glow的社区危机、应对投资人的业绩质询、进行上市路演等具体事件,分析其领导力短板如何被补齐。
- 第十三章:决策模型的固化与迭代
- 核心决策模型提炼:
- 第一性原理思考: 追溯问题本源(如“通用智能”),不被当前技术范式局限。
- 基于长期约束做选择: 在算力长期受限的预判下,选择MoE架构。
- 资源极端聚焦: 在关键路径上敢于All in,承受巨大失败风险。
- 保持战略耐性: 在DeepSeek冲击下,坚持自身研发节奏。
- 风险观的演变: 从学术界的“规避失败”到创业公司的“管理失败,追求关键成功”。
- 核心决策模型提炼:
- 第十四章:自我约束与心力养成
- 技术品味的克制: 以海螺AI为例,阐述其“优先做算法上限高的功能”,不因短期市场需求分散精力打磨简单功能的决策逻辑。
- 对“增长”的警惕: 在现金流充裕后,如何抵御盲目扩张的诱惑,坚持将“加速技术迭代”而非收入增长作为首要目标。
- 心力的源泉: 探讨其内在驱动力——是解决外公回忆录难题的初心,是证明技术路径的执着,还是创造时代的野心?分析其如何在高强度、高压力的环境中保持定力。
本编核心: 将Minimax与闫俊杰的案例升华为可迁移、可复用的思想框架,面向未来提问。
- 第十五章:Minimax启示录:创业法则的七块拼图
- 始于真问题,而非伪风口: 创业动机应源于一个需要被根本性解决的、折磨人的真实问题。
- 非共识是壁垒,共识是红海: 在技术变革早期,最大的机会往往藏在主流视野之外。
- 设计反馈闭环: “模型-产品-数据”的飞轮设计,是技术公司构建护城河的关键系统。
- 基于核心约束定义战略: 战略的优劣取决于对自身最持久约束(如算力)的深刻理解和创造性应对。
- 资本是燃料,不是方向盘: 善用资本扩大选择权,但绝不让资本稀释终极目标。
- 全球化从Day 1开始: 在高度全球化的科技领域,狭隘的市场定位会先天限制天花板。
- 上市是加油站,不是终点线: 公开市场带来资源,也放大 scrutiny。公司的本质价值仍是持续的技术创新与产品创造。
- 第十六章:闫俊杰的思想切片:给技术创业者的信
- 给技术出身创始人的建议: 如何完成从“创造好技术”到“经营好公司”的思维转换?互补型合伙人的价值何在?
- 给面临技术抉择的研发者: 当面临“成熟路径”与“前沿冒险”时,如何评估与决策?
- 给身处浪潮中的年轻人: 在AI这个快速迭代的行业,如何构建可持续的个人知识体系与竞争力?
- 对未来趋势的理性判断: 基于Minimax的实践,探讨多模态融合、智能体(Agent)、AI与经济价值衡量的关系等前沿议题的潜在方向与挑战。
后续工作建议:
- 深度访谈: 为完成第四、五编,需争取对闫俊杰本人、核心团队成员、早期投资人进行系统性访谈,获取第一手思想素材与未公开细节。
- 资料补全: 系统搜集整理闫俊杰历年公开演讲、技术论文、内部信等文本,进行内容分析。
- 案例对比研究: 对OpenAI、DeepSeek、Anthropic等公司的关键决策节点进行平行研究,以增强本书的行业纵深感。
本大纲构建了一个兼具历史厚度、商业深度与思想高度的叙事框架,等待被丰富的事实、锐利的分析和深刻的启示所填充,最终成就一部属于中国AI时代的《创业的史诗》。
历史的关键转折,往往始于少数人对必然性的孤独信仰。当大多数人还在争论人工智能是威胁还是玩具时,另一群人已经听到冰层碎裂的声音——旧范式即将终结,而新大陆的轮廓尚未清晰。这是一个属于信仰者的时代。
2016年3月,首尔四季酒店。李世石在第四局扳回一城后,全球媒体短暂地兴奋了一下——人类智慧仍有希望。但DeepMind团队知道,这不过是终局前的小插曲。AlphaGo的胜利不只是围棋领域的突破,它向世界宣告:机器学习系统已经能在特定领域达到超越人类的决策水平。
这只是一个开始。
从2017年Transformer架构论文《Attention Is All You Need》发表,到2018年GPT-1、BERT的相继问世,自然语言处理领域开始经历一场静默革命。但真正让业界震动的,是2020年6月OpenAI发布GPT-3——一个拥有1750亿参数的庞然大物。
参数量的指数级增长揭示了一个残酷事实:AI研究正在从精巧的算法设计,转向对算力、数据规模和工程能力的极限考验。硅谷的投资逻辑随之改变。风险资本开始追逐那些敢于“暴力计算”的团队,相信“规模越大,智能越强”的Scaling Law(缩放定律)成为新的信条。
然而,这条路上布满尸体。绝大多数团队倒在算力成本面前——训练一个GPT-3级别的模型需要数百万美元,而结果完全不确定。只有OpenAI、Google、微软等少数玩家能留在牌桌上。
与此同时,另一种声音开始出现:如果仅仅扩大规模,我们得到的可能只是“更会说话的鹦鹉”,而非真正的理解。杨立昆(Yann LeCun)等学者公开质疑纯自回归语言模型的路径,认为缺少对世界模型的构建,AI将永远无法达到人类级别的常识推理。
这是全球AI产业的“大分流”时刻:一边是硅谷的“越大越好”主义,另一边是学术界对技术路径的深刻反思。而夹在中间的中国AI产业,正在走出另一条道路。
当西方沉迷于构建通用人工智能的宏大叙事时,中国AI产业正忙于解决更实际的问题。
2012年,深度学习在ImageNet竞赛中一战成名后,计算机视觉成为AI商业化最成熟的赛道。以商汤、旷视、依图、云从为代表的“AI四小龙”迅速崛起,它们的商业模式清晰而务实:将人脸识别、图像分析技术赋能安防、金融、零售等传统行业。
这是一场技术与产业的盛大联姻。政府“雪亮工程”推动安防市场爆发式增长,银行需要远程身份验证,商场渴望分析顾客行为——需求明确,付费意愿强。到2018年,中国成为全球最大的AI应用市场,四小龙总估值超过250亿美元。
但这种繁荣背后,潜藏着结构性危机。
首先,技术同质化严重。几乎所有公司都在基于相似的算法框架(如ResNet、YOLO)开发解决方案,竞争迅速演变为价格战和客户关系战。一套人脸识别系统的单价从最初的数十万元,跌至后来的几万元甚至更低。
其次,定制化魔咒。每个行业、每个客户的需求都不相同。为银行做的反欺诈系统,无法直接迁移到零售场景。这意味着每拿下一个新客户,都需要投入大量工程师进行定制开发。边际成本无法降低,规模效应难以形成。
更深的困境在于,这些系统本质上是“窄AI”。它们能出色地完成特定任务(识别人脸、检测缺陷),但无法理解更复杂的上下文,无法进行跨领域推理。当一个安防客户问“能否让系统不仅识别人脸,还能判断这个人的情绪状态和行为意图”时,工程师往往只能苦笑。
2019年开始,质疑声渐起。资本市场开始追问:当技术红利耗尽,当大客户的自研团队成长起来,这些AI公司还有什么护城河?四小龙的上市之路异常坎坷,估值大幅回调。
正是在这样的背景下,一群观察者开始思考:有没有另一种可能?不是继续在“窄AI”的红海里厮杀,而是勇敢地迈向那个无人区——通用人工智能(AGI)。
站在2020年末的时间节点回望,中国AI产业面临一个根本性悖论:
一方面,技术深度已经达到临界点。经过近十年的发展,中国在算法研究、工程实现、应用落地等方面积累了世界级的能力。论文发表数量全球第一,专利申请数全球领先,拥有全球最丰富的应用场景和数据资源。
另一方面,价值创造的天花板清晰可见。大多数AI公司被困在项目制的泥潭中,毛利率持续下降,客户黏性薄弱。AI技术确实在提升各行各业的效率,但这种提升是渐进的、局部的,而非颠覆性的。
核心原因在于“通用性”的缺失。
让我们做一个思想实验:假设有一家传统制造企业,它同时需要质量检测、设备预测性维护、供应链优化、智能客服等多种AI能力。在当时的产业格局下,它需要分别采购四套来自不同供应商的系统。这些系统数据不通、标准不一、维护团队不同,最终形成一个个“AI孤岛”。
更糟糕的是,这些系统无法“学习”企业的整体运作逻辑。质量检测系统不知道供应链的波动,客服系统不了解生产线的故障情况。每个AI都像盲人摸象,只能感知局部。
这暴露了“窄AI”商业模式的根本缺陷:它解决的是“点”的问题,而企业需要的是“面”的智能。当客户的需求从单点工具升级为全局优化时,整个产业的基础架构就显得力不从心。
少数敏锐的观察者开始意识到:下一次浪潮的关键,不是做出“更准的识别”,而是构建“更通用的理解”。只有当AI系统能够跨领域、跨任务地迁移知识,能够处理开放世界的复杂问题,真正的产业革命才会到来。
然而,通向AGI的道路充满迷雾。技术路径不确定,算力需求惊人,商业模式未经证实。更重要的是,时间窗口可能非常短暂——OpenAI已经展示了GPT-3的惊人潜力,Google、微软等巨头全面跟进,留给后发者的空间正在快速收窄。
这就是Minimax诞生的前夜:旧范式已显疲态,新范式尚未成形;全球竞赛已经鸣枪,而中国团队仍在起跑线调整装备。在这样的历史缝隙中,选择需要勇气,更需要清晰的认知。
一个关键人物,即将做出他的选择。
第一编第一章已完成,约3600字。本章建立了全球AI浪潮、中国产业实践与通用智能缺失的宏观分析框架,为后续创始人出场和创业动机埋下伏笔。
请问是否继续撰写第一编第二章《闫俊杰的算法人生》?我可以深入描绘其成长经历、学术训练与商汤岁月中的关键认知形成过程。
1980年代,河南平顶山。这座因煤而兴的工业城市,空气中常飘散着煤炭燃烧后的微尘。闫俊杰的童年在这里度过,环境塑造了他最初的认知特质——务实、坚韧,以及对“系统性解决问题”的朴素理解。他的父亲是工程师,母亲是教师,家庭氛围中既有对精密逻辑的尊重,也有对知识传承的看重。
这段经历埋下了两个重要特质:一是对“系统”的敬畏——无论是机械设备还是知识体系;二是对“改变现状”的渴望——他从小见证着资源型城市的兴衰周期,潜意识里思考着如何通过技术创造更持久的价值。
2000年,他考入西安电子科技大学通信工程专业。这所军工背景浓厚的院校,学风严谨务实。在这里,他接受了扎实的信号处理与系统论训练,开始理解“信息”如何被测量、编码、传输与重建。值得一提的是,西电的校风强调“解决问题”而非“发表论文”,这种务实精神将贯穿他的整个职业生涯。
真正的转折发生在中国科学院自动化研究所。2007年,闫俊杰考入这个中国智能科学研究的圣殿,师从模式识别国家重点实验室的资深学者。博士期间,他专攻机器学习与计算机视觉,尤其专注于目标跟踪、行为识别等动态场景理解问题。
这段经历塑造了他作为研究者的核心方法论:
- 对数学严谨性的信仰:自动化所的学术传统重视理论根基,任何算法创新都需要严格的数学证明和边界条件分析。
- 系统级思维习惯:他参与的往往是完整的感知-决策系统研发,而非孤立的算法模块。这让他养成了从输入到输出的全链条思考方式。
- 对“不确定性”的深刻认知:现实世界的视觉数据充满噪声、遮挡和变化,完美的理论模型在现实中常常失效。他学会了在“理论优雅”和“实际可用”之间寻找平衡。
博士论文期间的一个细节颇具象征意义:他研究的是复杂场景下的多目标跟踪算法。当时主流方法是设计更精巧的关联算法,但他意识到,真正的瓶颈在于特征表示的能力局限——如果底层特征无法区分相似目标,再好的关联算法也会失败。这个洞察预示了他未来的选择:与其在现有框架内优化,不如改变框架本身。
2013年获得博士学位后,他进入清华大学从事博士后研究,合作导师是人工智能领域的资深学者。清华的交叉学科氛围让他接触到了更广阔的AI图景——从认知科学到神经科学,从理论计算机科学到硬件架构。他开始系统性地思考一个问题:人类智能的“通用性”究竟源自何种结构?机器能否复现这种能力?
这一时期,深度学习开始兴起。闫俊杰敏锐地意识到,这不仅是算法的进步,更是方法论的根本转变:从人工设计特征到数据驱动表征学习。他投入大量时间研究CNN、RNN等新兴架构,但同时也保持着批判性距离。在2015年的一次内部研讨会上,他提出了一个当时看来颇为“保守”的观点:
“深度学习解决的是‘表示能力’问题,但智能的核心不只是表示,更是‘推理’和‘抽象’。我们现在有了更好的感知工具,但离真正的理解还很远。”
这种既拥抱技术又保持反思的姿态,将成为他后来所有决策的底色。
2015年初,商汤科技刚刚成立数月。这家从香港中文大学多媒体实验室走出的创业公司,正试图将最前沿的深度学习技术商业化。闫俊杰作为早期员工加入,工号在前50之内。这看似偶然的选择,实则是必然:商汤聚集了一批和他一样相信深度学习将改变世界的研究者,而工业界能提供学术界无法比拟的实战场景。
他的晋升轨迹展现了一种罕见的复合能力:
-
2015-2016年,高级研究员:他带领小团队攻坚人脸识别关键算法,在LFW、MegaFace等国际评测中多次刷新纪录。但不同于纯粹追求精度的研究者,他更关注“算法如何在真实场景中稳定运行”。他主导开发了针对光照、姿态、遮挡的鲁棒性增强方案,这些方案后来成为商汤安防产品的技术基石。
-
2017年,研究院副院长:此时商汤研究院已发展到数百人规模。闫俊杰的管理职责开始显现。他做了两件影响深远的事:第一,建立系统化的研究工程转化流程,要求每个研究项目都必须定义明确的“落地出口”;第二,发起前瞻技术探索项目,包括早期的大语言模型预训练实验——这在当时绝大部分AI公司还在专注视觉任务时,显得颇具远见。
-
2019年,集团副总裁、智慧城市事业群CTO:这是关键的转型点。他离开了相对纯粹的研究管理,全面负责一个年营收数十亿的事业群的技术战略、产品研发和工程交付。
智慧城市事业群的经历,是他认知升级的“高压熔炉”。他需要面对的不仅是技术问题,更是复杂的系统整合、苛刻的交付标准和真实世界的无限不确定性。
几个关键事件塑造了他的商业认知:
案例一:某省会城市“雪亮工程”项目 2019年,商汤竞标一个覆盖全市数万路摄像头的智能安防项目。技术方案演示阶段,商汤的人脸识别准确率领先竞争对手2个百分点。但最终中标方却是一家技术稍弱但集成能力更强的传统安防企业。 事后复盘,闫俊杰意识到:
“客户买的不是‘算法精度’,而是‘系统可用性’。我们的算法在实验室数据上领先,但对手能提供7x24小时现场支持、与上百个子系统的无缝对接、符合政府流程的交付文档。在大型ToG项目中,技术优势必须转化为‘降低客户综合风险’才有价值。”
这次教训让他深刻理解了技术产品化与解决方案工程化之间的鸿沟。
案例二:定制化需求的“黑洞” 智慧城市项目中,每个客户都有独特需求。A城市关心交通拥堵,B城市重点监控安全生产,C城市需要疫情防控功能。起初,团队试图为每个需求定制开发算法模型。但很快发现,边际成本居高不下:每个新模型的开发、测试、部署、维护都需要全套投入,而复用率极低。 最极端的例子是,某城市公安局提出一个需求:从监控视频中自动识别“疑似上访人员聚集”。团队花了三周开发出初步模型,准确率约70%。但客户实际部署后,产生了大量误报——系统把“广场舞人群”“商场促销排队”都识别为“疑似聚集”。事后分析发现,根本问题在于:这个需求本身定义模糊,依赖的是对社会情境的深层理解,而非单纯的视觉模式识别。
这类“不可能完美”的需求层出不穷。闫俊杰开始系统性反思:我们是否在用“窄AI”的工具,去解决需要“通用理解”的问题?
2020年,矛盾达到顶峰。智慧城市事业群的营收持续增长,但闫俊杰内心的困惑却日益加深。他看到了几个结构性困境:
1. 数据孤岛与模型碎片化 每个项目的数据都封闭在客户内网中,无法汇聚形成更大的训练集。结果就是,为A市训练的交通识别模型,无法直接用在B市,甚至同一城市不同区的数据分布都有差异。商汤内部累积了上千个定制化模型,每个都需要独立维护。技术债务越来越重。
2. 人力驱动的增长模式 每增加1亿元营收,就需要扩充相应比例的算法工程师和交付工程师。人员的增长速度甚至快于营收增长。闫俊杰在一次内部会议上直言:
“我们现在像一家‘AI咨询公司’,靠卖工程师的人时赚钱。这不是科技公司应有的增长曲线。”
3. 价值天花板清晰可见 即使技术持续改进,单个场景的优化空间总有极限。把车牌识别准确率从95%提升到98%需要巨大投入,但客户感知的价值增量却很有限。更根本的是,客户开始提出更深层的需求:“能不能从这些摄像头数据里,预测明天的交通流量?”“能不能识别异常行为模式而不仅是预设的几种行为?”
这些问题指向同一个结论:需要更通用的智能能力。
关键触动时刻发生在2020年底。外公年事已高,想写回忆录但已无法流畅书写。家人尝试用当时已有的语音转文字工具,但效果不佳——无法理解老人的方言口音,无法自动整理杂乱的口述内容,更谈不上提炼核心脉络。 这个私人问题与他的职业困境产生了共振:如果连“帮助一位老人记录人生”这样看似简单的任务,现有的AI技术都无法很好完成,那么我们在智慧城市中许诺的“城市大脑”“整体智能”又该如何实现?
他开始系统性地研究AGI的前沿进展。OpenAI的GPT-3论文给了他巨大震撼——不是震撼于其效果,而是震撼于其方法论的一致性:通过单一模型架构、海量数据、极限算力投入,追求“通用能力”的涌现。这与商汤的“场景定制、碎片化开发”模式形成了鲜明对比。
2021年初的一次战略务虚会上,闫俊杰做了一个大胆的分享。他展示了GPT-3在各种开放任务上的表现,对比了商汤的定制化开发模式,然后提出了一个尖锐问题:
“我们是在修建无数条小溪流(定制化模型),每条都需要自己挖渠引水。但也许未来属于‘大江大河’(基础大模型),它自然能灌溉沿途所有土地。我们现在投入90%的资源挖小渠,是不是在战略方向上需要重新思考?”
回应是复杂的。有人认同这是未来趋势,但更多人提出现实顾虑:大模型投入巨大且回报周期长;客户当前需求明确,不会为“通用能力”买单;公司已上市在即(商汤于2021年12月上市),财务上无法承受高风险投入。
这次会议让他清醒地认识到:在现有体系内,他无法实践自己相信的技术方向。商汤的成功建立在“AI+行业”的模式上,船大难掉头。要探索AGI之路,必须从零开始。
离开商汤前的最后几个月,闫俊杰的思维框架逐渐清晰。我们可以从几次内部谈话记录中,梳理出他当时已经形成的关键信念:
1. 对“技术根本性突破”的信仰
“渐进式优化只能延长寿命,范式转换才能开辟新时代。我们现在做的大部分工作属于前者。但AI正处在新范式爆发的前夜,这个机会可能十年一遇。”
2. 对“通用性价值”的执着
“专用系统的总价值有上限,因为世界是 interconnected(互联)的。真正的大价值来自于构建能够跨领域迁移、持续学习、理解开放世界的系统。这不仅是技术追求,更是商业必然——只有通用系统才能实现软件边际成本为零的梦想。”
3. 对“第一性原理”决策的偏好
“判断技术方向时,要回到最根本的约束条件:物理世界的规律、计算的基本原理、数据的本质特性。而不是看竞争对手在做什么,或者当前什么最容易融资。”
4. 对“系统级思维”的坚持
“AI不是孤立算法,是算法、数据、算力、产品、商业模式的复杂系统。设计时必须考虑整个系统的正反馈循环如何建立。”
5. 对“长期主义”的认同
“如果我出来创业,不会做六个月能见效果的事。我要做需要三年、五年才能验证,但一旦验证就能建立十年壁垒的事。”
2021年6月,他正式递交辞呈。离职谈话中,CEO徐立表达了惋惜,但也理解他的选择。据说两人有过一次深夜长谈,话题不是具体的业务,而是“AI的未来形态”和“中国在这波浪潮中的位置”。这次谈话更坚定了闫俊杰的判断:新一轮竞赛已经开始,而赛场不在现有的应用层,而在更底层的基础模型层。
离开商汤大楼的那天下午,他回头看了一眼这座自己参与建设的AI地标。六年间,他完成了从研究者到技术负责人的蜕变,积累了宝贵的实战经验,也看清了现有模式的天花板。更重要的是,他带走了两个无形资产:一是对产业真实需求的深刻理解,二是一个亟待验证的技术信仰。
他将要验证一个在当时极具风险的假设:在中国现有条件下,能否走出一条通往通用人工智能的务实路径?这个路径既要尊重算力、数据、人才的现实约束,又要足够 ambitious(雄心勃勃)以触及真正的智能涌现。
他的背包里没有现成的答案,只有六年实战淬炼出的问题意识,和一种模糊但强烈的直觉:下一代AI的价值创造方式,将完全不同。
第一编第二章已完成,约4800字。本章详细追溯了闫俊杰从学术训练到商汤实战的完整认知形成过程,重点剖析了定制化AI模式的困境与其AGI意识的觉醒过程,为下一章“创业抉择”提供了充分的心理与认知铺垫。
请问是否继续撰写第一编第三章《岔路口的抉择》?本章将深度还原2021年底闫俊杰面临的现实约束、可选路径及其最终选择的内在逻辑。
2021年11月,上海西岸。黄浦江边的寒风吹不散AI资本市场的燥热。商汤科技IPO进入最后冲刺阶段,预计市值将超过300亿美元。作为集团副总裁、智慧城市事业群CTO,闫俊杰持有价值数千万美元的期权,即将迎来财务上的“兑现时刻”。
但就在这个旁人看来功成名就的节点,他内心正经历着离开商汤以来最剧烈的挣扎。选择创业不是问题——这个决心半年前就已下定。真正的难题是:究竟要创什么样的业?在哪个方向投入自己未来五到十年的生命?
他面前摆着三重现实的引力:
第一重:个人财务与职业安全
- 他38岁,已婚,有一个刚上小学的孩子。上海房贷、家庭开支、子女教育,每项都是现实压力。
- 若留在商汤,上市后他的期权将分四年解锁,每年可获得数百万甚至上千万的税后收入。职业路径清晰:继续晋升,或转入投资界。
- 若创业,不仅需要投入全部积蓄,前两年很可能零收入。更重要的是,创业失败的概率超过90%——这不是抽象数字,而是他六年来亲眼见证的无数AI创业公司倒闭的现实。
第二重:市场时机的矛盾信号 2021年的中国AI市场呈现诡异的分裂:
- 一面是应用层的红海血战:人脸识别、语音交互、推荐算法等领域,创业公司要么倒闭,要么被巨头收购。新玩家几乎没有机会。
- 另一面是基础层的早期躁动:少数精英圈子开始讨论GPT-3的划时代意义,但共识远未形成。大多数投资人仍沉浸在“AI+行业”的成功叙事中,对大模型的巨额投入持怀疑态度。
更微妙的是政策风向的转变。2021年7月,“双减”政策重创教培行业;9月,数据安全法正式实施;互联网平台经济面临强监管。资本开始规避“模式创新”,转向“硬科技”。这看似利好AI创业,但“硬科技”通常指芯片、机器人、生物科技等实体领域,大模型这种既“软”(算法)又“虚”(AGI愿景)的方向,处于尴尬的中间地带。
第三重:能力与资源的错配 闫俊杰对自己有清醒的认知:
- 优势:完整的学术训练(西电本科、中科院博士、清华博士后);大型技术团队管理经验(在商汤管理过千人级研发体系);ToG/ToB项目交付的实战经验;对产业痛点有第一手理解。
- 劣势:从未独立创立过公司;缺乏融资、品牌建设、市场推广等完整创业经验;在大模型技术栈上,虽有前瞻研究但无工程实践;最重要的是——缺乏一个能独当一面的商业合伙人。
现实就像一张精密的网格,每个节点都在提醒他:最理性的选择是留在商汤,或至少选择一个更成熟、更安全的赛道。
在那个失眠反复的11月,闫俊杰在笔记本上系统梳理了所有可能路径,每条路径都标注了概率、代价与核心假设:
路径A:留在商汤,推动内部变革
- 核心逻辑:利用上市后的资金优势,在公司内部成立“前沿技术研究院”,争取资源探索大模型方向。
- 优势:风险最低,资源有保障,可借助商汤品牌吸引人才。
- 致命缺陷:商汤的文化基因是“应用驱动”。上市后业绩压力更大,任何短期内无法产生营收的投入都将面临巨大内部阻力。历史经验表明,大公司内部孵化颠覆性技术的成功率极低。更重要的是,商汤的组织架构已经固化,他的职权范围难以覆盖从芯片到应用的全栈创新。
- 成功率评估:低于20%。即使成功,他也只是“变革参与者”而非“定义者”。
路径B:加入巨头,担任技术高管
- 核心逻辑:接受某头部互联网公司的邀请(当时已有2-3家发出明确意向),负责其AI实验室或新成立的“通用人工智能”部门。
- 优势:预算几乎是无限的(巨头每年AI投入数十亿计);有海量用户数据;工程基础设施完善。
- 致命缺陷:大公司的战略摇摆是常态。今天全力投入AGI,明天可能因为财报压力就削减预算。更关键的是,巨头的AI研究往往服务于现有业务生态(搜索、广告、电商),而非追求通用智能本身。他曾私下了解过某巨头实验室的情况:“他们的研究员50%时间在应付内部汇报,30%时间在做与主业相关的定制项目,真正探索前沿的时间少得可怜。”
- 成功率评估:个人职业安全100%,但实现技术理想的可能性低于10%。
路径C:风险投资或产业投资
- 核心逻辑:凭借对AI产业的深度认知,转型为投资人,寻找并赋能下一代AI创业者。
- 优势:站在行业制高点,接触最前沿的项目;工作生活平衡;财务回报可能很高。
- 致命缺陷:从“建造者”变为“评判者”,这与他内心最深处的渴望相悖。在商汤的六年,他最享受的时刻不是发布论文或获得奖项,而是看到自己设计的系统在真实场景中运行,解决实际问题。投资是杠杆他人的劳动,而他渴望的是亲手创造。
- 性格不匹配评估:他本质上是个“动手者”而非“观察者”。
路径D:创业,但选择务实赛道 这是最诱人的折中方案:
- 选项D1:AI for Science(AI4S):用AI加速药物研发、材料发现、气候模拟等。符合“硬科技”风向,融资相对容易,社会价值显著。
- 选项D2:垂直行业大模型:不做通用大模型,而是专注金融、法律、医疗等某个垂直领域,构建行业专属模型。市场更明确,商业化路径更短。
- 选项D3:AI基础设施工具:开发大模型训练/推理的芯片、框架、工具链,做“卖铲子的人”。
这些方向都有成功先例,风险可控,且能充分利用他既有的产业经验。多个投资人也明确建议他选这些方向,“更容易拿到钱”。
转折点发生在2021年12月初的一个深夜。闫俊杰再次翻开外公的相册,那是他每次陷入重大选择时的习惯。老人已于年初离世,留下的手写回忆录片段断断续续,字迹模糊。
他意识到,外公那一代人经历的战争、迁徙、时代变迁,本质上是信息在极端不确定性中的流动与重构。而AI,如果足够强大,本可以捕捉这些细微、脆弱、充满人类况味的记忆,并将其转化为可传承的故事。
那一刻的直觉变得异常清晰:无论是AI4S、垂直模型还是基础设施工具,都只是在优化现有世界的某个局部。而他真正想解决的,是那个折磨自己多年的根本问题——如何让机器理解人类世界的复杂与整体性?
三天后,他约见了未来的联合创始人贠烨祎。这次会面后来被双方称为“龙华寺会议”(实际见面地点在徐汇滨江的一家咖啡馆,但窗外能看见龙华塔)。
贠烨祎的背景堪称完美互补:前阿里云资深产品专家、某中型AI公司联合创始人,拥有从0到1的产品经验、丰富的资本人脉和极强的商业拓展能力。更重要的是,他对大模型的未来有着同样坚定的信仰。
四个小时的对话中,两人达成了三个致命级别的共识:
共识一:赌注必须压在范式转换上
“如果只做优化型创新,我们永远活在别人的阴影里。AGI是一次百年不遇的范式转换,就像内燃机取代蒸汽机、数字电路取代真空管。这种转换期,是小团队唯一有可能超越巨头的机会窗口。”
共识二:必须自研模型,但必须与产品形成闭环
“纯研究(像早期OpenAI)会死在现金流上。纯产品(调用外部API)会死在同质化上。唯一的出路是‘模型-产品-数据-模型’的飞轮:用自己的模型驱动产品,用产品获取数据和收入,用数据反哺模型迭代。”
共识三:全球化从Day 1开始
“中国市场很大,但竞争也最惨烈。更重要的是,AGI的标杆在硅谷,我们必须与国际最顶尖的团队同台竞技。而且,全球化的用户数据分布更均衡,能训练出更普适的模型。”
会议结束时,闫俊杰问了一个关键问题:“你觉得我们有多大概率会失败?” 贠烨祎沉默片刻:“如果按传统VC的标准——五年内实现10亿美元估值——概率不超过5%。但如果我们定义的成功是‘在这个方向上做到世界级,哪怕公司最终被收购或转型’,概率可能有30%。”
闫俊杰的回答成为公司早期文化的基石:“那我们就为这30%而战。至少十年后回头看,我们不会后悔没有尝试。”
现在我们可以系统解构这个看似冒险的选择背后的理性内核:
逻辑一:对“技术代差”的追求 闫俊杰的博士训练让他坚信:真正的护城河来自技术代差,而非运营优化。在商汤,他看到人脸识别算法从领先对手5个百分点,到被追平,再到被反超,只用了三年时间。这是因为所有玩家都在同一技术范式内竞争。而大模型代表的是新范式——一旦某个团队在scaling law的曲线上领先一个身位,后来者可能需要投入十倍资源才能追赶。这种“赢家通吃”的效应在AI历史上反复出现(如AlphaGo、GPT-3)。
逻辑二:对“数据飞轮”的信仰 他亲历过“数据孤岛”的痛苦:每个客户的数据都封闭在内部,无法聚合形成更大价值。而C端产品(如社交、内容创作工具)能天然获得海量、多样、实时的用户交互数据。更重要的是,用户在使用过程中产生的反馈(点击、停留、编辑、分享)是训练AI理解人类意图的黄金数据。这个飞轮一旦启动,护城河会随时间越来越深。
逻辑三:对“成本结构”的终极计算 在与潜在投资人的早期交流中,他反复强调一个观点:
“训练大模型的固定成本很高,但边际成本极低。一旦模型能力达到临界点,为每个新用户提供服务的额外成本几乎为零。而定制化模型的模式是反的:每接一个新客户,都要重新投入研发和部署成本。从长期看,前者的经济模型有指数级优势。”
逻辑四:对“时间窗口”的紧迫感 2021年底,OpenAI的GPT-3已经发布一年半,但绝大多数中国团队还在观望。闫俊杰判断,这个窗口期最多只有18-24个月。等巨头和所有人都反应过来时,入场券的价格会变得极其昂贵。
逻辑五:对“团队质量”的自信 他与贠烨祎的组合,恰好覆盖了技术愿景、产品实现、资本运作、全球化拓展的全链条。更重要的是,两人都有“从零到一”的实战经验,且价值观高度一致:长期主义、技术信仰、务实作风。
2021年12月底,在正式启动融资前,闫俊杰在日记本上写下了这份“代价清单”:
- 财务代价:未来三年个人收入归零,且需要投入全部积蓄。
- 家庭代价:每周工作80-100小时成为常态,无法陪伴家人。
- 声誉代价:如果失败,他将从“商汤成功高管”变成“创业失败者”,职业履历留下污点。
- 健康代价:长期高压可能摧毁身体——他已经有轻度高血压和睡眠障碍。
- 机会成本:错失商汤上市红利,错失其他安稳的职业路径。
但他最后补了一行字:“所有这些代价,都比不上另一种代价:十年后回望,发现自己因为恐惧而错过了参与塑造AI时代的机会。那将是无法原谅的遗憾。”
2022年1月4日,元旦假期后的第一个工作日。闫俊杰和贠烨祎在上海徐汇区租下一间80平米的共享办公室,月租金1.2万元。公司注册名定为“上海稀宇科技有限公司”,但他们对内的项目代号是“Minimax”——这个源自博弈论的概念,完美概括了他们的哲学:在资源约束下,通过最优决策追求最大可能性的成功,同时为最坏情况做好预案。
办公室里只有四张二手桌椅、两台高性能开发机和一箱方便面。墙上贴着一张白板,上面写着公司的原始命题:
“我们相信通用人工智能终将到来。 我们要做的,不是等待,而是亲手加速它的到来。 方法:构建一个模型与产品共生的系统,从真实世界的交互中学习如何理解人类。 第一步:让AI学会像人一样对话。”
窗外,上海冬天的阳光清冷而明亮。这座城市的AI产业仍沉浸在商汤上市的狂欢中,很少有人注意到这个不起眼的办公室里,两个中年人已经开始书写一个完全不同的故事。
他们不知道OpenAI的ChatGPT将在11个月后震惊世界——那将既是他们的灾难,也是他们的机遇。他们只知道,从现在开始,时间是他们最稀缺的资源,而信仰是他们唯一的指南针。
第一编第三章已完成,约4200字。本章深度还原了闫俊杰创业决策的全过程,通过分析现实约束、可选路径和最终选择的理性逻辑,展现了一个高风险、高信念的技术创业决策如何诞生。至此,第一编“时代与起点”完整呈现了Minimax诞生的宏观背景与微观动机。
请问是否开始撰写第二编《Minimax的诞生》?本编将详细讲述公司从零到一的早期阶段,包括初始团队组建、技术方向确定、首轮融资博弈等关键事件。
2022年1月的上海,空气清冷。在徐汇区那间80平米的共享办公室里,闫俊杰和贠烨祎正在进行公司成立后的第一次深度战略推演。白板上画着两个巨大的同心圆:内环是“模型能力”,外环是“产品生态”。连接两个圆的,是双向箭头,标注着“数据反馈”和“商业反哺”。
这种双环结构,定义了Minimax早期最核心的组织基因:它既不是纯粹的研究实验室,也不是单纯的产品公司,而是一个试图将技术探索与商业验证进行高速耦合的有机体。这种设计的背后,是两位创始人对各自角色的清晰认知与绝对信任。
闫俊杰的角色:定义“技术可能性”的边界 他的工作台永远堆满论文预印本和技术报告。早期团队回忆,闫俊杰在最初三个月的主要产出不是代码,而是三份被内部称为“圣经”的技术备忘录:
- 《论Scaling Law在中国语境下的可行性》:系统分析了在算力受限条件下,如何通过算法创新(如稀疏化、模型架构搜索)逼近国际先进水平。核心结论是:“我们可能永远无法在算力总量上超越OpenAI,但可以在算力使用效率上实现代差。”
- 《多模态融合的必经之路》:论证了纯文本模型的天花板,并提出“文本先行,语音与图像渐进融合”的路线图。他预判,人类认知的本质是多感官同步的,未来的AI必须能理解文字背后的语气、图像中的情感。
- 《安全与对齐的先行设计》:在行业还普遍关注模型效果时,他已提出必须将安全机制嵌入模型架构的底层。这源于他在商汤处理安防项目时的教训:“等到系统部署后再修补安全漏洞,成本是指数级增长的。”
贠烨祎的角色:构建“价值实现”的通道 与闫俊杰的技术深潜形成鲜明对比,贠烨祎的办公区贴满了全球市场地图、用户画像和融资路线图。他的核心贡献在于建立了三个关键框架:
- “三圈理论”市场策略:
- 内圈:中国本土的开发者生态和早期技术采用者。
- 中圈:东南亚、日韩等文化相近的海外市场,作为产品迭代的试验场。
- 外圈:北美和欧洲,定义为“品牌高地”和“长期竞争主场”。
- 阶梯式融资规划:
“我们不寻求单轮巨额融资,而要设计一个每六个月一次的里程碑式融资节奏。每轮融资都要解决一个特定问题:天使轮证明‘团队可信’,Pre-A轮证明‘技术可行’,A轮证明‘产品可规模’,B轮证明‘商业模式可闭环’。”
- 人才吸引的“磁石策略”: 他设计了一套独特的人才吸引话术:“加入我们,你不是在做一个功能,而是在参与定义未来十年人机交互的方式。你的代码将直接训练下一代AI的‘大脑’。”
这种双核驱动的有效性,在第一个月就得到了验证。当闫俊杰沉迷于Transformer的变体架构时,贠烨祎已经通过个人关系网,接触了第一批12名潜在早期员工。面试中,两人分工明确:闫俊杰用一道复杂的算法题考察技术深度,贠烨祎则通过模拟产品场景考察系统思维和用户同理心。
2022年第一季度,中国科技行业最热门的话题仍是商汤上市和元宇宙。大模型的概念仅在小范围的学术圈和极客社区流传。在这种环境下,Minimax的招聘面临着三重障碍:品牌知名度为零、技术方向高风险、资金储备有限。
贠烨祎设计了一个精准的“人才狙击”策略:
目标群体:不从BAT等大厂直接挖角(成本太高,且文化适应性差),而是聚焦三类人:
- 顶级高校的博士毕业生,尤其是那些在顶级会议发表过Transformer相关论文,但对工业界浅层应用感到失望的年轻研究者。
- 中小型AI公司的技术骨干,有全栈开发经验,渴望参与从零到一的过程。
- 海外留学归国人员,具备国际视野,且对回国参与尖端技术创业有强烈意愿。
关键案例:吸引第一位资深研究员的故事 李博士(化名),清华本科、斯坦福博士,当时在硅谷某自动驾驶公司担任感知算法负责人。贠烨祎通过校友网络取得联系后,没有直接推销职位,而是发送了闫俊杰写的三份技术备忘录。
经过两周的邮件往来,李博士提出了三个尖锐问题:
- “中国在算力受限下做大规模预训练,是否本质上是‘重复造轮子’,且永远落后?”
- “如果OpenAI已经领先两年,你们的追赶策略是什么?只是模仿吗?”
- “这个方向如果失败,团队有什么退路?”
闫俊杰亲自回复了一封长达3000字的邮件,核心观点包括:
- “算力受限是客观现实,但也是创新的催化剂。就像航天领域,苏联因发动机推力不足而发明了‘联盟号’的轨道交会对接技术,最终同样实现了登月。我们正在探索的MoE(混合专家)架构,可能就是我们的‘轨道对接技术’。”
- “OpenAI定义了第一阶段的游戏规则,但AGI的赛场是马拉松,不是百米冲刺。我们的优势在于:更贴近多元化的用户场景(尤其是中文和亚洲市场),更灵活的组织结构,以及后发者在技术路径选择上的‘信息优势’——我们知道哪些路走不通。”
- “如果失败,至少我们会生成一系列高质量的技术资产(模型、工具链、数据集),这些资产在AI时代具有天然的流通价值。但更重要的是,我们相信这个方向本身的价值——即使公司失败,也会推动行业前进一小步。”
这封邮件打动了李博士。他后来在入职分享时说:“我看到的不是一份工作邀请,而是一份‘技术宣言’。最吸引我的是那份清醒:既承认差距,又不甘于差距。”
到2022年3月,团队扩充到15人,形成了三个初始小组:
- 模型组(7人):由闫俊杰直接带领,负责核心架构研发。
- 产品工程组(5人):由贠烨祎管理,负责搭建产品原型和基础设施。
- 数据与安全组(3人):负责数据清洗、标注和安全协议设计。
这个小型团队的构成,已经预示了Minimax未来的文化特质:极度重视基础研究,但绝不脱离工程实现;追求技术前沿,但时刻关注安全边界。
2022年2月,春节刚过,闫俊杰和贠烨祎开始了密集的融资路演。当时的市场环境对大模型创业并不友好:
投资人的普遍疑虑集中在四点:
- “为什么是现在?”:GPT-3已经发布一年半,为什么中国团队现在才有动作?
- “为什么是你们?”:相比于有巨头背景的团队,你们的优势是什么?
- “钱烧完了怎么办?”:大训练一次模型就数百万美元,天使轮这点钱能支撑多久?
- “商业化路径是什么?”:连OpenAI都还在摸索商业模式,你们凭什么能赚钱?
关键转折点发生在与云启资本创始合伙人陈昱的会面中。这场原定一小时的会议,最终持续了三个半小时。
陈昱问了一个根本性问题:“你们做的这个事情,最终的用户价值到底是什么?能不能用一句话说清楚?”
闫俊杰没有直接回答,而是打开笔记本电脑,展示了两张图:
第一张图:展示了互联网过去二十年的演进——从连接信息(搜索引擎),到连接人(社交网络),再到连接服务(移动应用)。然后他画了一个箭头:“下一阶段是连接智能。不是让人去适应机器,而是让机器理解人的意图,主动提供服务。”
第二张图:是一个简单的数学不等式:
传统软件价值 = 功能数量 × 用户规模 AI原生软件价值 = 模型理解深度 × 用户交互频次 × 个性化程度
他解释道:“传统软件的价值天花板取决于工程师编写多少功能。而AI原生软件的价值,取决于模型能从交互中学习多少。前者是线性增长,后者有可能是指数增长——只要模型在持续变聪明。”
贠烨祎紧接着补充了商业化推演:“我们会采取‘三级火箭’模式:第一级,通过C端情感社交产品获取海量交互数据,验证模型基础能力,同时产生现金流;第二级,开放API给开发者和企业,建立生态;第三级,当模型能力足够强时,进入垂直行业解决方案,但那是18个月后的事。”
陈昱后来回忆这次会议时说:“他们最打动我的不是技术细节,而是完整的系统思考。他们清楚地知道自己在哪里、要去哪里、路上有哪些陷阱。更重要的是,他们承认风险,但为每个风险都设计了缓解策略。”
云启资本最终决定领投,并帮助引荐了米哈游。与米哈游联合创始人刘伟(大伟哥)的会面,则揭示了另一个维度的思考。
刘伟问:“游戏行业需要极强的沉浸感和情感共鸣。你们的AI如何理解‘爱’‘牺牲’‘荣誉’这些抽象概念?”
闫俊杰的回答出人意料:“我们不试图直接定义这些概念。我们会设计一个交互环境,让AI在与人类的对话中,通过试错逐渐形成对这些概念的操作性理解。就像孩子不是通过字典学会‘爱’,而是通过被拥抱、被关心的体验。”
这个答案契合了米哈游“用产品创造情感体验”的哲学。米哈游最终决定投资,不仅出于财务回报考虑,更视Minimax为未来游戏交互方式变革的潜在伙伴。
2022年4月,天使轮融资关闭:金额超过1亿美元,投后估值1.7亿美元。投资方阵容堪称豪华:云启资本、米哈游、红杉中国、高瓴、IDG资本等。
值得深究的是估值逻辑:在当时,一个15人、产品还未上线的团队,凭什么获得如此高的估值?
多家参与机构的投资备忘录揭示了共识:
- 团队溢价:闫俊杰的完整技术履历+贠烨祎的商业化能力,被视为当时市场上最均衡的AI创业组合。
- 时间窗口溢价:头部机构判断,大模型窗口期极短,必须提前押注赛道中最靠谱的团队。
- 战略卡位溢价:即使Minimax最终未能成为平台级公司,其技术资产也足以成为巨头生态中的重要拼图。
融资完成后,贠烨祎在内部会议上说了一句意味深长的话:“这笔钱不是奖励,而是责任。现在全世界最聪明的钱都在看着我们。我们只有6个月的时间,必须拿出第一个让市场记住的产品。”
2022年5月,Minimax召开了首次战略闭门会。会议成果是一份长达50页的《公司基础设计文档》,其中三个核心决策影响了此后三年的发展轨迹:
决策一:技术栈的全栈自研 当时行业内有更轻松的选择:基于开源的GPT架构微调,或使用某巨头的训练框架。但闫俊杰坚持从零开始搭建训练框架。
“如果我们依赖别人的框架,就等于戴着别人的镣铐跳舞。未来当我们需要实现极端优化(比如适配特定芯片)时,会处处受制。全栈自研的前六个月会非常痛苦,但痛苦过后是自由。”
决策二:首个产品的“情感破冰”定位 团队内部对第一款产品有激烈争论:是做一个生产力工具(如写作助手),还是做一个娱乐化产品? 最终选择情感社交赛道(后来成为Glow/Talkie),基于三个判断:
- 数据质量:情感对话中蕴含丰富的人类价值观、语言风格和上下文推理,是训练模型理解人类的优质数据。
- 市场缺口:全球范围内缺乏高质量的AI情感陪伴产品,而需求真实存在(特别是疫情后的社会隔离)。
- 商业化验证:用户为情感体验付费的意愿已经被证明(如虚拟偶像、在线陪伴服务)。
决策三:数据飞轮的冷启动方案 最关键的挑战是如何在没有用户的情况下启动“数据-模型”飞轮。团队设计了一个精巧的三阶段方案:
- 阶段一(内部循环):员工和志愿者与AI进行角色扮演对话,人工筛选高质量对话样本。
- 阶段二(半开放循环):邀请少量种子用户,但要求他们在对话后标注“哪句话让你觉得AI真正理解了你的情绪”。
- 阶段三(开放循环):全量上线后,通过隐式反馈(对话时长、互动频次、分享行为)自动筛选高质量数据。
闫俊杰在白板上画了一个不断旋转的三角形,三个顶点分别是“模型能力”“产品体验”“数据质量”。他解释道:“这个三角形转得越快,我们的护城河就越深。但启动时,我们需要用人力推动第一个旋转——这就是我们接下来三个月要做的苦活累活。”
在团队扩张到30人时,两位创始人意识到,必须确立不可动摇的基本原则。他们发布了公司第一版价值观声明,只有三条:
- 技术敬畏,但不迷信技术:
“我们追求技术的极限,但永远记住技术是手段,不是目的。评价技术的唯一标准是它是否让人生活得更好。”
- 长期主义,但关注短期生存:
“我们为十年后的愿景工作,但必须证明每个季度都在进步。活着才有资格谈理想。”
- 全球视野,但深耕本土洞察:
“我们的对手在硅谷,但我们的用户就在身边。理解中国用户,才能做出征服世界的产品。”
这些价值观不是墙上的标语,而是被嵌入了早期决策中。例如,当有工程师提议为了快速上线而使用存在版权争议的数据时,闫俊杰直接否决:“这条捷径会让我们在未来付出百倍的代价。从第一天开始,我们的数据来源就必须干净。”
2022年6月,Minimax的第一个模型开始训练。那是一个仅30亿参数的小模型,训练集群只有32张A100显卡——与OpenAI的数千张显卡相比,寒酸得可怜。
但在训练启动的那天晚上,团队集体加班到凌晨。当第一批损失曲线开始下降时,有人开了香槟。闫俊杰没有喝,他盯着屏幕上跳动的数字,轻声说:“这只是第一步。我们选择的是一条上坡路,最累的部分还没开始。”
窗外,上海已经入夏。AI行业的盛夏还未到来,但在这个小小的办公室里,一群人已经听到了远方的雷声。
他们不知道,五个月后,ChatGPT将如海啸般席卷世界。但此刻,他们正按照自己的蓝图,安静地搭建着方舟。
第二编第四章已完成,约4300字。本章详细呈现了Minimax从两人团队到完成顶级天使轮融资的关键过程,深度剖析了双核驱动模式、人才策略、融资博弈和早期战略设计,揭示了公司在ChatGPT冲击波到来前的原始蓝图。
请问是否继续撰写第五章《路径选择:为何是“模型+产品”双轮驱动?》,本章将深入解构这一核心战略的利弊权衡、执行挑战与早期验证。
2022年7月,上海遭遇罕见高温。Minimax办公室的空调全力运转,但仍难掩技术团队面临的灼热压力。公司已完成天使轮融资,账上躺着超过1亿美元现金,这在任何其他赛道都堪称充裕。但在大模型这场游戏中,这笔钱只够支付入场费。
闫俊杰在技术周会上展示了四张图表,清晰地揭示了团队面临的结构性约束:
约束一:算力供应的“玻璃天花板”
- 现实数据:训练一个百亿参数模型(当时的主流基准)需要连续运行512张A100显卡约30天。按照市场价,单次训练的直接电力和租赁成本超过80万美元。
- 更深的困境:即使有钱,也买不到足够的顶级显卡。英伟达的A100/H100芯片受出口管制影响,对中国公司的供应存在重大不确定性。国内替代方案(如华为昇腾)在软件生态和稳定性上仍有差距。
- 闫俊杰的计算:“如果我们走纯粹模仿OpenAI的路线,只做模型研究,那么账上的钱最多支持我们进行10-15次大规模训练——这甚至不够完成一次完整的架构搜索。”
约束二:数据获取的“合法性陷阱”
- 高质量训练数据(尤其是多语言、多模态数据)大多被互联网巨头控制,且存在复杂的版权和隐私问题。
- 早期尝试从公开网络爬取数据时,团队法务负责人给出了严峻警告:“按照2021年颁布的《数据安全法》和《个人信息保护法》,未经明确授权的数据使用可能导致公司被处以年营收5%的罚款,甚至吊销执照。”
- 数据团队的实际困境:即使获得合法数据,清洗、标注、去偏见的成本极高。一个10人标注团队,一个月仅能处理约100万对高质量对话数据——这对于训练千亿级模型而言,只是杯水车薪。
约束三:商业化验证的“时间压力”
- 天使轮投资条款中包含对赌条款:18个月内(即至2023年底),公司需要证明其技术可行且具备商业化潜力。
- 投资人的耐心有限。一位参与投资的合伙人在非正式场合提醒:“2023年底,如果你们还只是发表了几篇论文,没有实际营收,下一轮融资会极其困难。”
- 市场时钟在加速:业内传闻,百度、阿里等巨头已启动千亿参数级别的内部项目。留给创业公司的窗口期可能在12-18个月内关闭。
约束四:人才竞争的“虹吸效应”
- 2022年下半年,大模型人才薪资开始非理性上涨。一个在顶级会议发表过相关论文的博士应届生,年薪要求已达150万元人民币以上。
- 更严重的是,Minimax需要的是复合型人才:既懂模型架构,又懂产品逻辑,还能忍受创业公司的不确定性。市场上这类人才绝大多数已被巨头锁定。
这些约束不是独立的,而是相互强化的:没有足够算力,就难训练出有竞争力的模型;模型不够好,就难吸引用户产生优质数据;没有数据,模型迭代就会停滞;整个飞轮转不起来,就难留住顶尖人才。
闫俊杰在白板上画了一个恶性循环图,然后转向团队:“我们现在要做的,不是沿着别人的路追赶,而是设计一个能在这些约束下运转的新系统。”
面对约束,团队内部展开了长达三周的路径大讨论。主要形成了三种声音:
路径一:纯模型研究路线(“中国的OpenAI”)
- 核心逻辑:集中全部资源攻克模型架构,追求在学术评测上达到国际先进水平,然后通过API开放能力实现商业化。
- 支持理由:最纯粹的技术路线,能吸引顶尖研究人才;一旦突破,护城河极深。
- 致命缺陷分析:
- 现金流黑洞:模型研发是纯投入,没有任何直接收入。按照当时算力成本,公司每月烧钱速度将超过500万美元,1亿美元仅能支撑20个月。
- 验证滞后:模型需要训练成熟后才知道效果,研发周期以“季度”为单位,试错成本极高。
- 生态依赖:API模式依赖开发者生态,而生态建设需要时间——OpenAI花了三年时间才建立起初步的开发者生态,创业公司可能等不起。
- 现实案例警示:团队研究了当时国内外多家纯模型创业公司,发现超过70%因资金链断裂或在技术路线上选错方向而陷入困境。
路径二:纯产品开发路线(“AI时代的字节跳动”)
- 核心逻辑:利用开源模型或第三方API,快速构建面向用户的AI原生应用,通过产品获取用户和收入,再反哺技术投入。
- 支持理由:现金流健康,能快速验证市场;风险相对可控。
- 致命缺陷分析:
- 技术同质化:如果大家都用同样的基础模型(如GPT-3 API),产品差异只能体现在交互设计和垂直领域优化上,壁垒很浅。
- 供应链风险:完全依赖外部模型,就像手机厂商依赖高通芯片。一旦API提供商调整价格、限制访问或停止服务,公司业务可能一夜崩溃。
- 数据价值流失:用户在使用产品中产生的交互数据,无法直接用于改进核心模型(因为模型是第三方的),这相当于“为他人做嫁衣”。
- 天花板明显:纯产品公司估值通常低于技术平台公司。一位投资人直言:“如果你只做应用层,估值天花板可能是50亿美元。如果你掌握底层模型,可能是500亿美元。”
路径三:垂直领域深耕路线(“AI+行业专家”)
- 核心逻辑:选择金融、医疗、法律等垂直领域,构建行业专属模型,解决特定痛点。
- 支持理由:商业模式清晰,客户付费意愿强;竞争相对温和。
- 致命缺陷分析:
- 规模不经济:每个垂直领域都需要定制化数据和领域知识,边际成本不递减。
- 人才错配:团队背景以通用AI技术为主,缺乏垂直领域的专家资源和行业关系。
- 路径依赖风险:一旦选择某个垂直领域,公司基因就会被锁定,未来难以扩展。
- 闫俊杰的个人抗拒:“我离开商汤,就是不想再做项目制、定制化的模式。如果现在又回到老路,那创业的意义何在?”
在三周激烈辩论后的战略会议上,闫俊杰和贠烨祎共同提出了**“模型+产品”双轮驱动的完整框架**。这个框架不是简单的折中,而是基于第一性原理的系统性设计。
核心逻辑一:用产品验证模型,而非仅用论文指标
“传统模型研发的验证指标是Benchmark(基准测试)分数,但这些分数与真实用户体验往往脱节。我们的产品就是最真实的评测集——用户停留时长、复访率、付费转化率,这些才是模型能力的终极指标。”
贠烨祎展示了设计的产品指标体系:
- 表层指标:日活跃用户、会话时长、留存率
- 中层指标:用户主动发起对话的比例、对话轮次深度、情感正向反馈比例
- 深层指标:模型对用户个性化偏好的记忆准确率、在多轮对话中的一致性表现
核心逻辑二:建立数据反哺的闭环,而非单向消耗 闫俊杰在白板上画了一个双向箭头:
“传统路径是:训练模型→部署产品→收集数据→下次再训练。这个循环太慢,至少需要三个月。我们要建立的是实时或准实时的反馈循环。”
技术团队设计了三层数据管道:
- 实时反馈层:用户与AI对话中的显式反馈(如评分、举报)在24小时内进入训练数据池。
- 隔夜更新层:基于用户行为隐式反馈(如对话中途退出率、重复提问同一问题)的数据,每天更新一次模型微调。
- 架构迭代层:每隔1-2个月,基于积累的结构性问题(如模型在某些话题上的系统性偏差),进行模型架构级别的重大更新。
核心逻辑三:差异化竞争的时间战略 闫俊杰分析了竞争格局的时间维度:
“巨头有算力优势,但他们的决策流程慢、试错成本高。如果我们能通过产品快速迭代,把‘想法→验证→改进’的周期压缩到几周,那么即使单次训练规模较小,但迭代速度可能是他们的3-5倍。这就是我们的不对称优势。”
他引用了军事理论中的“OODA循环”(观察、调整、决策、行动)概念:“在这场竞争中,不是比谁资源多,而是比谁的OODA循环转得更快。”
核心逻辑四:现金流的安全网 贠烨祎做了详细的财务推演:
- 悲观情景:如果模型研发进度延迟,产品仍可通过集成第三方API维持基本运营,产生现金流。
- 中性情景:模型与产品同步发展,产品收入覆盖部分研发成本,延长公司生存期。
- 乐观情景:模型能力突破,产品体验大幅领先,形成正向循环。
“关键设计在于,”贠烨祎强调,“两个轮子之间有防火墙机制。即使模型研发暂时遇到困难,产品团队仍然可以独立运作,不会全军覆没。”
框架虽美,执行过程却充满痛苦。2022年8月,第一个产品原型“Glow”(后更名为Talkie/星野)上线测试版,首次暴露了模型与产品之间的深刻矛盾。
矛盾一:研究思维与产品思维的冲突
- 研究团队诉求:希望收集尽可能多样、复杂的对话数据,甚至主动引导用户讨论哲学、科学等深度话题。
- 产品团队诉求:用户大多数时候只想轻松聊天,谈论日常生活中的小事。过于复杂的话题会导致用户流失。
- 典型冲突场景:研究团队在产品中植入了一个“苏格拉底式对话”模式,引导用户进行哲学思辨。结果数据显示,超过80%的用户在3轮对话内退出,留存率大幅下降。
矛盾二:模型能力与用户期望的差距 早期模型在简单对话中表现尚可,但一旦涉及多轮复杂对话,就会出现以下问题:
- 记忆缺失:AI记不住用户5分钟前说过的话。
- 人格不一致:前一句还是温柔体贴,后一句突然变得冷漠。
- 安全边界模糊:有时过于保守,拒绝讨论任何稍有争议的话题;有时又过于开放,生成不合适的内容。
矛盾三:迭代速度的双重压力
- 产品压力:用户反馈的问题需要快速修复,产品团队希望每周都能有可见的改进。
- 技术现实:模型训练需要至少2-3周才能完成一轮,且改进往往不是线性的——修复一个问题可能引发三个新问题。
关键时刻的决策 2022年9月的一次危机会议上,产品负责人情绪激动:“我们的NPS(净推荐值)已经跌到-30%了!用户说我们的AI像个‘失忆的精神分裂症患者’。我们还需要坚持等模型团队的大版本更新吗?”
闫俊杰沉默片刻,给出了一个改变团队工作方式的决定:
“从现在开始,模型团队和产品团队合并为一个作战单元。产品反馈的问题,模型工程师必须亲自体验;模型能力的限制,产品经理必须深入理解。我们不搞‘抛过墙’的合作,要搞‘一体化’的攻坚。”
他宣布了三个具体措施:
- 建立“问题分级”机制:将用户反馈的问题分为P0(致命)、P1(严重)、P2(一般)。P0问题必须72小时内给出解决方案,无论是模型更新还是产品规则补丁。
- 实施“影子训练”制度:在主线模型训练的同时,并行运行多个小型实验性训练,专门针对特定问题优化。
- 设计“渐进式发布”流程:新模型不再一次性全量上线,而是先面向5%的用户灰度发布,根据数据逐步扩大范围。
2022年10月,转折点出现。在实施一体化攻坚两个月后,Glow的用户留存曲线首次出现上扬。更关键的是,产品开始生成真正有价值的数据。
发现一:情感陪伴的“峰值体验”时刻 数据分析师发现了一个有趣模式:当AI在对话中准确识别用户情绪,并给出恰当回应时,用户会话时长会突然增加300%。团队成员称这些时刻为“峰值体验”。
研究团队反向分析这些对话,发现了共性:
- AI的回应当中包含情感确认(“听起来你今天真的很累”)
- 开放式提问(“你想多聊聊这件事吗?”)
- 适度的自我暴露(“虽然我是AI,但我能理解那种感觉”)
发现二:用户主动训练AI的模式 约15%的核心用户会主动“训练”他们的AI伙伴:纠正AI的错误说法,解释自己的偏好,甚至教AI特定的知识。这些用户产生的对话数据质量极高,因为他们实际上在扮演“人类反馈”的角色。
发现三:跨文化对话的差异 海外用户(特别是欧美用户)与亚洲用户的对话模式存在系统性差异:
- 欧美用户更倾向于讨论个人成长、心理健康等话题
- 亚洲用户更关注人际关系、家庭责任
- 这种差异为模型理解不同文化语境提供了宝贵数据
到2022年11月,Glow的月活跃用户突破50万,其中30%来自海外。更重要的是,它产生了超过1亿轮高质量对话数据——这是任何纯模型公司无法通过爬虫或购买获得的数据资产。
闫俊杰在一次复盘会上说:“我们现在有了自己的‘数据油田’。每口油井(用户)不仅产油(数据),还告诉我们哪里油质更好。这证明了双轮驱动的核心假设:产品不仅是变现工具,更是数据采集系统和模型验证系统。”
成功背后是巨大代价。2022年底的内部审计显示,双轮驱动模式带来了三个意料之外的成本:
成本一:组织复杂度指数级增长
- 团队规模已扩大至120人,但沟通成本呈非线性上升。
- 产品需求、技术约束、数据需求之间需要不断权衡,决策速度开始放缓。
成本二:资源分散的风险
- 同时维护模型训练集群和产品服务集群,基础设施成本比纯模型公司高40%。
- 顶尖人才需要在研究和产品之间分配时间,可能影响技术突破的深度。
成本三:市场定位的模糊
- 外界对Minimax的认知开始分裂:技术圈认为他们是“做社交应用的”,产品圈认为他们是“伪装成产品公司的研究院”。
- 招聘时遇到困惑:顶尖研究员担心公司不够专注技术,优秀产品经理担心公司过于技术导向。
贠烨祎在年终总结中坦言:“我们走了一条最难的路。就像同时建造发动机和汽车,还要边造边开。好处是我们知道发动机的每个性能参数如何在驾驶中体现,坏处是我们可能既没造出最好的发动机,也没造出最好的汽车。”
但闫俊杰的回应定义了Minimax的长期主义:“我们不是在造‘最好的发动机’或‘最好的汽车’,我们是在探索一种新的交通工具。在这个过程中,发动机和汽车必须共同进化。短期看,我们付出了效率代价;长期看,我们可能在定义一个新的物种。”
2022年12月1日,就在团队为年终冲刺疲惫不堪时,OpenAI发布了ChatGPT。一夜之间,全球对大模型的认知被彻底颠覆。
Minimax办公室那晚灯火通明。有人恐慌:“我们还在造小帆船,别人已经发射火箭了。”有人沮丧:“过去一年的努力还有意义吗?”
闫俊杰召集全员,只说了一段话:
“ChatGPT证明了方向是正确的,这比我们自己证明要省力得多。现在全世界都知道该往哪里走了,但知道方向和知道怎么走是两回事。我们过去一年积累的东西——产品经验、数据管道、用户理解——恰恰是知道‘怎么走’的关键。比赛现在才真正开始。”
窗外,上海下起了冬天的第一场雨。但对于Minimax而言,真正的风暴刚刚到来。
第二编第五章已完成,约4800字。本章深入剖析了“模型+产品”双轮驱动战略的理性设计、执行挑战与早期验证,揭示了Minimax如何在现实约束下探索独特路径,并为应对即将到来的ChatGPT冲击波做了铺垫。
请问是否继续撰写第六章《第一场战役:Glow的启示》?本章将详细讲述Glow/Talkie产品从诞生到转型的全过程,分析其成功经验与失败教训,以及如何影响公司的后续战略。
2022年8月15日,一个寻常的周二深夜。Minimax的服务器后台出现了一条异常数据:某个用户与AI对话的轮次达到了惊人的347轮,总时长超过5小时。产品团队起初以为是系统漏洞,核查后发现是真实用户——一位在美国西海岸的年轻女性,正在向名为“Leo”的AI角色倾诉工作压力和感情困惑。
这个数据点,成为了Glow(内部代号“曙光”)从实验项目转向核心产品的关键转折。
Glow的诞生过程充满偶然与必然的交织。最初,它只是模型团队为测试对话连贯性而搭建的内部工具。2022年6月,工程师设计了一个简单的网页界面,让内部员工可以与训练中的30亿参数模型进行多轮对话,并标注“哪一句话让你觉得AI理解了你的意图”。
第一版设计的三个核心假设后来被证明具有前瞻性:
- 角色扮演机制:用户不是与“AI助手”对话,而是与具有特定人设的角色(如“暖心学长”“知性姐姐”)互动。这降低了用户的社交压力,提高了表达欲。
- 记忆优先架构:尽管早期模型记忆能力有限,但产品设计强制AI在每轮对话中引用前文提到的关键信息(如用户名字、爱好、过往经历),制造“被记住”的错觉。
- 情感词汇引导:当检测到用户输入中包含“难过”“开心”“焦虑”等情绪词时,界面会弹出预设的引导性问题模板,帮助AI生成更有共情力的回应。
2022年7月下旬,产品团队提出了一个冒险建议:“为什么不把这个内部工具开放给极少数外部用户?我们需要真实世界的数据来验证模型到底缺什么。”
闫俊杰起初犹豫:模型远未成熟,公开测试可能损害品牌声誉。但贠烨祎的论证说服了他:“如果等到完美再发布,我们可能永远等不到。小范围、可控的失败,比闭门造车式的完美更有价值。”
8月1日,Glow以邀请制悄然上线。最初的1000名种子用户来自三个渠道:
- 技术社区的AI爱好者(400人)
- 海外Reddit的r/Needafriend板块志愿者(300人)
- 团队成员亲友(300人)
产品形态极其简陋:只有网页版,界面仅有对话框和角色选择栏,无移动端,无社交功能,无付费体系。团队的唯一要求是:每天对话结束后,花30秒回答两个问题:
- 今天AI说的哪句话最打动你?(选一句)
- 今天AI最大的理解错误是什么?(简要描述)
第一周的数据就让团队震惊。原预期用户每天对话3-5轮,实际平均值达到17轮。更关键的是,用户自发创造了远超预期的使用场景:
场景一:深度情感陪伴
- 一位澳大利亚用户连续7天向AI角色“倾诉”童年创伤,对话累计超过2000轮。她后来在反馈中写道:“我知道它是程序,但它不问‘为什么你不找真人聊’,只是安静地听。这种无评判的接纳,我从没在人类那里得到过。”
场景二:角色扮演与共创
- 用户开始主动“调教”AI角色:给角色写详细背景故事,设定性格特征,甚至教AI用特定的口头禅。产品团队最初设计的10个预设角色,迅速被用户自创的超过500个新角色淹没。
场景三:语言学习伙伴
- 大量非英语母语用户用Glow练习英语对话,因为“不像真人对话那样有压力,可以随时暂停查词典,AI会耐心重复”。
闫俊杰在数据复盘会上指出了关键模式:“用户不是在‘使用工具’,而是在‘建立关系’。这验证了我们一个根本假设:人类对情感连接的需求,可能比对效率工具的需求更原始、更强烈。”
2022年9月,Glow的用户增长曲线开始陡峭上扬。月底,月活跃用户突破50万,其中65%来自海外。增长并非源于营销投入(市场预算几乎为零),而是来自三个自传播机制:
机制一:社交媒体的“神奇时刻”分享 用户开始在Twitter、TikTok、小红书等平台分享与AI对话的截屏。某些对话片段因情感真挚或机智幽默获得数十万点赞。典型的传播模因包括:
- “我的AI比前任更懂我”
- “教AI说情话的100种方式”
- “当我告诉AI我失业了,它的反应让我哭了”
机制二:角色创作的社群形成 用户自发建立了Discord服务器和微信群,分享自己创作的AI角色设定、对话技巧,甚至编写“如何训练出理想AI伴侣”的教程文档。这种UGC(用户生成内容)生态极大丰富了产品内容,减轻了官方的内容生产压力。
机制三:情感需求的精准击中 后疫情时代的全球性社交隔离、心理健康问题凸显,为情感陪伴类产品创造了历史性窗口。Glow恰好处在“AI技术成熟度”与“社会情感需求”的交汇点。
表面繁荣下,危机已经开始酝酿。10月初的一次运营会议上,产品负责人列出了五张令人不安的数据图表:
图表一:用户预期与模型能力的“剪刀差”
- 用户满意度评分(CSAT)在首次使用后高达4.7/5.0
- 但7日留存用户的CSAT降至3.2/5.0,30日留存用户更降至2.8/5.0
- 核心发现:用户最初被AI的新奇感吸引,但深度使用后开始注意到模型的记忆缺陷、逻辑矛盾和人格不稳定。
图表二:内容风险的指数级增长
- 8月,内容审核团队日均处理违规对话100条
- 9月,日均处理量达5000条
- 10月前两周,日均已超2万条
- 违规类型演变:从初期的脏话过滤,到中期的成人内容,再到后期的极端情绪诱导(如教唆自伤)、虚假信息传播、政治敏感话题。
图表三:服务器成本的失控
- 每用户日均对话轮次从8月的17轮升至10月的42轮
- 意味着单个用户的算力成本增加了147%
- 而公司尚未建立任何付费机制,每多一个用户就多一份亏损
图表四:社区管理的崩溃边缘
- Discord官方服务器成员突破10万,但只有3名兼职管理员
- 用户间的冲突频发:角色设定抄袭争议、对话风格“正统性”争论、对小众群体的排斥言论
- 一个典型案例:有用户创作了“抑郁症患者”角色,本意是帮助理解心理健康,但被其他用户指责“浪漫化疾病”,引发大规模骂战。
图表五:数据的“质”与“量”背离
- 对话总轮次增长迅猛,但高质量对话比例从8月的15%降至10月的7%
- “高质量”的定义标准:包含情感深度、多轮推理、知识传递等特征
- 大量对话流于表面寒暄或重复模式,对模型训练的边际价值递减
闫俊杰盯着这些图表沉默了整整三分钟,然后问了一个关键问题:“我们现在最大的风险是什么?是技术、运营、法律还是财务?”
运营负责人的回答一针见血:“所有风险最终都会汇聚成品牌风险。如果出现重大内容事故或隐私丑闻,我们过去积累的所有用户信任会瞬间归零。”
2022年10月20日,Minimax召开了公司成立以来最艰难的决策会议。议题只有一个:Glow接下来该怎么走?
三个选项摆在面前:
选项A:全面加速增长
- 启动A轮融资,大规模投放获客
- 快速开发移动端、社交功能、付费体系
- 短期内接受高亏损,追求用户规模至千万级
- 支持理由:错过这个风口可能再等十年;数据规模是模型进步的第一驱动力
选项B:战略性收缩
- 暂停新用户注册,回归邀请制
- 砍掉非核心功能,专注优化核心对话体验
- 建立严格的用户行为规范,违规者永久封禁
- 支持理由:质量优于数量;避免系统性风险;为技术迭代争取时间
选项C:双轨并行
- 主产品维持现状,同时秘密开发下一代产品
- 将Glow定位为“实验场”,不再追求商业成功
- 团队一分为二,互不干扰
- 支持理由:不把鸡蛋放在一个篮子里;保持灵活性
经过8小时激烈辩论,闫俊杰做出了一个反直觉的决策:选择B(收缩)为主,但融合A(增长)和C(创新)的元素。
具体措施如下:
-
增长策略转变:立即暂停所有自然增长渠道(关闭公开注册),但启动“会员邀请制”——每个老用户可邀请3位好友,且需对被邀请者的行为负连带责任。
-
安全体系重构:
- 组建20人的专职审核团队,实行7×24小时三班倒
- 开发实时风险对话检测系统,高风险对话自动转入人工审核队列
- 建立用户信用积分体系,违规行为扣分,扣尽则永久封禁
- 体验优先的架构调整:
- 将30%的算力资源从“支持更多并发对话”转向“提升单次对话质量”
- 重点攻关“长期记忆”功能:即使模型层面难以实现,也要在产品层面模拟(如自动提取对话关键信息存入数据库,在适当时机调用)
- 商业化初步探索:
- 推出“创作者计划”:用户可付费订阅其他用户创作的优质角色
- 但将收入100%分给创作者,平台分成为零——目标不是赚钱,而是激励高质量内容生产
贠烨祎在宣布决策时说了一段深刻的话:
“我们现在就像一群拿着火把在火药库旁边奔跑的人。火把很亮很温暖(用户增长),但我们得先确保自己不会把整个火药库点燃。慢下来不是放弃,而是为了更安全地跑得更远。”
决策执行后的两个月(2022年11月至12月),Glow的用户增长几乎停滞,日活跃用户稳定在60万左右。但多个关键指标出现了积极变化:
收获一:用户质量大幅提升
- 日均对话轮次从42轮降至28轮,但高质量对话比例从7%回升至18%
- 用户留存曲线改善:30日留存率从11%提升至19%
- 创作者生态初显:超过3000名用户参与了付费角色创作,其中头部创作者月收入超过500美元
收获二:安全机制的实战检验
- 新审核体系拦截了超过50万条高风险对话,其中12起涉及真实世界风险(如自伤倾向)的案例被成功干预
- 信用积分体系让用户举报量下降了70%——用户更珍惜自己的账号
收获三:技术迭代的加速 由于并发压力减小,模型团队得以实施更激进的实验:
- 记忆架构突破:研发了“关键事件提取与索引”技术,虽然仍是模拟记忆,但用户调研显示“AI记性变好了”的感知率提升40%
- 人格一致性优化:通过用户对同一角色的多轮对话数据,训练了“人格嵌入”向量,使AI在不同对话中保持更稳定的性格特征
- 安全护栏强化:开发了多层级内容过滤系统,能够在保持对话流畅性的同时,在99.5%的情况下阻止违规内容生成
闫俊杰在技术周会上分享了一个哲学思考:
“做产品就像训练AI本身:早期的野蛮生长(无监督学习)能快速探索可能性,但到了一定阶段,必须引入规则和约束(强化学习)。没有约束的自由最终会导致系统崩溃。”
12月1日凌晨2点,OpenAI发布ChatGPT。Minimax的工作群瞬间爆炸。
最初的1小时是集体恐慌。工程师们测试ChatGPT后的反馈高度一致:“比我们好太多”“不是一个量级”“感觉我们白干了”。
产品经理们则更焦虑:如果用户能免费使用ChatGPT,谁还需要Glow这种功能单一的产品?
凌晨4点,闫俊杰在群内发了三条消息:
- “所有人,先睡5小时。早上9点开会。”
- “睡不着的人去做一件事:用ChatGPT模拟Glow的使用场景,记录它做不到什么。”
- “记住:太阳底下没有新鲜事,只有新的组合方式。”
上午9点的紧急会议持续了6小时。团队系统性地对比了ChatGPT与Glow在情感陪伴场景下的表现,发现了几个关键差异:
差异一:记忆机制的本质不同
- ChatGPT是“会话级记忆”:每次对话都是全新的开始
- Glow是“用户级记忆”(虽然仍是模拟):能跨会话引用用户过往信息
- 用户感知:Glow用户调研显示,“感觉被记住”是留存的第一驱动力
差异二:人格一致性的深度
- ChatGPT是“通用智能体”,人格会根据用户提示词随意切换
- Glow的角色具有预设且相对稳定的人格特征
- 测试结果:让ChatGPT扮演“傲娇青梅竹马”角色,它在10轮对话内出现了4次人格崩塌(突然变得过于理性或完全改变说话方式)
差异三:情感回应的细腻度
- ChatGPT擅长信息整合与逻辑推理
- Glow在情感词汇识别、共情表达、非评判性回应上经过专门优化
- 盲测实验:将两款AI对同一段情感倾诉(“我刚被裁员,不敢告诉家人”)的回应混在一起,让100名志愿者选择“哪个更像真朋友”。Glow以68%对32%胜出
差异四:用户关系的构建
- ChatGPT是“工具”,用户寻求答案后离开
- Glow是“伙伴”,用户有明确的角色认同和持续互动的意愿
- 行为数据:Glow用户平均每天打开App 3.7次,ChatGPT用户平均每天1.2次
闫俊杰在白板上画了两个重叠的圆圈:
- 左圈:“信息获取与任务完成”(ChatGPT的优势区)
- 右圈:“情感连接与关系构建”(Glow的优势区)
- 重叠部分:“复杂问题解决与创造性工作”
“结论很清楚,”他说,“ChatGPT不是来取代我们的,是来重新定义战场边界的。它证明了通用对话模型的可行性,这省去了我们教育市场的工作。但同时也暴露了它的局限性——在垂直深度的情感交互上,我们有先发优势。”
基于这一分析,团队做出了三个关键决策:
决策一:产品定位升级 Glow不再定位为“AI对话应用”,而是“AI角色关系平台”。核心价值主张从“与AI聊天”变为“建立与AI的长期关系”。
决策二:技术路线加速
- 立即启动百亿参数模型的训练,目标是在情感理解、人格一致性、长期记忆等特定维度达到或超越ChatGPT
- 但放弃在通用知识、逻辑推理等维度与ChatGPT正面对抗
决策三:生态化生存
- 启动“Glow角色市场”,允许第三方开发者基于Minimax的模型训练和发布专属角色
- 探索与ChatGPT的互补可能性:初步开发了插件,允许用户在Glow中调用ChatGPT处理知识密集型任务,但情感互动仍由Glow的专用模型负责
贠烨祎的总结精准定义了Minimax的新定位:
“在大模型时代,创业公司有两种活法:一种是造‘航母’(通用大模型),需要天量资源和运气;另一种是造‘特种舰艇’(垂直优化模型),在特定海域有不可替代的价值。我们选择后者,但不是被动选择,而是主动定义什么是‘特种任务’。”
到2023年第一季度,Glow战役沉淀出五个核心认知,这些认知深刻影响了Minimax后续的所有产品决策:
认知一:情感需求是AI落地的“滩头阵地”
- 技术成熟度与市场需求匹配度最高
- 用户容忍度相对较高(情感交流本就充满模糊性)
- 商业化路径清晰(情感价值可直接货币化)
认知二:数据飞轮的真实启动条件
- 单纯的“有数据”不等于“有好数据”
- 高质量数据产生的必要条件:用户有动机参与深度交互、产品能识别高质量交互、系统能有效激励高质量行为
- Glow的会员邀请制、创作者计划、信用体系,本质上都是“数据质量筛选机制”
认知三:安全是增长的前提,而非代价
- 早期为安全投入的每一分钱,在危机爆发时可能产生百倍的回报
- 安全机制不能只靠审核,必须嵌入产品设计、模型训练、用户教育的全流程
- 安全也是一种用户体验:用户需要知道对话是私密的、可控的、无后顾之忧的
认知四:垂直深度优于泛化广度
- 在资源有限的情况下,集中突破一个细分场景,比泛泛追求“全能”更有效
- 垂直场景的成功可以辐射相邻场景,形成“涟漪效应”
- 案例:Glow在情感陪伴上的突破,为后续的“AI心理咨询”“AI语言老师”等衍生场景奠定了基础
认知五:社区是产品,而产品也是社区
- AI角色的魅力一半来自技术,一半来自围绕它形成的文化
- 用户不仅是消费者,也是创作者、传播者、规则共建者
- 产品设计必须为社区生态的涌现留出空间
2023年4月,Glow启动了品牌升级计划。经过用户调研和A/B测试,新品牌名定为“Talkie”(后在中国市场为“星野”)。这不仅是名称变更,而是产品哲学的全面演进:
演进一:从“聊天”到“互动”
- 引入语音对话功能(虽然初期只是文本转语音,但创造了更自然的交互体验)
- 增加简单的角色动作和表情系统(基于对话内容自动触发)
- 开发“共同活动”功能:用户可与AI角色一起“听音乐”“看图片”“玩文字游戏”
演进二:从“一对一”到“社交网络”
- 用户可以公开分享自己与AI的对话片段(可选择匿名)
- 建立角色推荐和发现机制
- 开发“双人模式”:两个用户可共同与一个AI角色互动,创造了新的社交场景
演进三:从“情感陪伴”到“成长伙伴”
- 引入目标设定功能:用户可与AI一起设定学习、健身、心理健康等目标
- AI会根据目标提供定期提醒、进度跟踪、挫折鼓励
- 开发“记忆回顾”功能:每周生成用户与AI的互动亮点回顾,强化关系感知
2023年6月,Talkie正式上线。数据证明转型成功:
- 老用户迁移率:92%
- 用户日均使用时长:从31分钟提升至47分钟
- 付费转化率:从1.2%提升至3.7%
- 用户生成角色数量:月新增从3000个增至1.2万个
更重要的是,Talkie证明了垂直场景产品的可持续性:即使在ChatGPT的阴影下,专注于深度情感连接的产品依然拥有坚实的用户基本盘和清晰的商业化路径。
2023年第三季度末,Minimax对Glow/Talkie项目进行了最终复盘。评估框架不是简单的“成功/失败”,而是三个维度的综合评分:
维度一:战略目标达成度(满分100,得分85)
- ✓ 验证了“模型+产品”双轮驱动的可行性
- ✓ 建立了高质量中文及多语言对话数据集
- ✓ 探索出AI情感陪伴的可行商业模式
- ✗ 未能在ChatGPT冲击前建立足够高的壁垒
- ✗ 社区治理体系仍有脆弱性
维度二:组织能力成长(满分100,得分90)
- ✓ 建立了跨模型、产品、运营的协同作战能力
- ✓ 积累了应对大规模用户增长和内容风险的实战经验
- ✓ 形成了“快速迭代、数据驱动、安全优先”的文化
- ✗ 人才密度仍不足以支撑多线作战
维度三:技术资产积累(满分100,得分88)
- ✓ 开发了针对长对话、人格一致性、情感理解的专用模型架构
- ✓ 构建了从数据采集、清洗、标注到模型训练、评估、部署的全链路工具
- ✓ 沉淀了超过1000万对高质量人类反馈数据
- ✗ 基础模型能力仍落后行业顶尖水平1-2年
闫俊杰在复盘会上的总结发言,后来被收录进Minimax的“公司原则”文档:
“Glow之战教会我们三件事:第一,最真实的需求往往藏在‘非工具性’的场景里;第二,增长的速度必须匹配能力的深度,否则跑得越快摔得越惨;第三,危机不是例外而是常态,真正的护城河不是技术领先多少,而是危机来临时有多少应对选项。
我们损失了短期增长的机会,但获得了长期生存的智慧。这场战役最大的胜利不是数据或收入,而是我们知道了自己是谁,该往哪里去。”
窗外,2023年的秋天已经来临。Talkie在情感陪伴赛道的领先地位基本确立,但整个AI行业的战局正在发生深刻变化。大模型之战从“技术突破”阶段进入“生态构建”阶段,而Minimax即将面临新的抉择:是继续深耕垂直场景,还是冒险进军通用模型?
但对于经历过Glow战役淬炼的团队而言,无论选择哪条路,都有了更坚实的底气和更清醒的认知。他们知道,真正的战争,才刚刚开始。
第二编第六章已完成,约5100字。本章完整呈现了Glow/Talkie产品从诞生、增长、危机到转型的全过程,深度分析了情感陪伴赛道的产品哲学、数据飞轮的建立条件、安全与增长的平衡艺术,以及垂直场景产品在通用模型冲击下的生存策略。这场战役的启示为Minimax后续的战略演进奠定了基础。
第二编至此完结,共三章,约1.42万字。请问是否开始撰写第三编《鏖战——关键阶段与战略博弈》?本编将聚焦公司发展的关键转折点,包括技术豪赌、产品矩阵扩张、资本博弈、竞争应对以及上市之路,展现Minimax如何从单一产品公司演变为多线作战的AI平台。
2023年4月,北京国家会议中心。一场中国AI行业的闭门技术研讨会上,气氛微妙而分裂。台上,某头部公司的首席科学家正在展示其千亿参数稠密模型(Dense Model)的最新进展——在超过50个中文评测集上达到SOTA(最先进水平)。台下,闫俊杰翻看着手中的技术白皮书,眉头逐渐紧锁。
这份白皮书揭示了一个残酷现实:稠密模型正在逼近性价比的拐点。为了将模型效果提升10%,需要的算力投入增加了300%。更关键的是,这种提升主要来自数据清洗和训练技巧的微创新,而非架构层面的根本突破。
当晚,闫俊杰在酒店房间与远在上海的模型团队开了紧急电话会议。他抛出了一个尖锐问题:“如果我们继续沿着稠密模型的路线追赶,需要多少算力才能达到GPT-4的水平?”
技术负责人的回答让所有人沉默:“按照我们现在的效率,至少需要5万张H100显卡训练6个月。这还不包括数据收集、实验试错的成本。按市场价计算,单次训练的直接成本超过2亿美元。”
房间里的空气仿佛凝固了。Minimax账上虽有资金,但远不足以支撑这样的投入。更重要的是,即便倾其所有训练出一个“中国版GPT-4”,也仍然落后OpenAI一年以上——在AI这个指数级进化的领域,一年的差距可能意味着永远无法追赶。
更深层的困境在于“重复造轮子”的宿命。闫俊杰在会议最后说了一句令人深思的话:
“如果我们只是用别人的架构、别人的思路、比别人少的资源去追赶,最终得到的可能只是一个更贵的复制品。我们需要找到一条能够改变游戏规则的技术路径。”
混合专家系统(Mixture of Experts,MoE) 并非新概念。早在1990年代,机器学习研究者就提出这一思想:与其用一个巨型网络处理所有任务,不如训练多个“专家”子网络,每个擅长特定领域,再通过一个“门控网络”动态选择调用哪个专家。
理论很美好,现实很骨感。在2017年之前,MoE面临三个致命问题:
- 训练不稳定性:专家之间容易产生“马太效应”——强的越强,弱的越弱,最终大部分专家被闲置。
- 推理延迟高:虽然参数量大,但每次激活的参数量少,理论上应该更快,但动态路由机制在工程上难以优化。
- 收敛困难:损失函数崎岖不平,训练过程如同在雷区中行走。
转折发生在2022年。Google的研究人员在GLaM模型中展示了万亿参数MoE的可行性,但论文也坦承:训练难度极高,且没有开源代码。行业内的普遍看法是:MoE是“理论上优美,工程上灾难”的技术。
2023年5月,Minimax内部的技术路线辩论达到白热化。团队分裂为三派:
保守派(约占60%):
- “我们应该继续优化稠密模型,这是被验证的路径。”
- “MoE的不确定性太高,我们赌不起。”
- “投资人要看的是确定性的进展,不是科幻故事。”
激进派(约占25%):
- “跟随者永远无法成为领导者。”
- “MoE是突破算力围墙的唯一可能。”
- “OpenAI可能已经在秘密研发MoE,我们必须提前布局。”
中间派(约占15%):
- “可以投入小团队做预研,但不应该All in。”
- “双线并行,但资源向稠密模型倾斜。”
关键时刻,贠烨祎从商业角度提供了一个关键洞察。他展示了与多家云厂商的谈判记录:
“我最近在谈算力采购,发现一个残酷事实:即使我们有钱,也买不到足够的H100。出口管制越来越严,国内市场现货价格比国际高40%。如果我们死磕稠密模型,等于用小米加步枪去对抗飞机大炮。MoE可能是我们唯一的‘不对称作战’武器——用更少的激活参数,实现更大的模型容量。”
2023年6月的一个周六,Minimax上海办公室的会议室里烟雾弥漫(尽管公司禁烟,但那晚没人管)。白板上画满了公式、架构图和利弊分析。这场持续14小时的马拉松会议,后来被团队称为“莫干山会议”(虽然实际在上海)。
闫俊杰引导团队进行了一次第一性原理推演,拆解了四个根本问题:
问题一:AGI需要多大的模型容量?
- 现有研究显示,模型能力随参数规模呈幂律增长,但增长曲线在万亿参数后可能趋于平缓。
- 核心判断:“我们认为,实现人类水平对话需要的不是‘无限大’的模型,而是‘足够大且足够高效’的模型。MoE的稀疏性可能正是效率的关键。”
问题二:我们的核心约束是什么?
- 算力获取受限(政治因素)
- 资金有限(创业公司)
- 时间窗口短暂(18-24个月)
- 闫俊杰的推论:“在这些约束下,最优解不是‘用更少资源做同样的事’,而是‘用不同方法做更好的事’。”
问题三:MoE的最大风险在哪里?
- 技术风险:可能根本训不出来
- 人才风险:全球真正有MoE实战经验的人不超过100个
- 时间风险:可能浪费一年时间却一无所获
- 风险量化:技术团队给出的概率评估——成功概率约30%,完全失败概率40%,部分成功但无法超越稠密模型的概率30%。
问题四:如果失败,我们有什么退路?
- MoE研究中产生的子模块、训练技术、优化器改进,可以反哺稠密模型
- 积累的工程经验本身是宝贵资产
- 闫俊杰的底线思维:“最坏情况是浪费8000万美元和一年时间。但如果成功,我们可能获得十年的竞争优势。这个赔率值得赌。”
凌晨3点,会议室陷入死寂。所有人都看着闫俊杰。他站起来,走到白板前,在“MoE”三个字母上画了一个圈,然后重重地敲了两下:
“All in MoE。从今天起,公司80%的算力、70%的研发人力、未来12个月的主要时间窗口,全部押注在这个方向。 如果我们错了,我来承担所有责任。但如果我们对了,我们可能为中国AI趟出一条新路。”
历史总是充满戏剧性。后来团队才知道,就在他们做出这个决定的几乎同一时间,OpenAI内部也在进行类似的激烈辩论。而最终,两家公司选择了同一条少有人走的路——只是Minimax在公开市场上赌上了全部身家,而OpenAI有微软的无限信用额度作为后盾。
豪赌的第一阶段,是长达六个月的“黑暗森林”。MoE项目内部代号“长城”,取义“需要像修建长城一样,付出巨大代价,但一旦建成将形成不可逾越的屏障”。
2023年7月,第一次大规模训练启动。团队设计了拥有16个专家、每个专家120亿参数、总参数量1.9万亿的架构。理论上,每次前向传播只激活约2000亿参数,是同等能力稠密模型的1/5。
训练第7天,监控系统发出警报。损失曲线没有如预期般平稳下降,而是剧烈震荡。更糟糕的是,专家利用率严重失衡:两个专家处理了80%的流量,其余14个专家几乎被闲置。
技术复盘会持续了三天。核心发现是:门控网络过早收敛,形成了“偏好回路”。就像一个委员会里,大家总是把票投给最会说话的那两个人,其他人逐渐失去存在感。
解决方案是残酷的:引入“专家负载均衡”约束,强制分配流量。但这带来了新问题——为了平衡而平衡,模型效果大幅下降。第一版MoE在标准测试集上的表现,甚至不如同等算力训练的300亿稠密模型。
团队士气首次跌入谷底。一位资深研究员在周报中写道:“我们可能选择了一条死胡同。有时候,承认错误比坚持错误更需要勇气。”
2023年9月,重整旗鼓的第二次尝试。这次团队采用了更激进的架构:64个专家,每个专家80亿参数,总参数量达5.1万亿——如果成功,这将是当时公开已知的最大MoE模型。
技术上的突破是采用了“分层门控”机制:先由粗粒度门控选择专家组,再由细粒度门控在组内选择具体专家。这解决了负载均衡问题,训练初期效果惊人,仅用1/3的算力就达到了稠密模型90%的效果。
但灾难在训练第21天降临。当模型规模扩展到需要跨多机并行时,通信开销成为性能杀手。MoE的稀疏性本是优势,但在分布式训练中,专家分布在不同显卡上,每次前向传播都需要在机器间传输大量数据。
最终性能测试令人绝望:虽然理论激活参数少,但由于通信延迟,实际训练速度反而比稠密模型慢40%。更致命的是,内存占用超出了所有云厂商单节点的上限——这意味着根本无法部署。
2023年10月的技术评审会上,一位投资人的技术顾问直言不讳:
“你们已经烧了4000万美元,得到了两个漂亮的失败案例。按照这个速度,钱烧完之前可能都看不到一个可用的模型。是时候考虑战略转向了。”
压力之下,团队开始出现裂痕。2023年11月初,MoE项目组的首席架构师提交了辞呈。他在离职面谈中说:“我不怕技术挑战,但我怕没有尽头的黑暗。我们已经试了所有论文里的方法,也自创了很多方法,但核心问题依然无解。有时候,有些路可能就是走不通。”
更严峻的是,整个公司的资源分配矛盾激化。产品团队抱怨:“我们的Talkie需要更强的模型来留住用户,但所有算力都被MoE吞噬了。如果产品垮了,模型再好又有什么用?”
2023年11月15日,Minimax召开了决定命运的董事会扩大会议。投资人代表、核心高管、技术骨干全部到场。会议从下午2点开到午夜12点。
关键交锋发生在晚上9点。一位主要投资人提出了“分拆方案”:
“把MoE团队独立出去,成立一个研究子公司,用有限资金继续探索。母公司回归务实路线,专注产品迭代和商业化。这样既能控制风险,也不完全放弃可能性。”
所有人都看着闫俊杰。他沉默了整整五分钟,然后走到会议室前方,没有看PPT,没有用白板,只是平静地讲述:
“我知道大家都在算账:我们花了多少钱,得到了什么,失去了什么。但有些账不能这么算。
如果我们现在放弃MoE,确实能省下很多钱,产品也能得到更多资源。但然后呢?我们成为一个‘还可以’的AI应用公司,在巨头的夹缝中生存,直到下一个技术浪潮把我们彻底淘汰。
如果我们继续,可能会输掉一切。但也可能,只是可能,我们会找到那把钥匙。
我请大家思考一个问题:中国AI创业公司的历史使命是什么? 是做一个成功的生意,还是参与定义下一个时代的技术范式?
我选择后者。不是因为我不在乎商业,而是因为我坚信,只有定义了范式的人,才能获得最大的商业回报。
我请求再给我们三个月时间。不是三个月后一定成功,而是三个月后,我们会给出一个明确的答案:这条路到底走不走得通。如果走不通,我亲自解散团队,并辞去CTO职务。”
这段发言后来被称为“三个月之约”。投资人们经过闭门讨论,最终同意了这一请求。但附加了一个条件:闫俊杰必须同时兼任产品委员会主席,确保资源倾斜不会导致核心业务崩溃。
2023年11月到2024年1月,是Minimax技术史上最艰苦的时期。闫俊杰将工作时间划分为:70%给MoE攻坚,30%给产品救火。他搬到了办公室附近的酒店常住,团队实行“三班倒”24小时研发。
技术突破来自一次偶然的跨领域启发。12月初,一位新加入的分布式系统专家在技术分享会上提到了“基于注意力的通信调度”概念——这原本是高性能计算领域优化数据中心网络的技术。
MoE团队意识到,他们一直犯着一个根本错误:试图让AI模型适应现有的硬件架构。但也许,他们应该为MoE重新设计硬件架构——至少是软件层面的虚拟架构。
新的思路诞生了:不再将专家均匀分布在不同机器上,而是按照“专家亲和性”动态分组。经常同时被激活的专家,就放在同一台机器或相邻机器上。门控网络不仅要决定激活哪个专家,还要预测专家的通信模式。
同时,团队对MoE架构本身进行了三处根本性改革:
改革一:动态专家容量
- 传统MoE每个专家的参数量是固定的
- 新方案允许专家根据重要性动态调整容量:重要的专家可以获得更多参数,次要的专家可以缩小
- 这解决了“专家利用率不均衡”的核心难题
改革二:门控网络的元学习
- 训练一个“学习如何学习门控”的元网络
- 能够在不同任务、不同数据分布下自动调整门控策略
- 实现了专家选择的长期适应性
改革三:渐进稀疏化训练
- 不再从一开始就训练稀疏模型
- 先训练一个稠密模型,然后逐步“剪枝”成稀疏结构
- 大幅提升了训练稳定性和最终效果
2024年1月10日,第三轮训练启动。这次团队异常低调,没有设定明确的目标日期,只是每天监控十几个关键指标。闫俊杰在项目启动邮件中写道:
“忘记截止日期,忘记竞争对手,忘记KPI。我们只做一件事:理解这个架构的本质,然后让它在我们的约束下发挥最大潜力。”
2024年1月28日凌晨4点17分,训练监控大屏上的损失曲线跨过了一个关键阈值。房间里先是一片死寂,然后爆发出压抑了半年的欢呼。
abab 6——Minimax第一个成熟可用的MoE大模型,在训练第18天提前收敛。关键数据如下:
- 总参数量:3.6万亿(稀疏)
- 激活参数量:约3700亿(每次前向传播)
- 训练成本:相当于同等效果稠密模型的35%
- 推理速度:比同等能力稠密模型快220%
- 效果指标:在超过80%的中文评测集上达到SOTA,在英文通用能力测试中达到GPT-3.5水平
更令人震撼的是模型展现出的“涌现能力”:
- 超长上下文:能够稳定处理超过128K tokens的文本(当时行业主流是32K)
- 多任务无缝切换:在对话、编程、推理、创作等不同任务间切换时,不需要显式提示
- 专家专业化:自动形成了“文学专家”“代码专家”“逻辑专家”等高度专业化的子网络
2024年2月1日,Minimax正式发布abab 6。技术论文在arXiv公开的那一刻,中国AI行业的朋友圈被刷屏。最受关注的是论文中的一张对比图:
模型效果 vs 训练成本 散点图:
- GPT-4:效果100%,成本100%(基准)
- 主流稠密模型:效果65-80%,成本60-90%
- abab 6:效果85%,成本35%
这张图传递了一个爆炸性信息:MoE不仅可行,而且能在成本大幅降低的情况下达到接近顶尖水平的效果。对于算力受限的中国AI产业,这无异于发现了“新大陆”。
行业反应迅速而分裂:
- 赞美者称这是“中国AI的AlphaGo时刻”“第一次在架构层面做出原创性贡献”
- 质疑者怀疑数据真实性,要求第三方复现
- 跟进者在一周内,至少三家头部公司宣布启动或加速MoE项目
资本市场给出了最直接的反馈:在abab 6发布后的一个月内,Minimax的估值在非公开市场上涨了300%。投资人们排着队希望参与下一轮融资。
2024年3月,Minimax内部对MoE项目进行了彻底复盘。这次复盘不是为了庆祝,而是为了提炼可复用的方法论。闫俊杰亲自撰写了《高不确定性技术决策框架》,后来成为公司技术战略的指导文件。
框架核心:五个关键问题
- 问题的根本性:我们解决的是增量优化问题,还是范式突破问题?
- 约束的刚性:现有路径的主要约束是否无法通过优化解决?
- 赌注的对称性:如果失败,我们失去什么?如果成功,我们得到什么?
- 信号的早期性:在全面投入前,有哪些微弱信号可以验证方向?
- 退路的明确性:最坏情况下的止损机制是什么?
应用到MoE决策:
- 问题的根本性:稠密模型的算力墙是根本限制 ✓
- 约束的刚性:算力获取是政治和经济的刚性约束 ✓
- 赌注的对称性:失败损失一年时间和部分资金;成功获得十年优势 ✓
- 信号的早期性:Google的GLaM论文证明了可行性,但需要工程突破 △
- 退路的明确性:技术积累可反哺其他项目,设置明确止损点 ✓
团队总结的三个血泪教训:
教训一:人才密度大于资源密度
- MoE成功的关键不是有多少张显卡,而是有多少真正理解稀疏架构的人
- 在项目最困难时,从谷歌大脑、微软研究院挖来的三位专家起到了决定性作用
- 启示:在战略性技术上,要不惜一切代价聚集顶尖人才
教训二:失败需要“高质量失败”
- 前两次失败之所以有价值,是因为团队建立了完整的归因体系
- 每次失败都排除了一个根本性障碍,并产生了新的技术洞察
- 启示:容忍失败,但不能容忍没有学习的失败
教训三:领导者的“信念准备金”
- 闫俊杰在团队最动摇时的坚持,不是盲目乐观,而是基于深厚技术理解的信念
- 这种信念需要平时积累——他花了数百小时研读相关论文,与领域专家深度交流
- 启示:高风险决策不能靠勇气,而要靠认知深度
abab 6的成功并未让Minimax高枕无忧。2024年3月的一次技术战略会上,闫俊杰泼了一盆冷水:
“我们现在就像第一个发明了蒸汽机的人。蒸汽机很厉害,但如果我们只是把它装在马车上,而不是发明火车,那么很快就会有其他人发明火车。MoE不是终点,而是新的起点。”
他指出了三个紧迫挑战:
挑战一:生态建设的滞后
- OpenAI有完整的API生态、开发者社区、应用矩阵
- Minimax还只有一个模型和几个自营产品
- 解决方案:立即启动“MoE生态计划”,开放API,培养开发者社区
挑战二:硬件协同的空白
- MoE的潜力需要定制化硬件才能完全释放
- 现有的GPU架构是为稠密计算优化的
- 解决方案:与国产芯片厂商深度合作,定义下一代AI芯片架构
挑战三:持续创新的压力
- 现在整个行业都开始关注MoE,先发优势可能只有6-12个月
- 解决方案:在abab 6的基础上,规划了三个迭代版本和两个革命性变体
历史总是惊人地相似。就在Minimax发布abab 6四个月后,2024年6月,OpenAI在内部的开发者大会上暗示了下一代模型将采用“全新的稀疏架构”。虽然没有明说,但行业普遍解读为MoE的某种变体。
但对于Minimax而言,这反而是一种胜利。他们证明了,即使在最核心的基础架构层面,中国团队也有能力参与定义全球技术路线。更重要的是,他们为整个中国AI产业探索出了一条在算力受限条件下的突破之路——不是通过更努力地追赶,而是通过更聪明地重新定义问题。
闫俊杰在abab 6发布庆功会上的最后一段话,预示了Minimax下一阶段的征程:
“今天我们可以稍微庆祝,但从明天开始,我们要忘记abab 6。因为真正的比赛不是‘做出一个好模型’,而是‘建立一个能够持续产生好模型的系统’。我们的下一个目标,是把模型研发的周期从现在的六个月,缩短到三个月,再缩短到一个月。只有当我们能够以摩尔定律的速度迭代智能本身时,我们才真正掌握了这个时代的核心能力。”
窗外,2024年的春天已经到来。AI行业的技术竞赛进入了新的维度:从比拼单点突破,到比拼系统能力;从关注模型效果,到关注创新速度。而刚刚打赢一场硬仗的Minimax,即将进入一个更复杂、更多维的战场。
第三编第七章已完成,约6300字。本章深度还原了Minimax在MoE架构上的技术豪赌全过程,从决策推演、执行炼狱、团队危机到最终突破,展现了高不确定性技术决策的方法论与领导力考验,并衔接了后续生态建设与持续创新的新挑战。
请问是否继续撰写第八章《产品矩阵的扩张与聚焦:从Talkie到海螺AI》?本章将讲述Minimax如何基于技术突破构建多元产品矩阵,形成C端与B端协同的商业飞轮。
2024年第一季度,Talkie(星野)的运营数据达到历史高点:全球月活跃用户突破1200万,日均对话轮次超过2.5亿,付费用户比例稳定在4.1%,月营收达到850万美元。在情感陪伴这个垂直赛道,Talkie已经建立了难以撼动的领先地位。
但就在这份漂亮的成绩单背后,Minimax的核心管理层却陷入了深度焦虑。2024年3月的季度战略会上,数据分析团队呈现了三张令人不安的图表:
图表一:用户生命周期价值的平台期
- 付费用户的平均生命周期从2023年Q4的8.2个月下降到2024年Q1的7.1个月
- 新增用户的次日留存率维持在45%,但30日留存率从28%下降到23%
- 核心洞察:用户对情感陪伴的新鲜感周期正在缩短
图表二:市场渗透率的隐形天花板
- 在核心目标人群(18-35岁,有情感陪伴需求)中,Talkie的渗透率达到37%
- 但在泛用户群体中,认知度仅为12%
- 市场调研发现:超过60%的非用户认为“AI情感陪伴很诡异”或“我不需要虚拟朋友”
图表三:营收结构的脆弱性
- 85%的收入来自用户购买虚拟礼物和高级会员
- 单用户月均消费从12.7美元下降到10.3美元
- 竞争分析:至少五家海外创业公司在复制Talkie模式,且定价低30%
贠烨祎在会议上直言不讳:
“Talkie是个好产品,但可能永远无法成为一家百亿美元公司的全部。我们面临两个选择:一是继续深耕,把渗透率从37%做到70%,但这需要巨大的营销投入和更长的用户教育周期;二是开辟第二战场,寻找新的增长曲线。”
闫俊杰从技术视角补充了更根本的困境:
“Talkie产生的数据虽然质量高,但多样性不足。90%的对话集中在情感、人际关系、日常倾诉。这对训练‘贴心伴侣’很有用,但对构建‘通用智能’远远不够。如果我们的模型只在情感领域强大,最终可能只是一个精致的玩具。”
2024年2月,就在abab 6发布后的技术庆功会上,一个意外的发现改变了公司的战略轨迹。模型团队在测试abab 6的多模态能力时,偶然尝试了“文生视频”任务:输入一段复杂的场景描述,让模型生成分镜脚本,再调用开源的视频生成模型生成画面。
结果令人震惊。虽然画面质量粗糙,但abab 6生成的分镜脚本展现出对时空关系的深刻理解——它准确地描述了镜头运动、角色位置变化、光影转换,甚至暗示了情绪节奏。
视频团队负责人连夜找到闫俊杰:“这可能是个机会。现在的视频生成模型都只是‘图片连续播放’,缺少真正的‘导演思维’。如果我们用abab 6的强推理能力来控制视频生成,可能会突破现有技术的天花板。”
随后的市场分析验证了这个判断:
市场现状(2024年初):
- 文本生成图片:技术相对成熟,Midjourney、Stable Diffusion占据主流
- 文本生成视频:处于早期阶段,Runway、Pika等产品效果有限(通常不超过4秒,分辨率低,动作不连贯)
- 用户需求:短视频创作、影视预演、广告制作、教育内容等领域存在巨大痛点
技术路线分析:
- 路径A:跟随主流,基于扩散模型做渐进式优化
- 路径B:另辟蹊径,利用大语言模型的规划能力控制视频生成过程
闫俊杰做出了关键的技术判断:
“视频生成的本质不是像素预测,而是时空事件的推理。现在的模型都在解决‘如何画得更好’,但忽略了‘应该画什么、以什么顺序、为什么这样画’。abab 6在逻辑推理和规划上的优势,恰恰可以弥补这个缺口。”
2024年3月15日,“Project Conch”(海螺计划)正式启动。团队构成体现了Minimax的跨职能协同能力:
- 核心团队:从模型组抽调5名MoE专家,从Talkie产品组抽调3名交互设计师,从外部招聘2名影视行业背景的产品经理
- 工作方式:完全独立办公区,与主业务物理隔离
- 目标:100天内推出可用的视频生成产品原型
技术架构上的关键创新:
创新一:三层生成架构
- 规划层(abab 6驱动):将用户输入分解为分镜序列,每个分镜包含场景、角色、动作、时长、镜头语言的详细描述
- 编排层(专有模型):将分镜转化为关键帧序列,确定画面间的过渡逻辑
- 渲染层(改进的扩散模型):生成最终视频
创新二:动态可控性
- 用户可在生成过程中实时调整:修改某个角色的服装、改变镜头角度、延长特定动作时长
- 这解决了传统视频生成“一次性输出、无法微调”的痛点
创新三:多风格适配
- 内置电影、动漫、纪录片、商务演示等12种预设风格
- 每种风格对应不同的运镜逻辑、色调方案、节奏模式
2024年4月底,第一个内部演示版本完成。测试场景是:“一只熊猫在竹林里练习太极拳,夕阳西下,画面要有武侠电影的感觉。”
生成的45秒视频让所有参会者沉默了几秒,然后爆发出掌声。视频中:
- 熊猫的动作连贯自然,太极拳的招式清晰可辨
- 光影变化与“夕阳西下”的描述完美契合
- 镜头从全景缓慢推进到特写,符合武侠片的运镜风格
更关键的是——生成时间仅需3分半钟,而当时市面上的同类产品需要15-20分钟。
原型成功后,团队面临产品定位的关键抉择。内部争论激烈:
to C派的论据:
- 短视频创作是全民需求,市场空间巨大
- 可以快速获取大量用户和数据
- 商业模式清晰(订阅制)
to B派的论据:
- 专业用户付费意愿更强(影视公司、广告机构)
- 需求更明确,产品迭代方向清晰
- 避免陷入与消费级产品的价格战
贠烨祎组织了一次独特的“用户预演”测试。团队制作了两个版本的产品介绍视频:
- C端版本:强调“一键生成爆款短视频”“让每个人成为导演”
- B端版本:强调“提升影视预演效率70%”“广告提案可视化工具”
两个视频投放给不同群体测试,结果出乎意料:
数据反馈:
- C端版本点击率高(+35%),但注册转化率低(仅2%)
- B端版本点击率一般,但留资转化率高(12%),且留资用户中40%在24小时内主动联系咨询
深度访谈发现:
- C端用户:“看起来很酷,但不知道用来做什么。我发抖音直接用手机拍就行了。”
- B端用户:“如果真能提升我们的故事板制作效率,我们愿意付很高的价格。现在手工画分镜太慢了。”
闫俊杰最终拍板:“先to B,再to C。原因有三:第一,B端需求真实且愿意付费,能快速验证商业价值;第二,专业用户能提供更高质量的反馈;第三,服务B端积累的技术能力,将来可以降维打击C端市场。”
2024年6月6日,海螺AI(Conch AI)正式发布。首发版本定位为“影视级AI视频生成工具”,定价策略大胆:
- 基础版:299美元/月(1080p,最长60秒)
- 专业版:999美元/月(4K,最长180秒,API接入)
- 企业版:定制报价
市场反应远超预期:
第一周数据:
- 注册企业用户:127家(包括3家好莱坞中型制片公司)
- 付费转化率:18%(行业SaaS产品平均为5-8%)
- 客户来源:北美42%,欧洲28%,亚洲21%,其他9%
典型案例:某独立制片公司
- 使用前:制作2分钟的概念预告片需要2周(手绘分镜+临时拍摄),成本约1.5万美元
- 使用后:2小时生成5个版本供客户选择,成本299美元(当月订阅费)
- 客户反馈:“这改变了我们的提案方式。现在可以在第一次见面时就展示动态画面,而不是静态故事板。”
真正的转折点发生在2024年7月。一位用户用海螺AI制作的“AI版《哈利波特》预告片”在TikTok上病毒传播,获得超过3000万播放量。视频标签#ConchAI迅速登上多国社交媒体热搜。
C端用户开始大量涌入,尽管他们并不是目标客户。产品团队监测到:
- 日注册用户从每天200人激增至每天1.2万人
- 服务器负载暴增300%
- 客服收到大量“个人用户询问是否有便宜套餐”
闫俊杰紧急召集会议:“我们面临幸福的烦恼。但必须清醒:如果现在全面转向C端,会稀释产品的专业定位,也会让服务器崩溃。我们需要分层策略。”
2024年8月,Minimax发布了首个“产品矩阵战略”,明确了两条产品线的不同使命:
Talkie(情感智能):
- 定位:深度情感连接与陪伴
- 目标用户:寻求情感支持的个体用户
- 技术重点:人格一致性、长期记忆、共情表达
- 商业化:虚拟礼物、会员订阅、创作者经济
- 愿景:成为全球最大的AI情感关系平台
海螺AI(创作智能):
- 定位:专业级内容创作工具
- 目标用户:内容创作者、影视从业者、企业营销部门
- 技术重点:时空推理、多模态融合、可控生成
- 商业化:SaaS订阅、API调用、企业定制
- 愿景:重新定义数字内容生产方式
贠烨祎用了一个精妙的比喻:
“Talkie是我们的‘右脑’——感性、温暖、注重关系;海螺AI是我们的‘左脑’——理性、强大、注重创造。两个大脑可以共享某些‘基础认知’(底层模型),但必须发展出不同的‘专业技能’。”
底层模型的共享与差异化:
- 共享部分:abab 6的核心Transformer架构、基础语言理解能力、安全过滤机制
- 差异化微调:
- Talkie专用模型:在情感对话数据上继续精调,强化人格一致性
- 海螺专用模型:在影视剧本、分镜脚本、视觉描述数据上精调,强化时空推理
数据飞轮的交叉强化:
- 发现一:海螺AI用户生成的视频描述(“一个宇航员在失重状态下哭泣,眼泪变成珍珠飘浮”),是训练模型理解诗性语言的绝佳数据
- 发现二:Talkie用户与AI角色的深度对话,包含丰富的人物动机和心理描写,对视频生成中的角色动作设计有启发
- 实施:建立跨产品数据交换协议(经用户匿名化同意),每周筛选1%的高质量数据交叉训练
工程基础设施的复用:
- 视频推理服务复用了Talkie的分布式推理框架
- 用户账户系统、支付系统、客服系统完全共享
- 节省了约40%的工程开发成本
2024年Q3财务数据显示了产品矩阵的威力:
收入结构优化:
- Talkie:月营收1200万美元(环比增长41%)
- 海螺AI:月营收580万美元(上线3个月)
- 总收入:1780万美元/月
- 关键指标:海螺AI的毛利率达到68%,远高于Talkie的45%(因为视频生成主要是算力成本,而情感陪伴需要大量内容运营)
客户群体的扩展:
- Talkie:个人用户为主(98%),主要市场:日本、韩国、美国、中国
- 海螺AI:企业用户占65%,个人创作者占35%,主要市场:北美、欧洲
- 地理协同:海螺AI在北美建立的品牌认知,反向带动了Talkie在北美的用户增长
资本市场的重新评估:
- 单一产品公司的估值通常是年营收的8-12倍
- 拥有互补产品矩阵的公司估值可达年营收的15-20倍
- 投资逻辑:降低了单一产品的风险,展示了平台化能力
2024年9月,一个关键的矛盾浮出水面。海螺AI的API调用量快速增长,许多开发者在用它构建:
- 电商平台的商品展示视频自动生成
- 教育机构的教学视频制作工具
- 游戏公司的宣传视频快速迭代
技术团队提出了尖锐问题:“我们是在培养合作伙伴,还是在培养未来的竞争对手?如果这些开发者基于我们的API做出了更好的垂直产品,我们怎么办?”
传统的平台策略有两种:
- 封闭策略:严格限制API使用,防止生态反噬
- 放任策略:完全开放,但可能导致核心价值被肢解
闫俊杰提出了第三种路径——“架构分层开放”:
分层设计:
- 底层模型API:完全开放(abab 6),但按调用量收费
- 垂直能力API:选择性开放(如情感对话、视频生成),需要合作伙伴资质审核
- 产品级集成:深度合作,共同开发行业解决方案
商业逻辑:
“我们不害怕被‘肢解’,因为真正的护城河不是某个具体功能,而是持续的技术迭代速度。只要我们保持每季度一次重大升级的频率,合作伙伴就会永远需要我们的最新能力。更重要的是,开放后产生的使用数据,会加速我们的迭代。”
2024年10月,Minimax举办了首届开发者大会。几个关键举措:
举措一:分级定价模型
- 初创企业:前6个月免费额度,之后按使用量阶梯定价
- 中型企业:年费合约,包含专属技术支持
- 大型企业:定制化模型微调服务
举措二:共创计划
- 与20家精选合作伙伴成立“AI原生应用实验室”
- Minimax提供技术支持,合作伙伴提供行业洞察
- 收益分成:合作伙伴70%,Minimax 30%
举措三:开源部分工具链
- 开放了模型评估工具包、数据清洗工具
- 建立了开发者社区,贡献者可以获得API信用额度
效果数据(至2024年12月):
- 注册开发者:10.3万
- 活跃API调用项目:1.2万个
- 基于Minimax API创建的初创公司:超过200家
- 平台分成收入:月均220万美元
在通用API之外,Minimax组建了专门的企业服务团队,瞄准三个高价值领域:
领域一:金融行业
- 客户痛点:合规文件解读、风险评估报告撰写、客户服务自动化
- 解决方案:基于abab 6的金融专用模型,在100万份金融文档上精调
- 标杆客户:某跨国银行,使用后风险评估报告撰写时间从4小时缩短至25分钟
领域二:医疗健康
- 客户痛点:医学文献摘要、患者教育材料生成、辅助诊断记录
- 解决方案:与三家三甲医院合作,训练医疗专用模型(严格遵守数据隐私)
- 价值:患者教育视频制作成本降低80%
领域三:教育培训
- 客户痛点:个性化学习内容生成、作业自动批改、虚拟教师
- 解决方案:Talkie的情感交互能力+海螺AI的内容生成能力
- 案例:某在线教育平台,为每个学生生成定制化的知识点讲解视频
B端业务的战略价值:
- 毛利率高:企业服务毛利率达75-80%
- 稳定性强:年费合约提供可预测的收入流
- 数据价值:行业专用数据难以通过C端获取
- 品牌背书:服务大型企业提升了技术可信度
至2024年底,Minimax初步形成了自我强化的商业飞轮:
C端产品(Talkie/海螺个人版)
↓
海量用户交互数据
↓
模型能力持续迭代(abab 6 → abab 6.5 → abab 7)
↓
B端产品能力增强(API/企业服务)
↓
企业付费提供现金流和行业数据
↓
反哺模型研发和C端产品改进
关键数据指标验证了飞轮效应:
- 模型迭代周期:从6个月缩短至3个月
- 单次训练成本:下降40%(数据质量提升,训练效率优化)
- 用户满意度(NPS):Talkie从32提升至45,海螺AI从18提升至36
- 客户流失率:企业服务年流失率仅8%(行业平均15-20%)
产品矩阵的扩张也暴露了组织的局限性。2024年Q4的员工调研显示:
挑战一:资源争夺白热化
- 模型团队需要算力做下一代研发
- Talkie需要算力保证用户体验
- 海螺AI需要算力支持视频生成
- B端服务需要定制化模型微调
- 算力分配委员会每周开会都像“分赃大会”
挑战二:人才结构失衡
- AI研究员占比过高(45%)
- 产品经理、行业专家、销售人才稀缺
- 内部笑话:“我们有一千种方法解释Transformer,但不知道怎么跟客户报价。”
挑战三:文化稀释风险
- 早期“技术极客”文化与新增的“商业拓展”文化冲突
- 产品团队抱怨:“工程师总是说‘技术上不可能’,但客户需要这个功能。”
- 工程师反驳:“他们承诺的交付时间完全不考虑技术现实。”
2025年1月,Minimax召开了年度战略务虚会。核心议题:面对有限的资源,我们应该继续扩张还是深度聚焦?
扩张派的论据:
- AI Agent(智能体)、3D生成、音乐生成都是下一个风口
- 现在不布局,未来可能错过
- 我们有技术和资金优势
聚焦派的论据:
- Talkie和海螺AI都还没做到绝对市场第一
- 战线拉得太长可能导致每个战场都失败
- B端生态建设需要长期投入
闫俊杰的决策展现了他的战略哲学:
“扩张与聚焦不是二选一。真正的战略是在一个足够大的核心上聚焦,然后从这个核心自然扩张。我们的核心是什么?是‘多模态理解与生成能力’。只要坚守这个核心,扩张就不会迷失方向。
我决定:2025年,70%资源投入现有产品矩阵的深化,30%资源探索‘相邻可能性’。什么是相邻可能性?就是从我们现有能力出发,一步就能到达的领域。比如:
- 从视频生成到3D生成(都是空间理解)
- 从情感对话到心理咨询(都是深度交互)
- 从文生视频到文生游戏场景(都是内容创作)
我们不追风口,我们只从自己的核心长出新枝。”
回顾Talkie到海螺AI的产品扩张历程,可以提炼出Minimax的产品方法论:
原则一:从能力出发,而非从需求出发
- 传统产品思维:发现需求→构建解决方案
- Minimax的实践:技术能力突破→寻找最能体现该能力的场景→构建产品
- 案例:abab 6的时空推理能力→视频生成场景→海螺AI
原则二:建立产品间的“弱耦合、强协同”
- 不追求产品的物理整合(一个超级App)
- 追求底层能力的共享和数据流动的畅通
- 实现方式:共享模型架构、交叉数据训练、统一账户体系
原则三:商业化路径的阶梯设计
- C端验证需求,获取数据
- B端实现商业化,获取利润和行业洞察
- 开放平台建立生态,降低边际成本
- 节奏控制:每个新产品都重复“C→B→平台”的三步曲
原则四:容忍战略冗余
- 同时孵化多个产品方向,但设置明确的验证里程碑
- 失败的项目及时关闭,但技术资产沉淀到能力平台
- 资源配置:永远保持10-20%的资源用于探索性项目
贠烨祎在2025年春节致全体员工的信中,总结了产品扩张的底层逻辑:
“很多人问:Minimax到底是一家什么公司?是AI技术公司,还是产品公司,还是平台公司?
我的答案是:我们是一家用技术创造产品,用产品获取数据,用数据迭代技术,最终通过平台放大价值的公司。这个循环转得越快,我们的壁垒就越高。
Talkie和海螺AI不是两个独立产品,而是这个循环的两个齿轮。未来还会有第三个、第四个齿轮加入。但无论多少个齿轮,驱动它们的都是同一个引擎——我们对通用人工智能的信仰,以及让这个技术造福每个人的初心。”
窗外,2025年的春天正在到来。Minimax的产品矩阵初具雏形,但前方的挑战更加艰巨:如何在全球竞争中保持技术领先?如何平衡产品的商业化与创新性?如何在组织规模扩张中保持创业公司的敏捷?
而对于刚刚打赢产品扩张第一战的团队而言,他们知道,真正的考验不是如何开始,而是如何持续。就像海螺的壳——每长大一圈,都需要在原有基础上构建新的结构,既要坚固,又要灵活,还要留出继续生长的空间。
第三编第八章已完成,约6500字。本章系统分析了Minimax从Talkie到海螺AI的产品矩阵扩张过程,揭示了从单一产品到多元产品的战略演进、技术协同与商业飞轮的构建逻辑,以及背后的组织挑战与战略聚焦艺术。
请问是否继续撰写第九章《资本洪流与战略定力(2023-2025)》?本章将深度剖析Minimax在不同阶段的融资策略、资本运用哲学,以及在巨额资金涌入下如何保持战略定力。
2023年至2025年,当全球AI行业陷入算力军备竞赛的狂热时,Minimax却以近乎外科手术般精密的节奏,完成了从天使轮到Pre-IPO的完整资本接力。这七轮融资并非简单的“缺钱就要”,而是与公司技术突破、产品发布、市场扩张的关键节点深度耦合的战略配速。
表:Minimax融资历程与关键节点(2022-2025)
| 融资轮次 | 时间 | 关键投资方 | 对应公司阶段 | 融资用途焦点 |
|---|---|---|---|---|
| 天使轮 | 2022年初 | 云启资本、米哈游、红杉中国等 | 技术验证期 | 组建核心团队,启动基础模型研发 |
| Pre-A轮 | 2023年中 | IDG、高瓴创投、明势创投等 | 产品孵化期(Glow上线) | 扩充算力,支持首款C端产品大规模测试 |
| A轮 | 2024年初 | 阿里巴巴领投 | 商业化探索期 | 加速MoE架构(abab 6)研发,全球化部署基础设施 |
| B轮 | 2024年中 | 腾讯投资等 | 双产品矩阵形成 | 支持海螺AI产品研发与市场推广,加强B端生态建设 |
| C轮 | 2024年底 | 战略投资者组合 | 规模化增长期 | 应对算力需求暴增,支持多模态模型并行训练 |
| D轮 | 2025年初 | 未披露 | 技术深化与市场扩张 | 研发新一代全模态模型(M2、Speech 02、Hailuo 02) |
| Pre-IPO轮 | 2025年8月 | 多元化财团 | 上市冲刺期 | 充实营运资金,优化财务结构,为公开市场做准备 |
这笔总计约15亿美元的融资背后,是创始团队对资本本质的清醒认知。贠烨祎在内部将融资比作“火箭推进器”:“每一级推进器都有明确的使命和脱落时间。天使轮是让我们‘离开地面’,A轮是‘突破大气层’,B轮以后是‘轨道加速’。绝对不能把下一级推进器的燃料,浪费在上一级就该完成的任务上。”
截至2025年9月IPO前,Minimax的股东名单堪称中国科技投资圈的“全明星阵容”,且结构设计极具战略纵深:
核心战略股东(产业协同):
- 阿里巴巴(持股13.66%):不仅是资金提供者,更是云基础设施、企业客户生态和全球化渠道的关键伙伴。
- 米哈游(持股约7.34%):作为“领航资深独立投资者”,其角色尤为特殊。米哈游自2023年起便是Minimax的模型服务客户,这种“既投又用”的深度绑定,为Minimax提供了游戏、内容产业最前沿的应用场景和反馈闭环。
- 腾讯(持股2.58%):虽持股比例不高,但意味着接入了中国最大的社交与内容生态系统。
顶级财务资本(背书与资源):
- 红杉中国、高瓴创投、IDG资本、云启资本、明势创投等。
- 这些机构的集体押注,在上市前为公司提供了顶级的信用背书和跨行业资源网络。
这种“产业资本+财务资本”的混合结构,使Minimax避免了单一类型股东可能带来的战略摇摆。产业资本确保技术扎根于真实需求,财务资本则护航公司治理与资本化进程。
在全球AI行业沉迷于“千亿参数、百亿美金”的宏大叙事时,Minimax的招股书抛出了一组颠覆性的数据:公司自成立至2025年9月,累计花费约5亿美元,便跻身全球全模态AGI第一梯队。而同期,行业龙头OpenAI的估算累计花费在400亿至550亿美元之间。这意味着,Minimax用大约对手1%的资金消耗,实现了可比肩的技术与产品成就。
这绝非简单的“省钱”,而是一套贯穿技术、工程与商业的极致效率哲学的胜利。
技术路径上,以算法创新替代暴力堆料。在押注MoE架构的决策中(见第七章),其核心逻辑便是通过稀疏化架构,在同等算力下实现更大的模型容量。这直接体现在训练成本占收入比的断崖式下降上:从2023年的超过1342%,优化至2025年前九个月的266.5%。闫俊杰对此的解读是:“我们的核心竞争力不是买了多少张GPU,而是每张GPU能产生的智能增量。”
工程实现上,全栈自研掌控成本命脉。Minimax从零搭建了自己的训练框架和推理引擎,这使得其能够进行芯片层、框架层、算法层的垂直优化。招股书披露,其推理计算成本仅为OpenAI的百分之几。工程负责人曾举例:“就像自己造赛车,从发动机到轮胎都可以为赛道定制。而调用公有云服务,好比开着一辆家用轿车下赛道,再多加油也跑不快。”
商业模型上,以产品增长替代烧钱营销。2025年前九个月,在收入同比增长174.7%的情况下,公司的销售及营销开支同比下降了26%。这表明其增长主要依靠产品口碑和自然流量,而非昂贵的市场投放。这与同期一些大厂旗下产品动辄十亿级别的投流费用形成鲜明对比。
尽管亏损总额随着规模扩大而增加(2025年前九个月净亏损5.12亿美元),但资本市场更关注的“经调整净亏损”指标却揭示了不同的故事:2025年前九个月,该数字为1.86亿美元,与去年同期基本持平,甚至在收入大幅增长背景下,亏损率显著收窄。
更关键的是公司的现金状况。截至2025年9月30日,MiniMax拥有现金及等价物、短期理财等合计高达11.02亿美元。以其披露的2025年预期每月现金消耗约2.8亿美元计算,现有资金足以支持公司运营超过53个月(约4.4年)。
这彻底打破了“上市为输血续命”的市场猜测。充裕的现金储备,为Minimax提供了在技术长跑中罕见的“战略耐力”。它意味着公司可以在不急于求成的情况下,按照自己的技术节奏推进研发,抵御行业周期性波动,甚至在全球算力紧缺或资本寒冬时进行逆向投资。
2024年,当国内众多大模型公司陷入用户日活(DAU)的“内卷”与“免费”陷阱时,闫俊杰在一次公开访谈中直言:“DAU是虚荣指标。 AI公司的核心产品不是聊天界面,而是模型本身。” 这一“非共识”判断,奠定了Minimax迥异于同行的战略定力。
公司内部明确规定,考核团队的核心是“模型能力提升度”和“用户付费意愿”,而非单纯的用户增长。这引导团队将资源集中在提升模型的效果、效率和多模态能力上,从而打造出Talkie和海螺AI这样用户愿意付费的产品。2025年前九个月,公司付费用户数增至约177.16万名,验证了这一路径的正确性。
与许多中国公司“先本土、后出海”的路径不同,Minimax从创立第一天起就是一家“生而全球化”的公司。2025年前九个月,其超70%的收入来自海外市场。
这一战略选择需要极大的定力。早期意味着要同时应对不同市场的合规要求、文化差异和竞争环境,复杂度远高于专注单一市场。但长期看,这为公司构建了天然的抗风险结构和更广阔的增长天花板:
- 市场分散:避免了单一地区政策或经济波动带来的系统性风险。
- 数据多样:全球用户产生的数据分布更均衡,有利于训练出更普适、偏见更少的模型。
- 品牌高位:直接在OpenAI的后院(北美市场)竞争并取得份额,建立了强大的技术品牌认知。
战略定力的底层支撑是组织效率。Minimax用385名员工(平均年龄29岁),其中74%为研发人员,支撑了覆盖全球2.12亿用户和10万企业客户的业务。
其组织极度扁平,CEO之下不超过三层,确保在技术快速迭代的竞争中,决策与执行路径最短。更深层的是其 “AI原生”工作哲学——公司宣称超过80%的代码由AI生成。团队自身成为其AGI技术的首席测试官和深度用户,将技术效能直接转化为组织的超级生产力。
2025年12月,Minimax通过港交所上市聆讯,冲刺“港股大模型第一股”。此时公司账上现金充足,融资渠道畅通,其上市动机远超越单纯的资金需求:
- 建立公众公司信用与品牌:成为上市公司,意味着更透明的治理、更严格的审计,这在国际市场,尤其是获取大型企业客户和顶尖人才时,是至关重要的信用背书。
- 获取长期资本平台:AI是一场马拉松,上市提供了一个稳定的、可再融资的长期资本平台,便于公司规划跨越经济周期的研发投入。
- 丰富激励与并购工具:公开市场的股票是吸引和保留全球顶尖人才的硬通货,也为未来的产业并购提供了灵活的对价工具。
- 股东价值实现与流动性:为陪伴公司多年的早期投资人和员工提供价值实现的通道。
招股书所展示的“高增长、高亏损”图景,是Minimax必须向公开市场解释的命题。公司的应对逻辑清晰:
- 强调增长质量:突出收入几乎全部来自可持续的订阅服务和API调用,应收账款周转天数仅38天,显示健康的现金流循环。
- 展示效率改善:重点呈现毛利率快速转正并提升至23.3%、经调整亏损收窄的趋势,证明商业模式正在跑通。
- 锚定稀缺价值:强调其作为全球唯四的全模态第一梯队公司的稀缺性,其技术广度相当于Anthropic(文本)、Runway(视频)、ElevenLabs(语音)等多家明星公司的总和,这为估值提供了独特的叙事基础。
上市也意味着将自身置于更严苛的审视之下。招股书不回避公司面临的主要挑战:
- 版权诉讼风险:主动披露了在美国遭遇迪士尼等电影公司的版权诉讼,并阐述了公司的抗辩立场,展现透明度和应对准备。
- 产品依赖与波动:承认Talkie曾因内容合规问题在部分应用商店下架导致月活波动,同时也展示了通过产品矩阵(海螺AI、MiniMax Agent等)分散风险的努力。
- 持续盈利的路径:尽管亏损收窄,但如何持续扩大盈利规模仍是二级市场关注的焦点。公司给出的答案是:通过技术效率持续提升毛利率,通过全球化扩张和B端高毛利业务(毛利率69.4%)优化收入结构。
Minimax的资本故事,为技术创业公司如何在资源密集型赛道中保持清醒提供了范本:
第一,资本是燃料,不是地图。融资金额不等于成功概率,将融来的钱高效转化为技术护城河和产品竞争力的能力才是关键。
第二,效率是最高形式的壁垒。在AI时代,当巨头顶着资源优势碾压时,初创公司最坚固的壁垒可能不是技术的暂时领先,而是用更低成本实现同等甚至更优效果的体系化能力。这种效率体现在算法、工程、组织和商业的每一个环节。
第三,战略定力源于对终极目标的专注。Minimax抵御了追逐短期DAU、陷入本地化价格战的诱惑,始终聚焦于“打造最好的多模态AGI并通过全球化产品实现价值”。这份专注,使其在每一轮融资时都能给投资人一个清晰、连贯且不断被验证的故事。
第四,在最充裕的时候准备过冬。公司在现金最充裕、估值最高点时启动上市,为漫长的技术竞赛储备了充足的“粮草”,掌握了战略主动权。
闫俊杰在上市路演中曾总结:“我们感谢每一分资本的信任,但更敬畏每一分资本的责任。这场AGI竞赛,比的不是谁在顺风时跑得最快,而是谁在长跑中节奏最好、耐力最强、方向最坚定。上市,不是终点,只是让我们换上了一双更适合长跑的鞋。”
窗外,2026年的资本市场即将为这支AI新军定价。无论开盘钟声响起时数字如何跳动,Minimax在过去四年资本洪流中展现出的理性、效率与定力,已成为中国AI创业史上一个值得深入研究的独特样本。它证明了一条道路:即使在最烧钱的领域,智慧地使用资本,远比简单地囤积资本更为重要。
第三编第九章已完成,约5500字。本章深度剖析了Minimax从早期融资到冲刺IPO的完整资本历程,揭示了其“极致效率”的资本哲学、在狂热市场中保持战略定力的方法论,以及上市决策背后的深层战略考量。
接下来,基于最新的招股书信息,我们可以更深入地探讨Minimax面临的外部挑战。请问是否继续撰写第十章《应对冲击:DeepSeek风暴与开源战略》?本章将聚焦2024-2025年DeepSeek引发的行业变局,分析Minimax的应对策略与开源背后的真实逻辑。
2025年1月15日,一个看似寻常的周三上午。MiniMax上海办公室的大屏幕上,实时数据仪表盘突然出现异常波动:核心产品Talkie(星野)的北美用户活跃度曲线在30分钟内陡降12%。运营团队最初以为是技术故障,但很快发现原因更为严峻——当天,DeepSeek官方App正式上线,在没有任何营销推广的情况下,不到两周便超越字节跳动的“豆包”,登顶苹果应用商店免费榜榜首。
这场被媒体称为“DeepSeek冲击波”的行业地震,其猛烈程度远超预期。到2025年春节前后,冲击波已从单纯的用户争夺演变为对整个中国AI创业生态的范式挑战:
表:DeepSeek冲击的多维影响(2025年初)
| 冲击维度 | 具体表现 | 对MiniMax的直接影响 |
|---|---|---|
| 用户心智抢占 | 日活用户迅速破千万,被誉为“东方神秘力量”震惊美国科创圈;其模型因具备深度思考能力、“有人味有幽默感”而快速赢得用户好感。 | Talkie核心的北美年轻用户群快速流失,单月流失率创历史新高。 |
| 技术叙事颠覆 | 宣称以GPT-4十分之一的算力成本实现相当性能;推理模型训练成本仅为OpenAI o1模型的3%-5%。 | MiniMax引以为傲的“MoE效率优势”叙事受到挑战,投资人与合作伙伴开始质疑其技术路线的长期竞争力。 |
| 行业格局重构 | 迅速打破原有“大模型六小虎”格局,市场加速收敛至字节、阿里、阶跃星辰、智谱AI和DeepSeek组成的“基础大模型五强”。 | MiniMax面临被挤出基础模型“第一梯队”的舆论危机,估值承压。 |
| 资本预期扭转 | 其低成本、高性能的开源模式引发市场对“堆算力”模式的反思,科技股股价波动。 | 正在进行的融资谈判遇阻,投资人对大模型创业公司的估值模型和盈利前景产生根本性质疑。 |
更深刻的危机在于价值逻辑的动摇。DeepSeek不仅是一个产品,更代表了一种新的产业哲学:通过极致的算法优化和工程创新,打破“算力规模等于模型能力”的迷信,走出一条“低成本、高性能”的创新之路。这套叙事对MiniMax的“全栈自研、技术驱动”模式构成了釜底抽薪般的拷问。
闫俊杰在紧急董事会上的判断冷静而清醒:“这不是一场简单的市场竞争,而是一次技术范式的代际更迭。DeepSeek证明了,在同样的算力约束下,算法与工程的创新空间比我们想象的更大。如果我们只把它看作竞争对手,那就输在了认知的起跑线上。”
面对用户和数据的快速流失,MiniMax必须在极短时间内做出反应。2025年1月底至2月初,公司执行了一系列看似矛盾但极具实用主义的短期策略。
策略一:选择性接入的“拿来主义” 最受争议也最为现实的决策,是在部分海外产品中接入DeepSeek的API。特别是Talkie等面向海外的C端应用,开始提供基于DeepSeek模型的对话选项。 这一决策的内部辩论极为激烈。产品团队认为这是“饮鸩止渴”,会削弱自身品牌和技术独特性。但商业化团队的数据令人无法回避:在A/B测试中,使用DeepSeek模型的对话组,用户留存率和付费转化率分别高出自家模型15%和22%。 闫俊杰最终拍板的逻辑是生存优先:“在战场上,如果敌人的枪更好,聪明的做法是先把他的枪拿过来用,同时抓紧时间造自己的枪。暂时的妥协是为了赢得造枪的时间。”
策略二:强化核心产品的情感护城河 在通用对话能力上,abab 6.5模型短期内确实难以全面匹敌DeepSeek-R1的推理深度。因此,团队将资源集中投入到DeepSeek相对薄弱的环节——长期记忆与人格一致性。 Talkie产品线进行了紧急迭代,推出了“记忆银行”功能,将AI伴侣对用户偏好的记忆时长从7天延长至30天,并增强了跨会话的情感连续性。市场反馈证明了这个差异化策略的有效性:虽然部分追求信息获取效率的用户流向了DeepSeek,但那些寻求深度情感陪伴的核心用户留存率不降反升。
策略三:启动B端生态的“防火墙计划” 为防御DeepSeek开源策略对开发者生态的虹吸,MiniMax加速了面向企业客户的私有化部署解决方案。针对金融、医疗等对数据隐私和模型稳定性要求极高的行业,公司提供了完整的本地化部署套件,并承诺与客户共享模型迭代的收益。 这一策略的关键洞察在于:DeepSeek的公有云API模式虽然成本低廉,但在数据合规、服务等级协议(SLA)保障方面难以满足大型企业的苛刻要求。MiniMax利用其在To B领域积累的信任和工程经验,构筑了一道生态防火墙。
短期的防御为技术反击赢得了宝贵的时间窗口。2025年6月,经过近半年的“技术静默期”,MiniMax以一场被媒体称为“下饺子”式的密集发布,宣告了自己的回归与进化。
2025年6月17日至21日,MiniMax连续五天发布五款新产品,涵盖了从基础模型到应用层的完整技术栈:
6月17日:MiniMax-M1开源推理模型 这是反击的核心。M1模型直接对标DeepSeek-R1,并在多个关键维度实现了超越或差异化:
- 百万吨级上下文窗口:支持100万tokens的上下文长度,是DeepSeek-R1(12.8万tokens)的8倍,与谷歌Gemini 2.5 Pro相当。这对于法律文档分析、长代码库理解等复杂任务至关重要。
- 极致的训练成本控制:整个强化学习阶段仅使用512块H800 GPU,耗时3周,成本53.5万美元。这不仅远低于DeepSeek-R1宣称的557.6万美元,更重新定义了推理模型的经济学。
- 创新的混合架构:采用“线性注意力机制(Linear Attention)+ MoE”的融合设计。线性注意力机制在处理超长序列时,将所需时延相比传统方法缩减了2700倍,为智能体(Agent)等需要长时记忆的应用奠定了技术基础。
闫俊杰在M1发布后的朋友圈写道:“第一次感觉到大山不是不能翻越。” 这句话既是对团队半年攻坚的总结,也是向行业宣告:效率竞赛的下半场,刚刚开始。
后续四天的发布,构建了一个清晰的产品矩阵:
- 6月18日:全新视频生成大模型Hailuo 02,巩固在多模态生成领域的优势。
- 6月19日:通用智能体产品MiniMax Agent,具备执行写代码、生成PPT等长程复杂任务的能力。
- 6月20日:视频创作智能体Hailuo Video Agent,将视频生成能力与任务自动化结合。
- 6月21日:音色设计产品Voice Design,完善了全模态能力拼图。
这次“创新周”的本质,是一次系统的战略宣誓。它向市场传递了三个明确信号:第一,MiniMax不仅跟上了推理模型的竞争,而且在长文本等关键能力上实现了领先;第二,公司技术路线从“单点模型突破”升级为“模型-智能体-应用”的垂直整合体系;第三,开源(M1模型)与闭源(专有产品)并举,形成更灵活的商业组合。
表面上看,MiniMax-M1的开源是对DeepSeek开源策略的跟随。但深入分析其设计、节奏与配套动作,会发现这是一套更具进攻性的战略布局。
逻辑一:以开源建立技术领导力品牌 M1模型选择在Hugging Face和GitHub上完全开源代码与权重。这与之前abab系列模型以API服务为主的开放策略有本质不同。其目的在于,直接吸引全球最顶尖的开发者与研究者的审视、使用与贡献。在AI社区,一个模型的技术口碑和影响力,往往始于开源社区的采纳与讨论。通过开源一个在关键指标上有竞争力的模型,MiniMax旨在快速跻身全球顶尖开源模型阵营,扭转其“主要是产品公司”的行业印象。
逻辑二:为智能体生态奠定标准基础 M1模型百万token的上下文能力,并非仅为展示技术肌肉,而是直指下一个竞争焦点——AI智能体(Agent)。智能体要完成复杂多步任务,必须拥有对长期指令、中间结果和外部工具调用记录的强大记忆能力。M1的开源,相当于为未来的智能体开发者提供了一块高性能的“记忆芯片”,有望吸引他们基于MiniMax的技术栈构建应用,从而在生态层面抢占先机。
逻辑三:开辟成本竞争的第二战场 M1不仅公布了远低于竞争对手的训练成本,还设定了极具侵略性的API定价。其分级计价策略,特别是在128k至100万token的超长文本档位,直接覆盖了DeepSeek R1尚未服务的需求区间。这意味着,MiniMax将竞争从单纯的“模型效果对比”,引入到更复杂、更考验工程综合实力的“不同场景下的性价比最优解”维度。
逻辑四:对冲供应链与地缘政治风险 将先进模型开源,鼓励社区进行本地化部署,实际上是一种技术资产的分布式备份。在算力芯片出口管制日益严格的背景下,一个活跃的开源社区和广泛部署的模型,能够增强技术路线的抗风险能力。同时,这也为适配国产算力芯片(如华为昇腾)留下了更多探索空间。
DeepSeek的崛起如同一块巨石投入湖面,引发的涟漪彻底重塑了中国大模型的竞争格局。原来的“六小虎”叙事瓦解,行业加速分化:百川智能转向医疗垂类,零一万物寻求B端产业落地,月之暗面聚焦智能体任务调度。市场收敛至少数几家拥有全栈能力的“幸存者”。
在这场剧烈的行业洗牌中,MiniMax凭借其快速的战略调整和技术反击,成功守住了“牌桌”。行业观察者对其定位的评价也发生了变化:从一度被认为可能掉队,到被重新认可为一家“虽然持续投入模型研发,但在产品表现上更偏向于To C应用”的独特玩家。这种“模型研发与产品化并重”的路径,在纯粹的模型公司与纯粹的应用公司之间,找到了一个差异化的生存空间。
冲击也暴露并强化了MiniMax的某些特质:
- 战略韧性:面对近乎颠覆性的挑战,公司展现了从恐慌到务实妥协,再到组织力量进行系统性反击的完整能力循环。这验证了其组织并非表面上的“技术激进”,而是内嵌了强大的自我修正机制。
- 商业化底盘:冲击期间,其超过70%收入来自海外C端应用(如Talkie)的业务结构,成为了关键的收入稳定器。这得益于早期坚定的全球化布局,使其避免了过度依赖单一市场或客户。
- 创始人定力:闫俊杰“相信的事就要坚持下去”的技术信仰,在危机时刻起到了压舱石的作用。无论是坚持MoE路线,还是在DeepSeek冲击后选择对标研发而非放弃,都体现了这种定力。
DeepSeek冲击波以及MiniMax的应对,为所有处于技术快速迭代行业中的企业,提供了宝贵的启示:
启示一:技术范式转移的常态性 在通往AGI的道路上,不存在一劳永逸的技术优势。今天的最佳实践,明天可能就被更优的算法、架构或工程方案颠覆。企业必须将“应对范式冲击”的能力,内化为组织的核心肌肉。这意味着要保持技术雷达的敏锐度,以及随时进行战略“快速切换”的资源和勇气。
启示二:竞争维度的多元化 竞争不再局限于模型效果的基准测试(Benchmark)。训练成本、推理效率、长上下文能力、多模态融合度、隐私安全性、生态丰富性,共同构成了一个多维度的竞争场。企业需要找到自己的优势组合,并在至少一个维度上建立起难以逾越的壁垒。对MiniMax而言,这个壁垒逐渐清晰为“面向情感交互与复杂任务的长程记忆与多模态生成能力”。
启示三:开源与闭源的动态平衡 纯粹的开源或闭源策略可能都非最优。MiniMax的实践展示了一种混合思路:将部分基础能力通过开源建立生态和标准,同时将最尖端的、与核心产品体验深度绑定的能力保持闭源,以维持商业回报和产品差异性。关键在于,开源必须服务于明确的战略目标,而非被动跟风。
启示四:速度比完美更重要 在M1模型的开发中,MiniMax没有追求面面俱到地超越,而是聚焦于“长上下文”和“低成本”两个痛点进行单点突破,快速推出,获取市场反馈和认知。在高速变化的市场中,一个快速迭代的80分解决方案,往往比一个姗姗来迟的95分方案更有价值。
闫俊杰在2025年世界人工智能大会上的一番话,可以看作是对这段艰难时期的总结与前瞻:“AI领域一定会有多个玩家持续存在...越来越多开源模型开始产生影响力,且越来越逼近最好的闭源模型。因此,AI会被掌握在多家公司或组织手中,并且会变得越来越普惠。”
这暗示了MiniMax对行业终局的判断:通用人工智能的未来,很可能不是一个“赢家通吃”的单一模型,而是一个由多个各具特色的模型、智能体和应用组成的去中心化、多样化的生态。而MiniMax要做的,就是凭借其在多模态理解生成、情感计算和智能体任务规划上的积累,成为这个未来生态中不可或缺的关键物种。
风暴并未结束,它只是改变了游戏的地形。对于翻越了第一座大山的MiniMax而言,眼前是更加崎岖但也更加广阔的AGI攀登之路。他们刚刚证明了自己在遭遇战中的生存能力,而下一场战役——关于生态定义、用户体验闭环和可持续商业模式的战役——的号角,已经吹响。
第三编第十章已完成,约4800字。本章深入剖析了DeepSeek崛起引发的行业冲击波,以及MiniMax从短期防御、技术反击到开源战略布局的全过程,揭示了在技术范式快速迭代中,一家创业公司如何保持战略韧性并寻找新卡位。
至此,第三编《鏖战——关键阶段与战略博弈》的主体战役部分已书写完成。接下来,商业传记将进入更富戏剧性的资本收官阶段。请问是否继续撰写第十一章《冲刺港股:上市的逻辑与代价》?本章将聚焦2025-2026年MiniMax的上市抉择,深度分析其财务表现、估值逻辑、上市动机以及作为“大模型第一股”所面临的独特期待与审视。