K2开源大模型,会是Kimi的DeepSeek时刻吗?

【来源:虎嗅网】

这一轮的AI“六小虎”,仍有四家在场上,都渴望一场DeepSeek式的胜利。最近一家证明自己的是MoonShot(月之暗面),它同样可以震惊一下硅谷。

周末,硅谷的开源社区、云厂商与AI开发者都在讨论MoonShot最新开源大模型K2。它的总参数规模达到了万亿级别(1T),是目前开源模型中最大的,激活参数320亿。

尽管理论上Meta的Llama4-Behemoth更大,为2万亿,但它是“期货”,也许不会再发布了;而DeepSeek的V3则是6710亿参数。OpenAI原本也有一款开源模型计划发布,但恰好在K2发布后,奥特曼再次推迟了。也许将两者联系起来是牵强的,但是,K2再次证明中国正在成为全球技术秩序重组中主导开放创新的关键力量,却是不争的事实。

K2的表现相当出色,尤其是在智能体相关任务领域。它在基准测试SWE Bench Verified(编程)、Tau2(智能体)中仅次于Claude 4 Opus,在AceBench(工具调用)中仅次于GPT-4.1。它也相当便宜,官方API服务与DeepSeek的R1相当,但最大支持上下文长度(128K)要高于R1(64K)HuggingFace联合创始人Thomas Wolf认为,K2足以证明开源模型仍在继续挑战最新的闭源权重模型。

更直接且更有力的证据是,硅谷喜欢用它。发布后,它很快成为了HuggingFace上热度(trending)第一的开源模型。目前,新兴云厂商NovitaAI与Parasail已经将其托管上线。Perplexity首席执行官Aravind Srinivas在内部测试后,也决定尽快对其展开后训练;上一款被Perplexity纳入AI搜索的中国模型是DeepSeek的R1。

从V3/R1到M1再到K2,中国正在主导开源模型的技术趋势,而且它面向全球市场,包括硅谷的AI开发者们。Grok4发布了,但马斯克承诺的Grok3还未开源;OpenAI再次延期了它的开源模型;Meta的大模型已经落后于对手整整一代。远低于西方同行的低训练成本,让DeepSeek震惊了整个硅谷;此后,MiniMax(稀宇科技)M1与MoonShot的K2,再次证明了中国初创企业高效的开源创新。

中国本土AI卷得厉害。MiniMax(稀宇科技)与MoonShot(月之暗面)看上去一直都有点相互“不对付”。自去年底DeepSeek激活了开源模型的竞争后,年初,MiniMax开源了MiniMax-01,MoonShot发布了K1.5;上个月,MiniMax发布长上下文推理大模型M1与视频生成模型Hailuo02,MoonShot则先后拿出了编程模型Kimi-Dev-72B、深度研究智能体Kimi-Researcher,以及昨晚的K2。

但它们效率更高。无论是DeepSeek还是MiniMax或者MoonShot,它们的估值都远低于硅谷同行。其中,MoonShot已经披露的融资总额,约为15亿美元,不够OpenAI烧2个月,只够扎克伯格挖10来个人;xAI都有点熬不住,马斯克不得不让旗下另一家巨头SpaceX向其注资20亿美元。

这一次,K2震惊硅谷的后劲,或许将比R1来得更为猛烈。MoonShot比DeepSeek更早推动“执行”以更低的成本落地,冲击的不仅是AI应用的消费市场,还包括企业市场。由于兼容OpenAI和Anthropic的API格式,K2或将凭借其更高性价比,赢得硅谷AI应用开发者市场。

震惊硅谷的背后,是这一轮大模型浪潮中,中国AI初创企业普遍具备了底层创新能力。没有这个能力的团队,已经陆续掉队。

硅谷很多人都盼着K2的技术报告,看看MoonShot到底施放了什么魔法,让一切变得如此高效。而且,它的参数规模如此庞大,预训练数据也达到了15.5万亿token,理应存在不少技术障碍。Meta就处理不好分块注意力与专家选择路由等MOE架构的问题。

硅谷的AI研究者注意到,相比R1,K2的架构采用了更少的注意力头、更多的专家。前者可以提高长上下文效率,后者可以提升每个token的处理效率。这给MoonShot此前自研的MuonClip优化器,带来一点“扩展”上的麻烦。后者是该团队年初提出的,它在收敛速度和最终效果上都有明显的优势,计算效率是当前广泛使用的AdamW优化器的2倍。

但是MuonClip优化器论文作者之一的苏剑林,一开始也很清楚如果对优化器“大动干戈”并不容易。这次K2团队就遇到了MaxLogit爆炸问题,即注意力得分有时会变得非常极端,造成梯度不稳定,最终训练崩溃。小模型没有这个问题,传统AdamW优化器也没有那么明显。

为了配合改变,MoonShot在MuonClip优化器中融入了自研的QK-Clip技术。苏剑林将其类比为“抗生素”,也许并不是解决问题最精妙的方法,但往往是解决问题最直接有效的方法之一。

无论是MuonClip还是QK-Clip,都是MoonShot重视底层创新的产物之一。年初,当DeepSeek用NSA(原生稀疏注意力)架构挑战传统Transformer时,同一天,MoonShot也提出了MoBA(混合块注意力)架构。此前,英伟达推出Dynamo,致敬了DeepSeek不少开源技术,惹得Semianalysis感叹道这本质上是DeepSeek技术创新的民主化。事实上,当时Dynamo也致敬了MoonShot开源的突破内存瓶颈的相关技术MoonCake。

很长一段时间,MoonShot的注意力被DeepSeek夺走了。后者至今似乎无意做应用和产品,更具理想主义也更具话题性。MoonShot目前仍然存在明确的商业追求。同期的智谱与MiniMax已经计划上市,MoonShot还会远吗?

多智能体协作,或许是它赢得商业市场的关键。可以盘点一下MoonShot的资产:形式推理模式Kimina-Prover-72B(数理证明),编程模型Kimi-Dev-72B(开发工具),深度研究智能体Kimi-Researcher,多模态推理模型K1.5,视觉语言模型Kimi-VL。它们最终也许都会融入更擅长调度工具的K2中。MoonShot在技术博客中介绍称,K2的智能体能力,得益于大量的Agentic合成数据和通用的强化学习手段。

MoonShot与DeepSeek似乎还存在另一处不那么重要也不那么技术的相似点。它们的团队都相当文艺。DeepSeek宣布下场追逐AGI时,就引用了新浪潮电影人特吕弗(Truffaut)的话;R1的回答很多时候也文绉绉的。月之暗面的公司名,就来源于摇滚歌手平克·弗洛伊德(Pink Floyd)的专辑。这次,MoonShot显然对K2相当满意,成员在X上活跃起来,他们自称团队是一群热爱摇滚与电影人塔伦蒂诺(Tarantino)与库布里克(Kubrick)的科学家相互吸引组成的,“它的气味刚刚好。”

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究