万亿参数Kimi K2开源 月之暗面研发工程师亲述幕后故事

万亿参数Kimi K2开源 月之暗面研发工程师亲述幕后故事

7月14日消息,日前,国内大模型独角兽月之暗面正式发布并开源了其最新一代MoE架构基础模型Kimi K2,总参数量达到1万亿(1T) ,引发圈内热议。Kimi内部则将K2研发群戏称为“接生群”,多位参与“接生”的Kimi研发人员随后在知乎展开“亲自答”,从多个角度深入讲述了其背后研发历程。

作为月之暗面 Infra侧推理方面研发人员,知乎答主刘少伟谈及了K2模型结构的设计宗旨。他称K2模型是在DeepSeek V3结构的框架之下,如何选择合适的参数,使得模型在训练、推理成本与v3相当的前提下,获得明显更低的loss。“综合以上四个相比v3的改动,我们能够得到一个在相同EP数量下,虽然总参数增大到1.5倍,但除去通信部分,理论的prefill和decode耗时都更小的推理方案”。

月之暗面研究员、知乎答主Flood Sung则表示,Kimi K2最值得关注的信息,除了MuonClip带来的漂亮得起飞的loss曲线,还有就是Agent能力。他透露,为了实现更好的通用Agent能力,构建了一个大规模的agent合成数据pipeline:简单的说是一个完全自动化的agent数据生产工厂,通过全流程的模拟来过滤出好的Agent轨迹数据。Flood Sung称,“这个生产线非常符合老子的思想:’一生二,二生三,三生万物’。”

另一位月之暗面研发人员、知乎答主Justin Wong谈到Kimi K2为何会选择开源时称,开源意味着能够借助社区力量完善技术生态,“在我们开源不到24小时就看到有社区做出K2的MLX实现、4bit量化等等,这些凭我们这点人力真的做不出来”。月之暗面研究员、知乎答主Dylan则表示,K2实际上就是一个刚出生的baby,虽然略显“灵性”,但和很多已久的frontier model(前沿模型)相比,还是有很多、很明显的缺点,“作为post-train(后训练)相关的同学,还是略感惭愧,希望后面的版本迭代里面能够持续释放K2 base model的潜力”。

据了解,开发者在AI成果发布的同时,越来越多选择来知乎发布背后的详尽思考。6月,月之暗面也曾发布一款Agent产品,Kimi-researcher两位主要研发人员也在知乎亲自答,解读产品背后的技术思考和亮点。更早之前,月之暗面开源MoBA框架研发人员鹿恩哲、苏剑林分别在知乎上讲述了研发思路,引发了业界对“稀疏注意力”框架的讨论。(周小白)

猜你喜欢

西游记中的玉皇大帝有多厉害?玉帝:真以为我只会钻桌子?

千万别被电视剧骗了,扒开这几个细节你就知道,这位三界之主绝对是隐藏的狠角色。原著里他派个哪吒、二郎神就能收拾猴子,叫如来过来不是 “求救”,而是“宣旨平叛”—— 如来接到圣旨后,得赶紧带着菩萨们 “领法旨”…

西游记中的玉皇大帝有多厉害?玉帝:真以为我只会钻桌子?

从“软”文学到“硬”产业,成都科幻崛起,郫都区生态重构新篇章

特别是位于西北部的郫都区,作为核心区域,将依托科幻影视、文娱旅游以及高端装备制造,致力于打造成都科幻产业的核心地标,进一步推动科幻产业在全球舞台的崭露头角。此举为郫都区带来了新的行业脉动,多个大型赛事和活动的…

从“软”文学到“硬”产业,成都科幻崛起,郫都区生态重构新篇章

IEC冰箱保鲜认证多苛刻?仅一家通过,中家院给予

在湿区,其HCS生态植物膜技术将“阻氧”与“控湿”的相结合,能够自动调节水分和气体的平衡,将湿度稳定在适宜的90%左右,有效防止果蔬脱水,同时也做到了不凝露,果蔬存7天也能新鲜堪比第一天,失重率≤3%。对行业…

IEC冰箱保鲜认证多苛刻?仅一家通过,中家院给予

陈永胜亮相2025中国电影导演之夜红毯:和导演合作最重要的是信任

7月15日下午,2025中国电影导演之夜红毯在烟台举行。演员陈永胜亮相红毯,当被问及演员与导演合作最重要的是什么,他坦言,是信任。(封面新闻记者周琴 山东烟台报道)…

陈永胜亮相2025中国电影导演之夜红毯:和导演合作最重要的是信任

《超人》最精彩场景在印度被删 新超女片场照赏

詹姆斯·古恩执导的新《超人》电影已上映,影片中新超女也登场,由演员米莉·阿尔柯克(Milly Alcock)饰演。此前米莉在权游前传《龙之家族》中饰演年轻的雷妮拉·坦格利安而声名大噪,此次饰演超女,标志着她在…

《超人》最精彩场景在印度被删 新超女片场照赏