MiniMax追着DeepSeek打

MiniMax追着DeepSeek打

记者 陈月芹

6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro,比拼谁更好用、谁更低成本。

对大语言模型而言,上下文窗口与长文本处理能力是衡量一个模型处理复杂、长篇任务能力的关键指标。MiniMax M1支持100万个token的上下文长度,是DeepSeek R1上下文大小(12.8万Token)的8倍,仅落后于谷歌的Gemini 2.5 Pro。支持百万级上下文输入的能力,使得MiniMax M1擅长处理长文档,适用于法律文件审查、深度研究分析或处理整个代码库等应用。

在架构上,MiniMax M1和DeepSeek R1均采用了混合专家(MoE)架构。MiniMax M1的总参数量为4560亿,每个token激活459亿参数;而DeepSeek R1虽然总参数量更大(6710亿),但每个token激活的参数量相对较低,为370亿。

此外,与DeepSeek R1相比,MiniMax-M1在生成10万个token时仅消耗25%的浮点运算。在生成长度达64000个token的推理任务中,M1所需的计算能力不到DeepSeek R1的一半,进一步降低了模型操作成本。

2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广泛争议。

MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万美元,这一成本“比最初的预期少了一个数量级”。

MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。

降低训练成本后,MiniMax也把用户使用API服务的价格打下来了。

MiniMax M1采用分级计费,根据用户输入或输出的Token数量(即内容的长度)而变化。第一档为0—32k Token,每100万个输入Token收取0.8元,输出则为8元/百万Token;第二档为32k—128k Token,输入为1.2元/百万Token,输出则为16元/百万Token;第三档为128k—1M Token,输入为2.4元/百万Token,输出为24元/百万Token。

而DeepSeek R1 的API服务收费标准为输入每百万Tokens收费0.55美元(约合人民币3.95元),输出每百万Tokens收费2.19美元(约合人民币15.4元)。

据此计算,MiniMax M1前两档位的定价均低于DeepSeek R1,而第三个超长文本档位,目前DeepSeek模型尚未覆盖。

目前,MiniMax M1已在Hugging Face和GitHub上公开其代码和模型权重,允许用户进行透明的检查、定制和本地部署。

转自:经济观察报

特别声明:[MiniMax追着DeepSeek打] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

传奇投资家罗杰斯清空所有美股 押注中国股市(传奇投资家罗杰是谁)

8月1日,在诺亚控股于新加坡举办的“全球华人财富管理与传承”峰会上,传奇投资家Jim Rogers表示,他目前仅持有中国和另一个国家的股票,并已清空所有美国股票。他认为,下一次美国危机将是其有生以来最严重的

传奇投资家罗杰斯清空所有美股 押注中国股市(传奇投资家罗杰是谁)

用哪款内网监控软件呢?可以参考这6款内网监控软件 不要错过了(内网监控可以装到手机上吗)

它们涵盖了实时屏幕监控、文件加密保护、网络流量控制等功能,能满足不同场景下的监控需求。无论是需要严格管控的大型企业,还是追求性价比的中小企业,都能从这6 款软件中找到合适的选择,避免因选错工具而影响内网管理…

用哪款内网监控软件呢?可以参考这6款内网监控软件 不要错过了(内网监控可以装到手机上吗)

6位星光大道冠军今何在?有人落魄离婚,有人欠债百万街边卖菜!(cctv星光大道冠军)

那时候谁能想到,这对从校服到婚纱的情侣,结婚3年就散了?2014年一首《烛光里的妈妈》唱哭全场,谁不心疼这个16岁就打工还债的穷小子?红了之后最考验的不是才华,是良心。 《星光大道》给了草根逆天改命的机会,…

6位星光大道冠军今何在?有人落魄离婚,有人欠债百万街边卖菜!(cctv星光大道冠军)

嵌套三元运算符(嵌套三元运算符有哪些)

是指在一个三元运算符的表达式部分再使用另一个三元运算符。这在技术上是可行的,但过度嵌套会显著降低代码的可读性。 $grade =($score >= 90) ? 'A' : 虽然可以写出非常简洁

嵌套三元运算符(嵌套三元运算符有哪些)

翟子路、马思超、王鹤润要组局京城奇探,这阵容太可了!(翟子路好帅)

夏日生活打卡季?民国题材的京城奇探主演阵容定的是翟子路、马思超,还有王鹤润,民国题材,悬疑探案,z光京城奇探本身就很有看点。 翟子路这次在京城奇探里,他要演的是热爱传统文化的青年赵少商。以往他大多演的是青春阳…

翟子路、马思超、王鹤润要组局京城奇探,这阵容太可了!(翟子路好帅)