Gitee AI 联合沐曦首发全套『DeepSeek』 R1 千问蒸馏模型

科技拿老公换糖吃2025年09月17日 15:06150阅读

Gitee AI 联合沐曦首发全套『DeepSeek』 R1 千问蒸馏模型

2 月 3 日消息，Gitee AI 昨日宣布上线『DeepSeek』-R1-Distill-Qwen-1.5B、『DeepSeek』-R1-Distill-Qwen-7B、『DeepSeek』-R1-Distill-Qwen-14B、『DeepSeek』-R1-Distill-Qwen-32B四个较小尺寸的『DeepSeek』模型。更值得关注的是，本次上线的四个模型均部署在国产沐曦曦云 GPU 上。

与全尺寸『DeepSeek』模型相比，较小尺寸的『DeepSeek』蒸馏版本模型更适合企业内部实施部署，可以降低落地成本。

同时，这次 Deepseek R1 模型 + 沐曦曦云 GPU + Gitee AI 平台，更是实现了从『芯片』到平台，从算力到模型全国产研发。

注：『DeepSeek』 R1 是一款大型混合专家（MoE）模型，拥有 6710 亿个参数，支持 128000 个 Token 的大输入上下文长度。

本次部署在沐曦曦云 GPU 上的是四个『DeepSeek』 R1 蒸馏模型，号称以更小参数量的资源占用，实现了性能与大参数模型“旗鼓相当”。

目前 Gitee AI 上的『DeepSeek』-R1-Distill 系列模型现已面向全体开发者免费使用。

Distill 『DeepSeek』参数全套曦云

特别声明：[Gitee AI 联合沐曦首发全套『DeepSeek』 R1 千问蒸馏模型] 该文观点仅代表作者本人，今日霍州系信息发布平台，霍州网仅提供信息存储空间服务。

猜你喜欢

2025-09-15

嬉皮笑脸还演接头特工？陈钰琪用实力解释她为什么会“糊”(嬉皮笑脸是什么意思啊?)

这位女主角🎭️在剧中塑造的女特工形象，简直是对谍战题材的另类诠释——本该机敏果敢的地下工作者，硬是被她演绎成了怀春少女。陈钰琪的演绎不仅未能引发共鸣，反而因其敷衍的态度令人出戏。在《浮图缘》中，她与『王鹤棣』的对手戏…

嬉皮笑脸还演接头特工？陈钰琪用实力解释她为什么会“糊”(嬉皮笑脸是什么意思啊?)

2025-09-15

《披哥5》李承铉拼命三郎式带团，为何观众却想转世去苏醒组？(披哥初舞台排名)

李承铉组像米其林日料——每帧都精准到毫米，但总令人想拍照发朋友圈多于回味；苏醒组根本是深夜火锅局，汤底飘着"搞砸算我的"的辣椒油。相当后谁赢根本不重要，重要的是节目散场时那个灵魂拷问：你想当Excel真

《<strong>披哥5</strong>》李承铉拼命三郎式带团，为何观众却想转世去苏醒组？(披哥初舞台排名)

2025-09-16

男朋友抑郁症怎么办(男朋友抑郁症怎么办如何开导他呢)

抑郁症可以通过心理治疗、药物治疗、生活调整、社会支持和定期复诊等方式进行干预。该病通常由遗传因素、脑内化学物质失衡、长期压力、创伤经历或慢性疾病等因素引起。认知行为疗法能帮助患者识别和改变负面思维模式，常用的技术包括行为激活和认知重构

男朋友抑郁症怎么办(男朋友抑郁症怎么办如何开导他呢)

2025-09-17

20个独特小众、风格鲜明的男宝宝名字推荐，结合冷门典故、自然奇观(小众却很惊艳)

、抽象概念等元素，确保不易撞名且富有深意：【自然异象类】岫白寓意：山峦间雾气如白练，空灵清透风格：冷门山水意象，仙气缥缈烬川寓意：野火焚尽后重生的河流，象征破而后立风格：矛盾美学，暗黑与希望交织悬黎寓意：…

20个独特小众、风格鲜明的男宝宝名字推荐，结合冷门典故、自然奇观(小众却很惊艳)

2025-09-17

她一生只拍一部戏，却让人为她痴迷几十年，如今65岁却仍如少女(一生的她)

当六旬的光阴在她身上流转，那份摄人心魄的风采依然如初，仿佛时光的刻刀在她面前失去了锋芒。当杨洁导演为寻找符合心中标准的嫦娥而辗转难眠时，这个兼具绝世容颜、空灵气质与专业舞技的女孩突然出现，瞬间点亮了导演的灵感…

她一生只拍一部戏，却让人为她痴迷几十年，如今65岁却仍如少女(一生的她)