腾讯发布混元Turbo S:业界首次无损应用Mamba架构

21世纪经济报道记者白杨 北京报道

2月27日,腾讯正式发布新一代基座模型——混元Turbo S。

据腾讯混元团队介绍,混元Turbo S在架构方面创新性地采用了Hybrid-Mamba-Transformer 融合模式,有效降低了传统Transformer结构的计算复杂度,并减少了KV-Cache缓存占用,从而实现训练和推理成本的下降。

Mamba架构是一种基于状态空间模型(State Space Model, SSM)的深度学习架构,通过引入选择性机制(Selective Mechanism),Mamba架构能够高效处理长序列数据。

而Hybrid-Mamba-Transformer是一种结合了Mamba架构和Transformer架构的混合模型,通过这种融合,使得它突破了传统纯 Transformer 结构大模型面临的长文训练和推理成本高的难题。

一方面,Hybrid-Mamba-Transformer架构可以发挥Mamba高效处理长序列的能力,另一方面,它也保留了Transformer擅于捕捉复杂上下文的优势。

据悉,混元Turbo S是工业界首次成功将Mamba架构无损地应用在超大型MoE模型上。

在业界通用的多个公开基准测试上,腾讯混元 Turbo S在知识、数学、推理等多个领域展现出对标『DeepSeek』 V3、GPT 4o、Claude3.5等业界领先模型的效果表现。

腾讯混元团队表示,Turbo S将作为旗舰模型,成为腾讯混元系列衍生模型的核心基座,为推理、长文、代码等衍生模型提供基础能力。

值得一提的是,此前已在腾讯元宝上线的深度思考模型混元T1,就是基于Turbo S,再引入长思维链、检索增强和强化学习等技术而来。

目前,开发者和企业用户已经可以在腾讯云上通过API直接调用腾讯混元Turbo S,并且即日起一周内免费试用。

定价方面,Turbo S输入价格为0.8元/百万tokens,输出价格为2元/百万tokens,相比前代混元Turbo模型价格大幅下降。

对于C端用户,腾讯元宝则将逐步灰度上线混元Turbo S。

特别声明:[腾讯发布混元Turbo S:业界首次无损应用Mamba架构] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

高空作业升降机如何建造-金力机械(高空作业升降机购买)

首先,需设计其结构框架,通常采用高强度钢材焊接而成,确保稳定性和承重能力;其次要安装动力系统包括电动机、减速器和传动机构等提供动力来源和控制方式实现上下运动的部件;再次是安全装置的安装如防坠器紧急制动器等保障…

高空作业升降机如何建造-金力机械(高空作业升降机购买)

黑马-集成电路应用开发(含嵌入式) 小白入门课程(黑马c+)

物理连接:Wi-Fi 模块通过 SPI 或 SDIO 引脚接入主控『芯片』;协议遵循:使用 AT 指令集或厂商SDK,按约定格式发送命令;时序配合:确保数据在时钟边沿稳定,避免采样错误。 通过这门小白课,我最…

黑马-集成电路应用开发(含嵌入式) 小白入门课程(黑马c+)

鲍蕾夫妇与郭京飞聚会,49岁陆毅又高又瘦,看着比妹夫要年轻10岁(鲍蕾专访)

有网友打趣道:陆毅这状态,看着比郭京飞起码年轻十岁。更让人津津乐道的是,两家人的财政大权都掌握在鲍蕾手中,郭京飞在节目中也坦言,自己赚的钱都是直接打到鲍蕾卡里,足见家庭内部的信任与和谐。 鲍蕾与鲍莉这对姐妹,…

鲍蕾夫妇与郭京飞聚会,49岁陆毅又高又瘦,看着比妹夫要年轻10岁(鲍蕾专访)

46岁『高圆圆』菜市场生图杀疯了!红毛衣配白裤似26岁,路人镜头下零死角(搜索,『高圆圆』)

休息时她披上厚厚的黑色羽绒服,双手环抱取暖,侧脸线条在老街光影里柔和又立体,这状态让网友忍不住对比:“同期女星都在靠医美维持,她怎么像吃了防腐剂?”『高圆圆』曾在采访里说,自己从不刻意抗老,只是坚持早睡和运动,拍…

46岁『高圆圆』菜市场生图杀疯了!红毛衣配白裤似26岁,路人镜头下零死角(搜索,『高圆圆』)

她长得漂亮演技好,不愿被潜规则,出道二十余年却无人知(她长得漂亮演技好的英文)

这里星光熠熠,却也要求每个人从“龙套”起步。魏小军欣然接受了这个规则,她不争不抢,仿佛剧院里一棵安静生长的树,从土壤中汲取养分,又将绿荫献给舞台。这份通透与淡然,让她守护住了内心的艺术火种,也让她在出道二十余…

她长得漂亮演技好,不愿被潜规则,出道二十余年却无人知(她长得漂亮演技好的英文)