腾讯发布混元Turbo S:业界首次无损应用Mamba架构

腾讯发布混元Turbo S:业界首次无损应用Mamba架构

21世纪经济报道记者白杨 北京报道

2月27日,腾讯正式发布新一代基座模型——混元Turbo S。

据腾讯混元团队介绍,混元Turbo S在架构方面创新性地采用了Hybrid-Mamba-Transformer 融合模式,有效降低了传统Transformer结构的计算复杂度,并减少了KV-Cache缓存占用,从而实现训练和推理成本的下降。

Mamba架构是一种基于状态空间模型(State Space Model, SSM)的深度学习架构,通过引入选择性机制(Selective Mechanism),Mamba架构能够高效处理长序列数据。

而Hybrid-Mamba-Transformer是一种结合了Mamba架构和Transformer架构的混合模型,通过这种融合,使得它突破了传统纯 Transformer 结构大模型面临的长文训练和推理成本高的难题。

一方面,Hybrid-Mamba-Transformer架构可以发挥Mamba高效处理长序列的能力,另一方面,它也保留了Transformer擅于捕捉复杂上下文的优势。

据悉,混元Turbo S是工业界首次成功将Mamba架构无损地应用在超大型MoE模型上。

在业界通用的多个公开基准测试上,腾讯混元 Turbo S在知识、数学、推理等多个领域展现出对标『DeepSeek』 V3、GPT 4o、Claude3.5等业界领先模型的效果表现。

腾讯混元团队表示,Turbo S将作为旗舰模型,成为腾讯混元系列衍生模型的核心基座,为推理、长文、代码等衍生模型提供基础能力。

值得一提的是,此前已在腾讯元宝上线的深度思考模型混元T1,就是基于Turbo S,再引入长思维链、检索增强和强化学习等技术而来。

目前,开发者和企业用户已经可以在腾讯云上通过API直接调用腾讯混元Turbo S,并且即日起一周内免费试用。

定价方面,Turbo S输入价格为0.8元/百万tokens,输出价格为2元/百万tokens,相比前代混元Turbo模型价格大幅下降。

对于C端用户,腾讯元宝则将逐步灰度上线混元Turbo S。

特别声明:[腾讯发布混元Turbo S:业界首次无损应用Mamba架构] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

On Labs 东京首秀,LightSpray 9月17日上海『限量发售』(东京首次亮相运动)

今年九月,On昂跑以三大东京里程碑事件开启全新篇章:首度在亚太地区呈现沉浸式体验空间东京On Labs及LightSpray™鞋面科技;全新On昂跑银座旗舰店开业;63名On昂跑赞助运动员齐聚日本2025世界…

On Labs 东京首秀,LightSpray 9月17日上海『限量发售』(东京首次亮相运动)

多语言支持机械CAD哪家好用排行榜(机器语言可以跨平台使用吗)

排名 软件名称 语言支持 核心优势 适合用户 1 SolidWorks 超过14种语言,覆盖全球主要工业国家功能全面均衡,用户社区庞大,易学易用 中小企业、教育机…

多语言支持机械CAD哪家好用排行榜(机器语言可以跨平台使用吗)

韩国女星打掉东北老公小三孩子的瓜(韩国『明星』️打针)

这位曾让观众艳羡的"复仇女神",现实中的情感纠葛比电视剧更跌宕起伏。 知情者透露,品如对丈夫的越轨行为了然于心。如今这对夫妻将婚姻转化为商业联盟,『直播间』里的甜蜜互动与短视频中的恩爱日常,不过是维系共同利益

韩国女星打掉东北老公小三孩子的瓜(韩国『明星』️打针)

引爆上海建工行情的竟是五年前旧闻 金矿资源传闻再起(上海建工今日行情)

9月16日开盘,上海建工股价再度涨停,达到3.21元,连续三个交易日涨停,总市值攀升至285.24亿元。此轮股价上涨主要受市场消息称其子公司金矿资源储量大幅增加的影响。不过,上海建工证券部表示,以公告为准,近期未披露相关信息

引爆上海建工行情的竟是五年前旧闻 金矿资源传闻再起(上海建工今日行情)

特斯拉“车顶维权”车主数据案胜诉 特斯拉需提供完整行车数据

9月16日,“特斯拉车顶维权女车主”当事人张女士在其个人社交账号发文称:“四年了我终于赢了特斯拉一次!”她表示刚刚收到了北京大兴人民法院的判决书

特斯拉“车顶维权”车主数据案胜诉 特斯拉需提供完整行车数据