小米语音大模型开源,多项测试超越同参数量开源模型(小米语音模式)

小米语音大模型开源,多项测试超越同参数量开源模型(小米语音模式)

图片由AI生成

2025年9月19日,“非职业玩家”小米在AI领域扔出一颗“技术炸弹”——正式开源旗下首个原生端到端语音大模型Xiaomi-MiMo-Audio。这款能语音大模型不仅在国际权威测试中超越一众竞品,更重要的是,它首次实现仅用少量示例就能快速适应并完成之前没专门训练过的新语音相关任务。

要知道,现有的语音大模型对于标注数据存在严重依赖,接到新任务的时候很难进行举一反三。对此,Xiaomi-MiMo-Audio的解决方案是:采用patch编码器+『大语言模型』+patch 解码器的三段式结构,并在1亿多小时多源语料上完成的预训练,从而在突破7000亿token阈值后出现显著的“能力涌现”,并且还能具备无需任务特定微调的少样本学习能力。

MiMo-Audio在多项测试超越同参数量开源模型

小米官方博客介绍到,Xiaomi-MiMo-Audio拥有以下3个创新点:

  • 采用原生端到端架构实现语音信号到文本的直接映射,将指令响应速度提升4倍并降低系统复杂度,在嘈杂环境识别准确率提升20%以上。
  • 首次在语音领域实现基于ICL的少样本泛化能力,无需大规模标注数据即可通过少量示例快速适配新任务,在复杂推理任务中超越OpenAI同类模型。
  • 通过全链路开源提供从数据预处理到推理部署的完整工具链,以Apache 2.0协议授权彻底打破音频AI领域闭源垄断格局,上线首日获3000+开发者关注。

目前,小米已在Huggingface平台开源了该模型的预训练及指令微调版本,同时在Github平台开放Tokenizer模型代码。这种开放策略将大幅降低语音大模型的应用门槛,使中小企业无需构建专用数据集,就能快速开发定制化音频应用。例如在智能家居、车载语音交互等实际应用场景,可以预见的是,基于Xiaomi-MiMo-Audio的语音大模型将会显著提升人机语音交互体验,让你的『智能设备』“更懂人话”。

特别声明:[小米语音大模型开源,多项测试超越同参数量开源模型(小米语音模式)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

虐哭了,『刘亦菲』新剧玫瑰的故事爆火,剧中蕴藏着5大深刻道理(『刘亦菲』伤感视频)

最近,由『刘亦菲』主演的玫瑰的故事在全网爆火,在网络上快速掀起了一股收视热潮,『刘亦菲』饰演的角色黄玫瑰在玫瑰的故事剧中经历了4段爱情故事,不仅剧情引人入胜,很多人在看了这部剧之后,都被虐哭了,这四段爱情故事更在细节…

虐哭了,『刘亦菲』新剧玫瑰的故事爆火,剧中蕴藏着5大深刻道理(『刘亦菲』伤感视频)

继狂飙后,三位演员重聚看不见影子的少年,此剧不火都难

看不见影子的少年这部剧确实备受期待,因为它不仅集结了狂飙中的优秀演员,更以其引人入胜的剧情和精湛的演技吸引了广大观众。 同样我们熟悉的那位狂飙当中的正义凛然的李响,在看不见影子少年再次降临刑警的头衔,竟然还…

继狂飙后,三位演员重聚看不见影子的少年,此剧不火都难

65岁车保罗小餐馆打包餐食,为省钱坐公交,爆火后生活压力仍不小(车保罗照片)

这位看似普通的老人,正是曾被称为1"TVB绿叶王1"的资深演员车保罗。这位在演艺圈打拼数十年的老戏骨,私下里依然保持着独特的时尚品味——那件反复穿着的牛仔马甲和标志性的棕色礼帽,已成为他个人风格的象征。此

65岁车保罗小餐馆打包餐食,为省钱坐公交,爆火后生活压力仍不小(车保罗照片)

知名影视演员『许凯』居然长期聚众赌博,而且金额超百万元(知名影视演员排名)

当《子夜归》中梅逐雨执剑收妖的镜头登上热搜时,这位生于岭南的90后演员早已完成从模特到顶流小生的蜕变。彼时新人『许凯』不会想到,富察·傅恒这个贵公子角色会成为他事业的重要转折。这个广东男孩用七年时间证明:所谓顶…

知名影视演员『许凯』居然长期聚众赌博,而且金额超百万元(知名影视演员排名)

摆缸柱塞液压马达TAKS系列全解析:你选对了吗?⚙️(柱塞式液压油缸原理)

摆缸柱塞液压马达是高扭矩、低速大功率液压执行元件的代表,广泛用于工程机械、矿山设备与重型机械。本文深度科普TAKS系列(TAKS05TAKS1-TAKS3)与AKS4567-2000D90型号的核心原理、性能参数、适用场景及选购要点

摆缸柱塞液压马达TAKS系列全解析:你选对了吗?⚙️(柱塞式液压油缸原理)