小米语音大模型开源,多项测试超越同参数量开源模型(小米语音模式)

图片由AI生成

2025年9月19日,“非职业玩家”小米在AI领域扔出一颗“技术炸弹”——正式开源旗下首个原生端到端语音大模型Xiaomi-MiMo-Audio。这款能语音大模型不仅在国际权威测试中超越一众竞品,更重要的是,它首次实现仅用少量示例就能快速适应并完成之前没专门训练过的新语音相关任务。

要知道,现有的语音大模型对于标注数据存在严重依赖,接到新任务的时候很难进行举一反三。对此,Xiaomi-MiMo-Audio的解决方案是:采用patch编码器+『大语言模型』+patch 解码器的三段式结构,并在1亿多小时多源语料上完成的预训练,从而在突破7000亿token阈值后出现显著的“能力涌现”,并且还能具备无需任务特定微调的少样本学习能力。

MiMo-Audio在多项测试超越同参数量开源模型

小米官方博客介绍到,Xiaomi-MiMo-Audio拥有以下3个创新点:

  • 采用原生端到端架构实现语音信号到文本的直接映射,将指令响应速度提升4倍并降低系统复杂度,在嘈杂环境识别准确率提升20%以上。
  • 首次在语音领域实现基于ICL的少样本泛化能力,无需大规模标注数据即可通过少量示例快速适配新任务,在复杂推理任务中超越OpenAI同类模型。
  • 通过全链路开源提供从数据预处理到推理部署的完整工具链,以Apache 2.0协议授权彻底打破音频AI领域闭源垄断格局,上线首日获3000+开发者关注。

目前,小米已在Huggingface平台开源了该模型的预训练及指令微调版本,同时在Github平台开放Tokenizer模型代码。这种开放策略将大幅降低语音大模型的应用门槛,使中小企业无需构建专用数据集,就能快速开发定制化音频应用。例如在智能家居、车载语音交互等实际应用场景,可以预见的是,基于Xiaomi-MiMo-Audio的语音大模型将会显著提升人机语音交互体验,让你的『智能设备』“更懂人话”。

特别声明:[小米语音大模型开源,多项测试超越同参数量开源模型(小米语音模式)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

一路走好!不到72小时,3位名人去世,最大69岁,最小仅17(一路走好的话语)

即便疾病侵蚀着她的身体,她依然在舞台上散发光芒;而钟翔那仅有的17年,却也成就了不凡的成绩,那一金三银的奖牌🏅将永远镌刻在他父母的心中,成为他们最痛也最珍贵的回忆。赵学煌虽晚年病卧,却在荧幕上留下了永不褪色的形…

一路走好!不到72小时,3位名人去世,最大69岁,最小仅17(一路走好的话语)

【可以听的科学课】《“齐”妙科普》第994课 为什么大多数客机都是白色的?(写科学听什么歌可以提高速度)

↑点击收听《“齐”妙科普》音频科学课↑ …

【可以听的科学课】《<strong>“齐”妙科普</strong>》第994课 为什么大多数客机都是白色的?(写科学听什么歌可以提高速度)

陈汉典收到红包🧧了!小S「钱各自管」亲写维持婚姻6关键:一周做爱4次(陈汉典视频)

婚礼上,一位特殊的嘉宾——陈汉典的老伙伴小S(徐熙娣)虽因故未能到场,却通过另一个充满心意的方式送上了祝福。 从曝光的照片来看,小S作为过来人,特别在红包🧧上写下了满满一页的叮咛和建议。每一句话都充满了她一…

陈汉典收到红包🧧了!小S「钱各自管」亲写维持婚姻6关键:一周做爱4次(陈汉典视频)

中泰恐怖电影《凌晨两点半 3》提档3月6日月圆之夜,双时叠加引爆极致惊悚(中泰合作鬼片)

近日,经典恐怖 IP《凌晨两点半 3》突发提档官宣,将原定清明节的上映日期提前至 2026 年 3 月 6 日月圆之夜。当阴气最盛的“凌晨两点半3” 撞上传说中 “鬼魂现形” 的月圆时刻,这部中泰合拍的恐…

中泰恐怖电影《<strong>凌晨两点半 3</strong>》提档3月6日月圆之夜,双时叠加引爆极致惊悚(中泰合作鬼片)

黑皮肤、满脸斑、手抓牛粪的『杨紫』,秒了内娱一堆涂脂抹粉的女艺人(皮肤黑脸黑)

更令人惊讶的是,『杨紫』居然还亲自晒牛粪,这种敬业态度也让观众对她充满了信任。它在年代悬疑的基础上,巧妙地融入了环保元素,紧跟主旋律,但故事却不乏吸引力,还加入了正邪较量的情节,足以吸引大批观众的眼球。『杨紫』、『胡歌』…

黑皮肤、满脸斑、手抓牛粪的『杨紫』,秒了内娱一堆涂脂抹粉的女艺人(皮肤黑脸黑)