图片由AI生成
2025年9月19日,“非职业玩家”小米在AI领域扔出一颗“技术炸弹”——正式开源旗下首个原生端到端语音大模型Xiaomi-MiMo-Audio。这款能语音大模型不仅在国际权威测试中超越一众竞品,更重要的是,它首次实现仅用少量示例就能快速适应并完成之前没专门训练过的新语音相关任务。
要知道,现有的语音大模型对于标注数据存在严重依赖,接到新任务的时候很难进行举一反三。对此,Xiaomi-MiMo-Audio的解决方案是:采用patch编码器+『大语言模型』+patch 解码器的三段式结构,并在1亿多小时多源语料上完成的预训练,从而在突破7000亿token阈值后出现显著的“能力涌现”,并且还能具备无需任务特定微调的少样本学习能力。
MiMo-Audio在多项测试超越同参数量开源模型
小米官方博客介绍到,Xiaomi-MiMo-Audio拥有以下3个创新点:
- 采用原生端到端架构实现语音信号到文本的直接映射,将指令响应速度提升4倍并降低系统复杂度,在嘈杂环境识别准确率提升20%以上。
- 首次在语音领域实现基于ICL的少样本泛化能力,无需大规模标注数据即可通过少量示例快速适配新任务,在复杂推理任务中超越OpenAI同类模型。
- 通过全链路开源提供从数据预处理到推理部署的完整工具链,以Apache 2.0协议授权彻底打破音频AI领域闭源垄断格局,上线首日获3000+开发者关注。
目前,小米已在Huggingface平台开源了该模型的预训练及指令微调版本,同时在Github平台开放Tokenizer模型代码。这种开放策略将大幅降低语音大模型的应用门槛,使中小企业无需构建专用数据集,就能快速开发定制化音频应用。例如在智能家居、车载语音交互等实际应用场景,可以预见的是,基于Xiaomi-MiMo-Audio的语音大模型将会显著提升人机语音交互体验,让你的『智能设备』“更懂人话”。