成果速递 | 紫东太初联合长城汽车开源OpenS2S: 完全透明开源的端到端共情语音语言大模型

成果速递 | 紫东太初联合长城汽车开源OpenS2S: 完全透明开源的端到端共情语音语言大模型

GPT-4o、Gemini等大模型展现出卓越的语音共情对话能力,其情感与智能的协同发展不断推动通用人工智能(AGI)的前沿进展。然而,这些模型虽然具备强大的能力,但由于其技术体系完全闭源,极大地限制了学术界和产业界对于情智兼备大模型,尤其是共情交互能力的深入研究与持续创新。过去一年,学术界与工业界相继提出了多种语音共情交互(Empathetic Interaction)的方法,其中部分工作发布了技术报告,开放了模型参数,或开源了微调代码,为推动语音共情交互技术的发展发挥了重要作用。然而,从“可完全复现”的角度来看,当前的开源仍然有限,尚无法让研究者全面了解这些模型是如何被逐步构建与训练成功的。

为了追求极致的开源开放,紫东太初团队联合长城汽车AI Lab,提出了OpenS2S——一个完全透明开源的端到端共情语音语言大模型,旨在推动共情语音交互领域的开放研究与技术创新。

OpenS2S的核心在于提供一个高效、低成本构建共情语音系统的新范式。它不仅继承了团队在语音到文本共情模型BLSP-Emo上的技术积累,更引入了流式交错解码架构,实现了低延迟的实时语音生成。OpenS2S提出自动化数据生成方法,结合『大语言模型』与可控文本到语音生成技术,构建多说话者、多情感的高质量共情语音训练语料。最为重要的是,我们开源了构建OpenS2S所需的所有资源,包括:训练与微调数据集数据构建代码模型权重以及预训练和微调代码,致力于赋能更广泛的研究社区,推动共情语音系统领域的创新与发展。

表1 语音语言大模型的开源程度

1. 模型的构建与训练

OpenS2S 基于先进的框架构建了高效的端到端语音到语音共情对话模型,并使用高质量数据进行训练。该模型能够为人类与人工智能提供更便捷、更自然的交互方式。

2. 共情语音指令数据集的自动化构建

OpenS2S提出了一种自动化的数据增强方法,融合了『大语言模型』(LLMs)与文本到语音(TTS)技术的优势,专为共情语音对话而设计。借助LLMs生成丰富多样的用户提问与共情回应,再通过语音克隆技术确保说话者身份的多样性。更重要的是,该技术实现了对语音情感表达的精准控制,使得我们能够以极低的人力成本,构建出内容丰富、高质量的训练数据集,为共情语音系统的发展注入强大动力。

3. 全面开源发布

为促进学术合作与推动共情大规模语音语言模型(LSLMs)领域的快速创新,OpenS2S完整开源了所有核心资源。包括模型权重、数据集构建代码、预训练与微调代码、评估工具及合成数据集,致力于为研究社区提供完全透明、可复现的研究基础,助力共情语音技术的持续突破。

OpenS2S 采用模块化设计,包含四大核心组件:

  • 音频编码器:基于Qwen2-Audio编码器,高效提取音频波形中的语义与非语言特征。
  • 指令遵循『大语言模型』(LLM):选用Qwen3-8B-Instruct,发挥其强大的文本理解与处理能力,实现精准指令解析。
  • 流式语音解码器:借鉴Minmo与LLaMA-Omni2,采用监督语义语音分词器将语音响应离散化为token,随后通过自回归文本到语音模型生成连续语音token,实现低延迟流式生成。
  • Token2Wav解码器:将生成的语音token转换为最终语音波形,分块感知因果流匹配模型及HiFi-GAN声码器均采用 GLM-4-Voice 中的预训练组件,保证语音质量自然流畅。

图1 OpenS2S架构示意图

数据构建过程包括:首先,利用强大的LLMs生成多样化且富有共情色彩的用户查询及其对应的回应,确保了对话内容的丰富性和真实性。接着,通过引入语音克隆技术,进一步丰富了数据集的语音多样性,使其能够模拟不同说话者的声音。更进一步,借助InstructTTS技术,模型能够对语音回应中的情感表达进行精确控制,使合成的语音不仅语义连贯,更能在情感层面自然地传递共情。通过这一自动化流程,OpenS2S实现了以极低的成本合成出大量高质量、具备语言多样性的共情语音对话数据,并且仅需少量人工监督,从而为模型学习富有共情的人机交互提供了坚实且可扩展的训练基础。

图2 共情语音指令数据集构建的自动化流程

训练流程分为三阶段:语音理解预训练、语音生成预训练及共情语音指令微调,全面提升模型对语音语义和非语言线索的感知能力,最终实现自然且富有共情的语音响应生成。

图3 OpenS2S训练过程示意图

端到端语音到语音共情交互相对难以评测,我们按照两阶段的方式,先进行语音到文本的评测,再展示语音到语音的共情交互样例。

语音到文本评测能够验证模型的语音指令遵循能力、语义和情感理解能力。在语音到文本的交互能力评估中,OpenS2S在VoiceBench的四个子集上取得了优异成绩,其表现仅次于Kimi-Audio(基于超大规模语音数据训练),优于其他所有模型。这表明OpenS2S拥有强大的语音交互能力,能够高效理解用户的语音指令输入。此外,在URO-Bench的共情评估子集上,尽管训练数据量远少于现有最先进模型,OpenS2S依然取得了很好的表现。这不仅验证了OpenS2S的共情交互能力,也充分体现了其创新共情语音对话数据生成方法的高质量和有效性。

表2 OpenS2S与其他模型在语音到文本交互基准测试中的性能对比

https://casia-lm.github.io/OpenS2S上,我们展示了若干语音到语音的共情对话样例。从例子中,我们可以深切感受到模型对于用户的精准理解和共情能力。

OpenS2S的推出,开创了大模型共情语音对话能力构建的高效且透明的新路径。凭借自动化数据构建流程与先进模型架构,OpenS2S在多语言、多任务场景中展现了优秀性能。这一突破不仅推动了共情语音语言大模型的发展,更为构建智能化、富有人情味的AI交互系统奠定了坚实的技术基础与研究范式。

论文标题:OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model

论文地址:https://arxiv.org/pdf/2507.05177

Demo样例地址:https://casia-lm.github.io/OpenS2S

代码地址:https://github.com/CASIA-LM/OpenS2S

数据地址:https://huggingface.co/datasets/CASIA-LM/OpenS2S_Datasets

模型地址:https://huggingface.co/CASIA-LM/OpenS2S

特别声明:[成果速递 | 紫东太初联合长城汽车开源OpenS2S: 完全透明开源的端到端共情语音语言大模型] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

油封密封圈规格型号表详解(油封圈作用)

在工业机械设备、机械臂以及工业『机器人』️中,油封密封圈能维持设备的密封性,提升设备的可靠性和稳定性。 常见油封密封圈规格型号TC骨架油封系列TC骨架油封具有良好的密封性能和耐磨性,适用于多种工况。此外,凭借30多…

油封密封圈规格型号表详解(油封圈作用)

古墓荒斋:17岁『周迅』的处女作,傅艺伟的颜值巅峰,更胜妲己(古墓荒斋四个故事)

在古墓荒斋中,邢敏山诠释了一个为爱痴狂的书生形象,与傅艺伟饰演的连锁产生了奇妙的化学反应,为这个凄美的爱情故事增添了不少感染力。 从傅艺伟的倾城之姿到『周迅』的清新脱俗,从邢敏山的痴情书生到胡天鸽和陈莎莎的古典气…

古墓荒斋:17岁『周迅』的处女作,傅艺伟的颜值巅峰,更胜妲己(古墓荒斋四个故事)

红碟绽放:传统与现代交融的喜庆餐桌艺术(红碟改版)

婚礼上的红碟果盘不仅承载着美食,更是一种视觉与文化体验的结合。它们如何融入传统婚礼仪式?高档加厚红碟究竟蕴含了哪些设计巧思?本文将为你揭示这个看似平凡却意义非凡的物品背后的奥秘。

红碟绽放:传统与现代交融的喜庆餐桌艺术(红碟改版)

广东防风应急响应提升为Ⅰ级!台风“麦德姆”最新登陆时间地点→(广东防风应急响应提升)

今年第21号台风“麦德姆”已于5日早晨5时由台风级加强为强台风级,其中心位于广东省湛江市徐闻县东偏南方向大约230公里的南海西北部海面上,中心附近最大风力有14级(42米秒)。受“麦德姆”影响, 5日—…

广东防风应急响应提升为Ⅰ级!台风“麦德姆”最新登陆时间地点→(广东防风应急响应提升)

脚踝守护者:多功能运动保护绷带的革新(有什么保护脚踝的护具吗?)

脚踝扭伤和损伤是运动员最常见的困扰之一。本文将深入探讨一种多功能的运动保护装备——白贴布打脚绷带,它是如何在篮球、足球等高强度对抗运动中保护运动员的关键?其背后的科技原理与应用场景又有哪些?如何挑选适合自己的产品?了解这些,将帮助您更好地保

脚踝守护者:多功能运动保护绷带的革新(有什么保护脚踝的护具吗?)