成果速递 | 紫东太初联合长城汽车开源OpenS2S: 完全透明开源的端到端共情语音语言大模型

成果速递 | 紫东太初联合长城汽车开源OpenS2S: 完全透明开源的端到端共情语音语言大模型

GPT-4o、Gemini等大模型展现出卓越的语音共情对话能力,其情感与智能的协同发展不断推动通用人工智能(AGI)的前沿进展。然而,这些模型虽然具备强大的能力,但由于其技术体系完全闭源,极大地限制了学术界和产业界对于情智兼备大模型,尤其是共情交互能力的深入研究与持续创新。过去一年,学术界与工业界相继提出了多种语音共情交互(Empathetic Interaction)的方法,其中部分工作发布了技术报告,开放了模型参数,或开源了微调代码,为推动语音共情交互技术的发展发挥了重要作用。然而,从“可完全复现”的角度来看,当前的开源仍然有限,尚无法让研究者全面了解这些模型是如何被逐步构建与训练成功的。

为了追求极致的开源开放,紫东太初团队联合长城汽车AI Lab,提出了OpenS2S——一个完全透明开源的端到端共情语音语言大模型,旨在推动共情语音交互领域的开放研究与技术创新。

OpenS2S的核心在于提供一个高效、低成本构建共情语音系统的新范式。它不仅继承了团队在语音到文本共情模型BLSP-Emo上的技术积累,更引入了流式交错解码架构,实现了低延迟的实时语音生成。OpenS2S提出自动化数据生成方法,结合大语言模型与可控文本到语音生成技术,构建多说话者、多情感的高质量共情语音训练语料。最为重要的是,我们开源了构建OpenS2S所需的所有资源,包括:训练与微调数据集数据构建代码模型权重以及预训练和微调代码,致力于赋能更广泛的研究社区,推动共情语音系统领域的创新与发展。

表1 语音语言大模型的开源程度

1. 模型的构建与训练

OpenS2S 基于先进的框架构建了高效的端到端语音到语音共情对话模型,并使用高质量数据进行训练。该模型能够为人类与人工智能提供更便捷、更自然的交互方式。

2. 共情语音指令数据集的自动化构建

OpenS2S提出了一种自动化的数据增强方法,融合了大语言模型(LLMs)与文本到语音(TTS)技术的优势,专为共情语音对话而设计。借助LLMs生成丰富多样的用户提问与共情回应,再通过语音克隆技术确保说话者身份的多样性。更重要的是,该技术实现了对语音情感表达的精准控制,使得我们能够以极低的人力成本,构建出内容丰富、高质量的训练数据集,为共情语音系统的发展注入强大动力。

3. 全面开源发布

为促进学术合作与推动共情大规模语音语言模型(LSLMs)领域的快速创新,OpenS2S完整开源了所有核心资源。包括模型权重、数据集构建代码、预训练与微调代码、评估工具及合成数据集,致力于为研究社区提供完全透明、可复现的研究基础,助力共情语音技术的持续突破。

OpenS2S 采用模块化设计,包含四大核心组件:

  • 音频编码器:基于Qwen2-Audio编码器,高效提取音频波形中的语义与非语言特征。
  • 指令遵循大语言模型(LLM):选用Qwen3-8B-Instruct,发挥其强大的文本理解与处理能力,实现精准指令解析。
  • 流式语音解码器:借鉴Minmo与LLaMA-Omni2,采用监督语义语音分词器将语音响应离散化为token,随后通过自回归文本到语音模型生成连续语音token,实现低延迟流式生成。
  • Token2Wav解码器:将生成的语音token转换为最终语音波形,分块感知因果流匹配模型及HiFi-GAN声码器均采用 GLM-4-Voice 中的预训练组件,保证语音质量自然流畅。

图1 OpenS2S架构示意图

数据构建过程包括:首先,利用强大的LLMs生成多样化且富有共情色彩的用户查询及其对应的回应,确保了对话内容的丰富性和真实性。接着,通过引入语音克隆技术,进一步丰富了数据集的语音多样性,使其能够模拟不同说话者的声音。更进一步,借助InstructTTS技术,模型能够对语音回应中的情感表达进行精确控制,使合成的语音不仅语义连贯,更能在情感层面自然地传递共情。通过这一自动化流程,OpenS2S实现了以极低的成本合成出大量高质量、具备语言多样性的共情语音对话数据,并且仅需少量人工监督,从而为模型学习富有共情的人机交互提供了坚实且可扩展的训练基础。

图2 共情语音指令数据集构建的自动化流程

训练流程分为三阶段:语音理解预训练、语音生成预训练及共情语音指令微调,全面提升模型对语音语义和非语言线索的感知能力,最终实现自然且富有共情的语音响应生成。

图3 OpenS2S训练过程示意图

端到端语音到语音共情交互相对难以评测,我们按照两阶段的方式,先进行语音到文本的评测,再展示语音到语音的共情交互样例。

语音到文本评测能够验证模型的语音指令遵循能力、语义和情感理解能力。在语音到文本的交互能力评估中,OpenS2S在VoiceBench的四个子集上取得了优异成绩,其表现仅次于Kimi-Audio(基于超大规模语音数据训练),优于其他所有模型。这表明OpenS2S拥有强大的语音交互能力,能够高效理解用户的语音指令输入。此外,在URO-Bench的共情评估子集上,尽管训练数据量远少于现有最先进模型,OpenS2S依然取得了很好的表现。这不仅验证了OpenS2S的共情交互能力,也充分体现了其创新共情语音对话数据生成方法的高质量和有效性。

表2 OpenS2S与其他模型在语音到文本交互基准测试中的性能对比

https://casia-lm.github.io/OpenS2S上,我们展示了若干语音到语音的共情对话样例。从例子中,我们可以深切感受到模型对于用户的精准理解和共情能力。

OpenS2S的推出,开创了大模型共情语音对话能力构建的高效且透明的新路径。凭借自动化数据构建流程与先进模型架构,OpenS2S在多语言、多任务场景中展现了优秀性能。这一突破不仅推动了共情语音语言大模型的发展,更为构建智能化、富有人情味的AI交互系统奠定了坚实的技术基础与研究范式。

论文标题:OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model

论文地址:https://arxiv.org/pdf/2507.05177

Demo样例地址:https://casia-lm.github.io/OpenS2S

代码地址:https://github.com/CASIA-LM/OpenS2S

数据地址:https://huggingface.co/datasets/CASIA-LM/OpenS2S_Datasets

模型地址:https://huggingface.co/CASIA-LM/OpenS2S

猜你喜欢

GB T 33822-2025 纳米磷酸铁锂

如需源文件学习 可关注化工365公众号后台留言“”…

GB T 33822-2025 纳米磷酸铁锂

戚薇一家曼谷出游,李承铉陪lucky热聊,2岁儿子造型吸睛

更重要的是,这孩子似乎也遗传了父母的时尚基因,穿衣打扮颇有品味。 戚薇和李承铉,这对跨国夫妻,结婚多年,一直恩爱如初,也算是娱乐圈的模范夫妻了。 与其羡慕明星的光鲜亮丽,不如珍惜眼前的生活,用心经营自己的家庭…

戚薇一家曼谷出游,李承铉陪lucky热聊,2岁儿子造型吸睛

自学摄影需要多久?重庆树莓摄影学校新手小白速成技巧

摄影技术的提升是一个持续的过程,而审美和个人风格的形成则更为漫长,需要不断拍摄、阅片、思考和若追求专业水准或独特艺术表达,1年以上是起点,精进无止境。 快速入门掌握基本技巧可能只需数月,但要达到较高水平并形…

自学摄影需要多久?重庆树莓摄影学校新手小白速成技巧

李光洁留长发竟这么合适,帅而不娘,说的便是他们这样的

这种认知局限却并不意味着长发男子注定只是个异类,反倒是演艺圈中,部分男性演员的长发造型往往能给人一种新鲜的力量,让人一眼记住,而这种反差正是不可忽视的亮点。在《少年歌行》中,他凭借雷无桀一角崭露头角,而在《七…

李光洁留长发竟这么合适,帅而不娘,说的便是他们这样的

巴黎世家天价“一分裤”曝光,穿上秒变街头焦点,敢挑战你的街头风格吗?

这条裤子几乎就是把裤子最上边裁了个小片,裤脚根本没有,仿佛是悬挂在衣架上的一片布。 更让人哭笑不得的是,巴黎世家官方还公布了这条裤子的搭配方法——必须叠穿,换句话说,你要花费更多的钱买多层裤子,才能“穿出”这…

巴黎世家天价“一分裤”曝光,穿上秒变街头焦点,敢挑战你的街头风格吗?