成果速递 | 紫东太初联合长城汽车开源OpenS2S: 完全透明开源的端到端共情语音语言大模型

GPT-4o、Gemini等大模型展现出卓越的语音共情对话能力,其情感与智能的协同发展不断推动通用人工智能(AGI)的前沿进展。然而,这些模型虽然具备强大的能力,但由于其技术体系完全闭源,极大地限制了学术界和产业界对于情智兼备大模型,尤其是共情交互能力的深入研究与持续创新。过去一年,学术界与工业界相继提出了多种语音共情交互(Empathetic Interaction)的方法,其中部分工作发布了技术报告,开放了模型参数,或开源了微调代码,为推动语音共情交互技术的发展发挥了重要作用。然而,从“可完全复现”的角度来看,当前的开源仍然有限,尚无法让研究者全面了解这些模型是如何被逐步构建与训练成功的。

为了追求极致的开源开放,紫东太初团队联合长城汽车AI Lab,提出了OpenS2S——一个完全透明开源的端到端共情语音语言大模型,旨在推动共情语音交互领域的开放研究与技术创新。

今日霍州(www.jrhz.info)©️

OpenS2S的核心在于提供一个高效、低成本构建共情语音系统的新范式。它不仅继承了团队在语音到文本共情模型BLSP-Emo上的技术积累,更引入了流式交错解码架构,实现了低延迟的实时语音生成。OpenS2S提出自动化数据生成方法,结合『大语言模型』与可控文本到语音生成技术,构建多说话者、多情感的高质量共情语音训练语料。最为重要的是,我们开源了构建OpenS2S所需的所有资源,包括:训练与微调数据集数据构建代码模型权重以及预训练和微调代码,致力于赋能更广泛的研究社区,推动共情语音系统领域的创新与发展。

表1 语音语言大模型的开源程度

今日霍州(www.jrhz.info)©️

1. 模型的构建与训练

OpenS2S 基于先进的框架构建了高效的端到端语音到语音共情对话模型,并使用高质量数据进行训练。该模型能够为人类与人工智能提供更便捷、更自然的交互方式。

2. 共情语音指令数据集的自动化构建

OpenS2S提出了一种自动化的数据增强方法,融合了『大语言模型』(LLMs)与文本到语音(TTS)技术的优势,专为共情语音对话而设计。借助LLMs生成丰富多样的用户提问与共情回应,再通过语音克隆技术确保说话者身份的多样性。更重要的是,该技术实现了对语音情感表达的精准控制,使得我们能够以极低的人力成本,构建出内容丰富、高质量的训练数据集,为共情语音系统的发展注入强大动力。

3. 全面开源发布

为促进学术合作与推动共情大规模语音语言模型(LSLMs)领域的快速创新,OpenS2S完整开源了所有核心资源。包括模型权重、数据集构建代码、预训练与微调代码、评估工具及合成数据集,致力于为研究社区提供完全透明、可复现的研究基础,助力共情语音技术的持续突破。

今日霍州(www.jrhz.info)©️

OpenS2S 采用模块化设计,包含四大核心组件:

  • 音频编码器:基于Qwen2-Audio编码器,高效提取音频波形中的语义与非语言特征。
  • 指令遵循『大语言模型』(LLM):选用Qwen3-8B-Instruct,发挥其强大的文本理解与处理能力,实现精准指令解析。
  • 流式语音解码器:借鉴Minmo与LLaMA-Omni2,采用监督语义语音分词器将语音响应离散化为token,随后通过自回归文本到语音模型生成连续语音token,实现低延迟流式生成。
  • Token2Wav解码器:将生成的语音token转换为最终语音波形,分块感知因果流匹配模型及HiFi-GAN声码器均采用 GLM-4-Voice 中的预训练组件,保证语音质量自然流畅。

图1 OpenS2S架构示意图

数据构建过程包括:首先,利用强大的LLMs生成多样化且富有共情色彩的用户查询及其对应的回应,确保了对话内容的丰富性和真实性。接着,通过引入语音克隆技术,进一步丰富了数据集的语音多样性,使其能够模拟不同说话者的声音。更进一步,借助InstructTTS技术,模型能够对语音回应中的情感表达进行精确控制,使合成的语音不仅语义连贯,更能在情感层面自然地传递共情。通过这一自动化流程,OpenS2S实现了以极低的成本合成出大量高质量、具备语言多样性的共情语音对话数据,并且仅需少量人工监督,从而为模型学习富有共情的人机交互提供了坚实且可扩展的训练基础。

图2 共情语音指令数据集构建的自动化流程

训练流程分为三阶段:语音理解预训练、语音生成预训练及共情语音指令微调,全面提升模型对语音语义和非语言线索的感知能力,最终实现自然且富有共情的语音响应生成。

图3 OpenS2S训练过程示意图

今日霍州(www.jrhz.info)©️

端到端语音到语音共情交互相对难以评测,我们按照两阶段的方式,先进行语音到文本的评测,再展示语音到语音的共情交互样例。

语音到文本评测能够验证模型的语音指令遵循能力、语义和情感理解能力。在语音到文本的交互能力评估中,OpenS2S在VoiceBench的四个子集上取得了优异成绩,其表现仅次于Kimi-Audio(基于超大规模语音数据训练),优于其他所有模型。这表明OpenS2S拥有强大的语音交互能力,能够高效理解用户的语音指令输入。此外,在URO-Bench的共情评估子集上,尽管训练数据量远少于现有最先进模型,OpenS2S依然取得了很好的表现。这不仅验证了OpenS2S的共情交互能力,也充分体现了其创新共情语音对话数据生成方法的高质量和有效性。

表2 OpenS2S与其他模型在语音到文本交互基准测试中的性能对比

https://casia-lm.github.io/OpenS2S上,我们展示了若干语音到语音的共情对话样例。从例子中,我们可以深切感受到模型对于用户的精准理解和共情能力。

OpenS2S的推出,开创了大模型共情语音对话能力构建的高效且透明的新路径。凭借自动化数据构建流程与先进模型架构,OpenS2S在多语言、多任务场景中展现了优秀性能。这一突破不仅推动了共情语音语言大模型的发展,更为构建智能化、富有人情味的AI交互系统奠定了坚实的技术基础与研究范式。

论文标题:OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model

论文地址:https://arxiv.org/pdf/2507.05177

Demo样例地址:https://casia-lm.github.io/OpenS2S

代码地址:https://github.com/CASIA-LM/OpenS2S

数据地址:https://huggingface.co/datasets/CASIA-LM/OpenS2S_Datasets

模型地址:https://huggingface.co/CASIA-LM/OpenS2S

特别声明:[成果速递 | 紫东太初联合长城汽车开源OpenS2S: 完全透明开源的端到端共情语音语言大模型] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『古力娜扎』也拍谍战剧了,欧豪是男主,冯绍峰演反派,看点太足了!(『古力娜扎』也拍过戏吗)

冯绍峰首次在谍战剧中饰演反派,作为中生代男演员的佼佼者,他的颜值和演技都极具竞争力。剧中冯绍峰留着胡子、穿着经典特工造型,眼神凌厉,行事果决,塑造了一个让人不寒而栗的反派形象,如果不事先知道欧豪是男主,冯绍峰…

『古力娜扎』也拍谍战剧了,欧豪是男主,冯绍峰演反派,看点太足了!(『古力娜扎』也拍过戏吗)

姥姥的饺子馆剧组再聚首,陈小艺57岁状态随性,魏小军站边显风度(姥姥的饺子馆在线观看)

57岁的陈小艺出现在聚会现场时,穿着简单的卫衣,几乎没有化妆,脸上看起来非常自然,显得轻松自在。她在和一群老朋友交谈时非常放松,和大家的互动也非常亲切,依然展现出多年来未曾改变的亲和力。这次重聚不仅勾起…

姥姥的饺子馆剧组再聚首,陈小艺57岁状态随性,魏小军站边显风度(姥姥的饺子馆在线观看)

男子疑妻子出轨编理由在酒店调取监控 酒店泄露妻子视频险致夫妻离婚(男子疑妻子出轨杀妻未遂,妻子谅解:他是经济来源)

“瑞安国际寨寮溪酒店监控随便给人看?我隐私被泄。”浙江瑞安的魏女士在网上发帖称,自己在该酒店内部路上走被监控拍下,酒店将她的视频发给他人,她已报警并向法院起诉。1月2日,魏女士告诉红星新闻记者,因酒店非法给她老公吴先生提供监控视频,导致丈夫

男子疑妻子出轨编理由在酒店调取监控 酒店泄露妻子视频险致夫妻离婚(男子疑妻子出轨杀妻未遂,妻子谅解:他是经济来源)

评论区亮了丨“信用”正在湖南转化为实实在在的便利与红利

来源:红网 作者:海报突击队 编辑:廖轩仪 本文为 湖南频道 原创文章,转载请附上原文出处链接和本声明。 本文链接: https:hn.rednet.cncontent6460459815598…

评论区亮了丨“信用”正在湖南转化为实实在在的便利与红利

田朴珺搂腰合影疯传,社交场上的身体成了通行证,独立人设塌房(田朴珺的脖子)

在中国的社交场合中,女性♀️之间的肢体接触是相当常见的,像是搂肩、靠近身体等,往往被视作拉近关系的方式,在私下场合大家也都习以为常。有人注意到,去年年底他曾与一位曾与田朴珺合影的地产老板一同吃饭,两人聊得十分愉快…

田朴珺搂腰合影疯传,社交场上的身体成了通行证,独立人设塌房(田朴珺的脖子)