在人类日常交流中,语音不仅仅是声音的产物,还伴随着丰富的视觉表情和面部肌肉动作。这种多通道的信息整合,是人类高效沟通的关键。那么,人工智能是否也能像人一样,通过“听声音”“看嘴型”“感肌肉”来识别人们的语音意图?
最新发表的一篇论文《AVE Speech: A Comprehensive Multimodal Dataset for Speech Recognition Integrating Audio, Visual, and Electromyographic Signals》正式发布了名为“AVE Speech”的多模态语音识别数据集。这一数据集整合了音频(Audio)、视觉(Visual)和肌电信号(Electromyographic, EMG),为多模态语音识别技术提供了新的突破口,也为脑机接口等领域的研究拓宽了数据基础。
为什么我们需要“AVE Speech”?
RESEARCH INTRODUCTION
当前,语音识别系统在多数场景中依赖单一的音频输入。但在嘈杂环境下,比如车站、工地或运动场,背景噪音往往干扰机器准确识别语音内容。为此,研究者们逐渐意识到引入更多通道的数据——如唇动、面部表情、甚至肌肉信号——或许能提升系统鲁棒性与准确率。
虽然过去已有一些多模态语音识别数据集尝试整合音频与视频信息,但极少涉及电生理信号,尤其是面部肌电(EMG)。而这正是“AVE Speech”项目的突破点之一:将来自面部表层肌肉的电信号纳入语言识别范畴,使AI能在“看不到”“听不到”时,依旧能“感觉到”你在说什么。
采集、标注、融合,一体化构建三模态数据
RESEARCH METHOD
数据集的参与者为100名成年普通话母语者,其中女性29名、男性71名,年龄分布在18-40岁区间,平均年龄为26.68岁。本研究已通过大学伦理委员会审批,所有参与者均签署知情同意书。
在安静、光线良好的室内环境中完成全部数据采集工作。受试者佩戴指定设备,并通过交互界面接收朗读指令,随后启动采集流程。每轮录制包括101个句子(其中包含1条空白句),每句需在2秒内读完,并尽可能减少摇头、咳嗽等干扰动作。每位受试者需完成10轮,每朗读20句可暂停5秒,整轮结束后可按个人状态调整休息时间,单人总时长约为1小时。为消除因固定顺序或熟练度引起的偏差,每轮句子顺序均进行随机打乱。
数据采集系统概述,包括硬件设备和记录接口。
数据采集所用设备及参数配置如下:
音频数据:通过头戴式麦克风进行采集,音频信号以44.1kHz的采样率记录,确保语音清晰且细节丰富。
视频数据:使用RGB相机对发音过程中的唇部区域进行拍摄,帧率设为每秒30帧。相机通过3D打印支架进行固定与角度调节,视频图像采集区域为位于画面中心的640×360像素边界框。
肌电数据:面部和颈部肌电信号由NSW308M双极肌电系统采集,设置为六通道录制,采样频率为1000Hz。电极贴附于颏肌、笑肌等关键部位,参考电极置于锁骨,整个录制过程中电极阻抗控制在10kΩ以下。
上述三类模态数据针对同一句话同步录制,分别对应语音波形、唇动视频序列与六通道肌电信号,为多模态语音识别研究提供高质量数据支撑。
重新定义人机“对话”的边界
RESEARCH INTRODUCTION
在后续测试中,研究者使用基准神经网络模型对三模态数据进行了对比分析。他们发现:
①在噪声环境中,传统语音识别系统准确率明显下降,而引入视觉与肌电信号后,系统的稳健性显著提升;
②EMG信号对口型与发音动作变化具有高度敏感性,在“安静但口动”的语境下依然可用于识别发音;
③三模态融合模型(A+V+E)在准确率和鲁棒性上均优于任意单模态或双模态系统。
这一成果的发布,不仅仅是一个数据集的问世,更是对“人类语言多维本质”的再认识。在人机交互、辅助通信、无声语音控制,乃至未来的脑机接口系统中,多模态数据将成为AI“理解人”的关键钥匙。
尤其在脑机接口领域,当前不少研究试图通过读取神经或肌肉信号,实现“意念说话”或“无声沟通”。而“AVE Speech”提供的EMG信号,为这一目标的实现提供了接近现实的基础训练材料。
新闻来源:arXiv
论文参考:DOI: 10.1109/THMS.2025.3585165