脑机启侦|“看”“听”“感”三模态协同，打造更智能的人机交流通道（08.02） #科技 #数据 #识别 #协同 #语音 #speech

在人类日常交流中，语音不仅仅是声音的产物，还伴随着丰富的视觉表情和面部肌肉动作。这种多通道的信息整合，是人类高效沟通的关键。那么，人工智能是否也能像人一样，通过“听声音”“看嘴型”“感肌肉”来识别人们的语音意图？

最新发表的一篇论文《AVE Speech: A Comprehensive Multimodal Dataset for Speech Recognition Integrating Audio, Visual, and Electromyographic Signals》正式发布了名为“AVE Speech”的多模态语音识别数据集。这一数据集整合了音频（Audio）、视觉（Visual）和肌电信号（Electromyographic, EMG），为多模态语音识别技术提供了新的突破口，也为脑机接口等领域的研究拓宽了数据基础。

为什么我们需要“AVE Speech”？

RESEARCH INTRODUCTION

当前，语音识别系统在多数场景中依赖单一的音频输入。但在嘈杂环境下，比如车站、工地或运动场，背景噪音往往干扰机器准确识别语音内容。为此，研究者们逐渐意识到引入更多通道的数据——如唇动、面部表情、甚至肌肉信号——或许能提升系统鲁棒性与准确率。

虽然过去已有一些多模态语音识别数据集尝试整合音频与视频信息，但极少涉及电生理信号，尤其是面部肌电（EMG）。而这正是“AVE Speech”项目的突破点之一：将来自面部表层肌肉的电信号纳入语言识别范畴，使AI能在“看不到”“听不到”时，依旧能“感觉到”你在说什么。

采集、标注、融合，一体化构建三模态数据

RESEARCH METHOD

数据集的参与者为100名成年普通话母语者，其中女性♀️29名、男性♂️71名，年龄分布在18-40岁区间，平均年龄为26.68岁。本研究已通过大学伦理委员会审批，所有参与者均签署知情同意书。

在安静、光线良好的室内环境中完成全部数据采集工作。受试者佩戴指定设备，并通过交互界面接收朗读指令，随后启动采集流程。每轮录制包括101个句子（其中包含1条空白句），每句需在2秒内读完，并尽可能减少摇头、咳嗽等干扰动作。每位受试者需完成10轮，每朗读20句可暂停5秒，整轮结束后可按个人状态调整休息时间，单人总时长约为1小时。为消除因固定顺序或熟练度引起的偏差，每轮句子顺序均进行随机打乱。

数据采集系统概述，包括硬件设备和记录接口。

数据采集所用设备及参数配置如下：

音频数据：通过头戴式麦克风进行采集，音频信号以44.1kHz的采样率记录，确保语音清晰且细节丰富。

视频数据：使用RGB相机📷️对发音过程中的唇部区域进行拍摄，帧率设为每秒30帧。相机📷️通过3D打印支架进行固定与角度调节，视频图像采集区域为位于画面中心的640×360像素边界框。

肌电数据：面部和颈部肌电信号由NSW308M双极肌电系统采集，设置为六通道录制，采样频率为1000Hz。电极贴附于颏肌、笑肌等关键部位，参考电极置于锁骨，整个录制过程中电极阻抗控制在10kΩ以下。

上述三类模态数据针对同一句话同步录制，分别对应语音波形、唇动视频序列与六通道肌电信号，为多模态语音识别研究提供高质量数据支撑。

重新定义人机“对话”的边界

RESEARCH INTRODUCTION

在后续测试中，研究者使用基准神经网络模型对三模态数据进行了对比分析。他们发现：

①在噪声环境中，传统语音识别系统准确率明显下降，而引入视觉与肌电信号后，系统的稳健性显著提升；

②EMG信号对口型与发音动作变化具有高度敏感性，在“安静但口动”的语境下依然可用于识别发音；

③三模态融合模型（A+V+E）在准确率和鲁棒性上均优于任意单模态或双模态系统。

这一成果的发布，不仅仅是一个数据集的问世，更是对“人类语言多维本质”的再认识。在人机交互、辅助通信、无声语音控制，乃至未来的脑机接口系统中，多模态数据将成为AI“理解人”的关键钥匙。

尤其在脑机接口领域，当前不少研究试图通过读取神经或肌肉信号，实现“意念说话”或“无声沟通”。而“AVE Speech”提供的EMG信号，为这一目标的实现提供了接近现实的基础训练材料。

新闻来源：arXiv

论文参考：DOI: 10.1109/THMS.2025.3585165

脑机启侦|“看”“听”“感”三模态协同，打造更智能的人机交流通道（08.02）

猜你喜欢

德不配位必有余殃！这一次再多的名和利，也救不了自毁前程的『金星』(德不配位必有灾殃原文出处)

恨铁不成钢！辛芷蕾拿威尼斯影后，却连累『章子怡』和『周迅』被追着骂(狠铁不成钢是什么意思呢)

心疼79岁王奎荣，一头白发，还要与小37岁娇妻一起，抚养年幼子女(王奎荣夫人)

塑料降解非常难，科学家早已发现吃塑料的虫子，为啥不大量养殖虫子处理废塑料呢？(塑料降解后会变成什么)

台州：从东海之滨起飞的“空中生态圈”(台州东海在哪里)