脑机启侦|“看”“听”“感”三模态协同,打造更智能的人机交流通道(08.02)

脑机启侦|“看”“听”“感”三模态协同,打造更智能的人机交流通道(08.02)

在人类日常交流中,语音不仅仅是声音的产物,还伴随着丰富的视觉表情和面部肌肉动作。这种多通道的信息整合,是人类高效沟通的关键。那么,人工智能是否也能像人一样,通过“听声音”“看嘴型”“感肌肉”来识别人们的语音意图?

最新发表的一篇论文《AVE Speech: A Comprehensive Multimodal Dataset for Speech Recognition Integrating Audio, Visual, and Electromyographic Signals》正式发布了名为“AVE Speech”的多模态语音识别数据集。这一数据集整合了音频(Audio)、视觉(Visual)和肌电信号(Electromyographic, EMG),为多模态语音识别技术提供了新的突破口,也为脑机接口等领域的研究拓宽了数据基础。

为什么我们需要“AVE Speech”?

RESEARCH INTRODUCTION

当前,语音识别系统在多数场景中依赖单一的音频输入。但在嘈杂环境下,比如车站、工地或运动场,背景噪音往往干扰机器准确识别语音内容。为此,研究者们逐渐意识到引入更多通道的数据——如唇动、面部表情、甚至肌肉信号——或许能提升系统鲁棒性与准确率。

虽然过去已有一些多模态语音识别数据集尝试整合音频与视频信息,但极少涉及电生理信号,尤其是面部肌电(EMG)。而这正是“AVE Speech”项目的突破点之一:将来自面部表层肌肉的电信号纳入语言识别范畴,使AI能在“看不到”“听不到”时,依旧能“感觉到”你在说什么。

采集、标注、融合,一体化构建三模态数据

RESEARCH METHOD

数据集的参与者为100名成年普通话母语者,其中女性♀️29名、男性♂️71名,年龄分布在18-40岁区间,平均年龄为26.68岁。本研究已通过大学伦理委员会审批,所有参与者均签署知情同意书。

在安静、光线良好的室内环境中完成全部数据采集工作。受试者佩戴指定设备,并通过交互界面接收朗读指令,随后启动采集流程。每轮录制包括101个句子(其中包含1条空白句),每句需在2秒内读完,并尽可能减少摇头、咳嗽等干扰动作。每位受试者需完成10轮,每朗读20句可暂停5秒,整轮结束后可按个人状态调整休息时间,单人总时长约为1小时。为消除因固定顺序或熟练度引起的偏差,每轮句子顺序均进行随机打乱。

数据采集系统概述,包括硬件设备和记录接口。

数据采集所用设备及参数配置如下:

音频数据:通过头戴式麦克风进行采集,音频信号以44.1kHz的采样率记录,确保语音清晰且细节丰富。

视频数据:使用RGB相机📷️对发音过程中的唇部区域进行拍摄,帧率设为每秒30帧。相机📷️通过3D打印支架进行固定与角度调节,视频图像采集区域为位于画面中心的640×360像素边界框。

肌电数据:面部和颈部肌电信号由NSW308M双极肌电系统采集,设置为六通道录制,采样频率为1000Hz。电极贴附于颏肌、笑肌等关键部位,参考电极置于锁骨,整个录制过程中电极阻抗控制在10kΩ以下。

上述三类模态数据针对同一句话同步录制,分别对应语音波形、唇动视频序列与六通道肌电信号,为多模态语音识别研究提供高质量数据支撑。

重新定义人机“对话”的边界

RESEARCH INTRODUCTION

在后续测试中,研究者使用基准神经网络模型对三模态数据进行了对比分析。他们发现:

①在噪声环境中,传统语音识别系统准确率明显下降,而引入视觉与肌电信号后,系统的稳健性显著提升;

②EMG信号对口型与发音动作变化具有高度敏感性,在“安静但口动”的语境下依然可用于识别发音;

③三模态融合模型(A+V+E)在准确率和鲁棒性上均优于任意单模态或双模态系统。

这一成果的发布,不仅仅是一个数据集的问世,更是对“人类语言多维本质”的再认识。在人机交互、辅助通信、无声语音控制,乃至未来的脑机接口系统中,多模态数据将成为AI“理解人”的关键钥匙。

尤其在脑机接口领域,当前不少研究试图通过读取神经或肌肉信号,实现“意念说话”或“无声沟通”。而“AVE Speech”提供的EMG信号,为这一目标的实现提供了接近现实的基础训练材料。

新闻来源:arXiv

论文参考:DOI: 10.1109/THMS.2025.3585165

特别声明:[脑机启侦|“看”“听”“感”三模态协同,打造更智能的人机交流通道(08.02)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

德不配位必有余殃!这一次再多的名和利,也救不了自毁前程的『金星』(德不配位必有灾殃原文出处)

当那面彩虹旗在太原剧院聚光灯下展开的瞬间,这位曾以毒舌著称的艺术家或许未曾料到,这个动作将成为她艺术生涯的分水岭。颇具讽刺意味的是,她早年痛斥"移民『明星』️不爱国"的片段,此刻正被网友制作成对比视频疯狂传播。

德不配位必有余殃!这一次再多的名和利,也救不了自毁前程的『金星』(德不配位必有灾殃原文出处)

恨铁不成钢!辛芷蕾拿威尼斯影后,却连累『章子怡』和『周迅』被追着骂(狠铁不成钢是什么意思呢)

某时尚编辑透露:"她从威尼斯回来的航班上,就有五家杂志敲定了封面拍摄。她在日挂中天里诠释的"美云",每个眼神都在诉说被时代裹挟的女性♀️的挣扎,这种表演厚度让国际评委们眼前一亮。 在演员的诞

恨铁不成钢!辛芷蕾拿威尼斯影后,却连累『章子怡』和『周迅』被追着骂(狠铁不成钢是什么意思呢)

心疼79岁王奎荣,一头白发,还要与小37岁娇妻一起,抚养年幼子女(王奎荣夫人)

『娱乐圈』️里的"爷孙恋"总能成为茶余饭后的谈资,但王奎荣和饶芯语这对夫妻的故事,却令人笑不出来。 现在这对夫妻有了个年幼的女儿,79岁的王奎荣既要拍戏养家,又要陪孩子成长。王奎荣用他的选择给出了答案,但这个答

心疼79岁王奎荣,一头白发,还要与小37岁娇妻一起,抚养年幼子女(王奎荣夫人)

塑料降解非常难,科学家早已发现吃塑料的虫子,为啥不大量养殖虫子处理废塑料呢?(塑料降解后会变成什么)

这消息一出,网上立马炸锅:既然虫子这么能吃,为啥不搞个“虫海战术”,让它们把全世界的塑料垃圾全啃光? 再说说环境风险,你可能觉得虫子能掀起啥风浪,可生态学里有个词叫“外来物种入侵”,讲的就是人为引入某种生物…

塑料降解非常难,科学家早已发现吃塑料的虫子,为啥不大量养殖虫子处理废塑料呢?(塑料降解后会变成什么)

台州:从东海之滨起飞的“空中生态圈”(台州东海在哪里)

“陆岛联动低空物流”项目即将开通大陈岛到椒江城区、台州湾新区的固定低空航线,以后从大陈岛飞到台州湾新区通用机场或台州海上客运中心,只要半小时。随着低空经济的深入发展,台州正以“敢为人先”的闯劲,在52公里的…

台州:从东海之滨起飞的“空中生态圈”(台州东海在哪里)