脑机启侦|“看”“听”“感”三模态协同,打造更智能的人机交流通道(08.02)

脑机启侦|“看”“听”“感”三模态协同,打造更智能的人机交流通道(08.02)

在人类日常交流中,语音不仅仅是声音的产物,还伴随着丰富的视觉表情和面部肌肉动作。这种多通道的信息整合,是人类高效沟通的关键。那么,人工智能是否也能像人一样,通过“听声音”“看嘴型”“感肌肉”来识别人们的语音意图?

最新发表的一篇论文《AVE Speech: A Comprehensive Multimodal Dataset for Speech Recognition Integrating Audio, Visual, and Electromyographic Signals》正式发布了名为“AVE Speech”的多模态语音识别数据集。这一数据集整合了音频(Audio)、视觉(Visual)和肌电信号(Electromyographic, EMG),为多模态语音识别技术提供了新的突破口,也为脑机接口等领域的研究拓宽了数据基础。

为什么我们需要“AVE Speech”?

RESEARCH INTRODUCTION

当前,语音识别系统在多数场景中依赖单一的音频输入。但在嘈杂环境下,比如车站、工地或运动场,背景噪音往往干扰机器准确识别语音内容。为此,研究者们逐渐意识到引入更多通道的数据——如唇动、面部表情、甚至肌肉信号——或许能提升系统鲁棒性与准确率。

虽然过去已有一些多模态语音识别数据集尝试整合音频与视频信息,但极少涉及电生理信号,尤其是面部肌电(EMG)。而这正是“AVE Speech”项目的突破点之一:将来自面部表层肌肉的电信号纳入语言识别范畴,使AI能在“看不到”“听不到”时,依旧能“感觉到”你在说什么。

采集、标注、融合,一体化构建三模态数据

RESEARCH METHOD

数据集的参与者为100名成年普通话母语者,其中女性29名、男性71名,年龄分布在18-40岁区间,平均年龄为26.68岁。本研究已通过大学伦理委员会审批,所有参与者均签署知情同意书。

在安静、光线良好的室内环境中完成全部数据采集工作。受试者佩戴指定设备,并通过交互界面接收朗读指令,随后启动采集流程。每轮录制包括101个句子(其中包含1条空白句),每句需在2秒内读完,并尽可能减少摇头、咳嗽等干扰动作。每位受试者需完成10轮,每朗读20句可暂停5秒,整轮结束后可按个人状态调整休息时间,单人总时长约为1小时。为消除因固定顺序或熟练度引起的偏差,每轮句子顺序均进行随机打乱。

数据采集系统概述,包括硬件设备和记录接口。

数据采集所用设备及参数配置如下:

音频数据:通过头戴式麦克风进行采集,音频信号以44.1kHz的采样率记录,确保语音清晰且细节丰富。

视频数据:使用RGB相机对发音过程中的唇部区域进行拍摄,帧率设为每秒30帧。相机通过3D打印支架进行固定与角度调节,视频图像采集区域为位于画面中心的640×360像素边界框。

肌电数据:面部和颈部肌电信号由NSW308M双极肌电系统采集,设置为六通道录制,采样频率为1000Hz。电极贴附于颏肌、笑肌等关键部位,参考电极置于锁骨,整个录制过程中电极阻抗控制在10kΩ以下。

上述三类模态数据针对同一句话同步录制,分别对应语音波形、唇动视频序列与六通道肌电信号,为多模态语音识别研究提供高质量数据支撑。

重新定义人机“对话”的边界

RESEARCH INTRODUCTION

在后续测试中,研究者使用基准神经网络模型对三模态数据进行了对比分析。他们发现:

①在噪声环境中,传统语音识别系统准确率明显下降,而引入视觉与肌电信号后,系统的稳健性显著提升;

②EMG信号对口型与发音动作变化具有高度敏感性,在“安静但口动”的语境下依然可用于识别发音;

③三模态融合模型(A+V+E)在准确率和鲁棒性上均优于任意单模态或双模态系统。

这一成果的发布,不仅仅是一个数据集的问世,更是对“人类语言多维本质”的再认识。在人机交互、辅助通信、无声语音控制,乃至未来的脑机接口系统中,多模态数据将成为AI“理解人”的关键钥匙。

尤其在脑机接口领域,当前不少研究试图通过读取神经或肌肉信号,实现“意念说话”或“无声沟通”。而“AVE Speech”提供的EMG信号,为这一目标的实现提供了接近现实的基础训练材料。

新闻来源:arXiv

论文参考:DOI: 10.1109/THMS.2025.3585165

特别声明:[脑机启侦|“看”“听”“感”三模态协同,打造更智能的人机交流通道(08.02)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

别墅做公证!孙子全姓宋,英达这次彻底慌了,宋丹丹手段太绝了!(别墅房产证收费怎么收)

1987年,宋丹丹结束了一段失败的婚姻后遇到了英达。宋丹丹曾多次与英达争执,但最终他们的婚姻也在无尽的争吵中破裂。2011年,英达在节目中高调展示对小儿子的疼爱,而对巴图却始终冷淡。 尽管英达曾表示,如果能…

别墅做公证!孙子全姓宋,英达这次彻底慌了,宋丹丹手段太绝了!(别墅房产证收费怎么收)

美媒:好莱坞“不会讲故事了”

日本每年约有300部全新动画剧集问世,其中多数改编自漫画(这是检验市场反响的一种低成本方式),其题材多样性远超单纯的超级英雄类型。派拉蒙全球公司和天舞媒体公司近期获批合并,而漫威和DC漫画(是几乎所有主流美国…

美媒:好莱坞“不会讲故事了”

《恐龙超世界》第1季纪录片解说素材 4K全2集(恐龙超世界2免费播放)

史前动物解说素材《恐龙超世界》(又名:神奇恐龙世界)本片将根据以最新知识为基础的现实CG重现的恐龙时代,来揭示中世纪在地球上繁荣昌盛的生物进化的秘密。 第一集讲述恐龙的一项特殊功能,在中世纪的土地世界中,恐…

《恐龙超世界》第1季纪录片解说素材 4K全2集(恐龙超世界2免费播放)

一家三口赶海1人失踪1人进ICU 北海红树林悲剧上演(一家三口赶海遇捡不完的海星)

8月1日,梁女士在网上发文求助,称当天早上六七点,她的父亲在广西北海红树林被海浪卷走失踪,希望有人发现她父亲的踪迹能及时报警或联系她。8月2日,梁女士的母亲邓女士表示,他们一家是广东人,到北海游玩

一家三口赶海1人失踪1人进ICU 北海红树林悲剧上演(一家三口赶海遇捡不完的海星)

林心如霍建华“红酒影分身”庆九周年:娱乐圈最省流量的秀恩爱,还是最心机的公关战?(林心如霍建华最近新消息)

别人庆结婚周年恨不得直播接吻三分钟,他们却用“红酒倒影”玩起了“大家来找茬”,既满足了粉丝的脑补欲,又维持了“低调人设”。所以,到底是网友戏太多,还是他们早就学会了“冷处理”舆论战? 网友一边吐槽“这算什么庆…

林心如霍建华“红酒影分身”庆九周年:娱乐圈最省流量的秀恩爱,还是最心机的公关战?(林心如霍建华最近新消息)