编辑丨coisini
在过往研究中,神经科学的发展通常源于对认知任务与脑区研究的不断细化。研究多聚焦于特定皮层区域及其关联功能,例如,专注于大脑 V5 区研究运动感知。
这种「分而治之」的研究范式虽为理解大脑认知机制提供了深刻见解,却导致了学科知识的碎片化,阻碍了统一认知模型的发展。
最近,Meta FAIR 宣布 Brain & AI 团队凭借其研发的 10 亿参数模型 TRIBE(Trimodal Brain Encoder),在 Algonauts 2025 大脑建模竞赛中斩获冠军。
TRIBE 是首个能够预测跨模态、跨皮层区域、跨个体大脑反应的深度神经网络,成功预测了由 Courtois NeuroMod 项目采集的大规模时空 fMRI 数据,这一突破性成果标志着多模态大脑建模技术迈入新纪元。
论文地址:https://www.arxiv.org/abs/2507.22229
开源地址:https://github.com/facebookresearch/algonauts-2025
TRIBE 概览
为了理解大脑认知机制,一些研究在视觉 - 语言 Transformer 模型的基础上构建了编码模型,相比单模态 Transformer 取得了性能提升。但这些模型的跨模态信息整合方式可能与人类大脑的多模态整合机制存在本质差异。
TRIBE 以端到端方式学习全脑多模态动态整合,并兼容多受试者数据,能够根据视频对应的图像、音频和文本预测受试者观看视频时的 fMRI 脑响应。
TRIBE 以受试者观看的视频片段及对应的音频文件📄和文字脚本作为输入,通过前沿生成式 AI 模型,提取三个目标模态(文本、音频和视频)的高维嵌入表征,并将其输入深度编码模型。
TRIBE 创新性地融合了 Meta 多项基础模型的预训练表征能力:
- 文本(Llama 3.2)
- 音频(Wav2Vec2-BERT)
- 视频(V-JEPA 2)
并利用 Transformer 处理 fMRI 数据的时序演化特性。
性能表现
TRIBE 能够精准模拟大脑对视频刺激的 fMRI 时空响应,以显著优势从 263 支参赛队伍中脱颖而出,夺得冠军。
消融实验表明,虽然单模态模型能可靠预测对应的皮层网络(如视觉或听觉网络),但在高级联合皮层区域,TRIBE 始终表现更优。
当仅使用单一模态训练时,TRIBE 的编码得分显著降低,而将任意两种模态结合时,编码得分相较单模态模型显著提升,三模态联合训练会进一步提升得分,这表明各模态之间存在互补作用。
扩展定律表明,TRIBE 的编码性能随记录数据量增加呈现系统性提升,为未来采用更大数据集进一步优化提供了可能。
目前,TRIBE 适用于大脑感知与理解,未来还需将行为、记忆与决策等其他重要认知组件纳入整合。