纵览网丨谷歌开源Gemma3n多模态模型,手机也能跑出云端AI性能

纵览网丨谷歌开源Gemma3n多模态模型,手机也能跑出云端AI性能

谷歌于本周五凌晨正式发布并开源全新端侧多模态大模型Gemma3n,这一突破性产品为手机、平板、笔记本等端侧设备带来了此前只能在云端体验的强大多模态功能。

核心特性:小体积大能力

Gemma3n提供E2B和E4B两个版本,虽然原始参数量分别为5B和8B,但通过架构创新,其内存占用仅相当于传统2B和4B模型,分别只需2GB和3GB内存即可运行。该模型原生支持图像、音频、视频和文本的多模态输入处理,支持140种文本语言和35种语言的多模态理解。

值得一提的是,E4B版本在LMArena评测中得分超过1300,成为首个达到此基准的100亿参数以下模型,在多语言、数学、编码和推理能力方面均实现显著提升。

技术创新:四大突破性架构

MatFormer架构:Gemma3n采用全新的Matryoshka Transformer架构,如俄罗斯套娃般实现一个模型包含多种尺寸。训练E4B模型时同步优化E2B子模型,为开发者提供灵活的性能选择。通过Mix-n-Match技术,用户可在E2B和E4B之间创建自定义尺寸模型。

每层嵌入(PLE)技术:这项创新允许大部分参数在CPU上加载计算,只有核心Transformer权重需要存储在加速器内存中,大幅提高内存效率的同时不影响模型质量。

KV Cache共享:针对长内容处理优化,通过键值缓存共享技术,预填充性能相比Gemma34B提升两倍,显著加快长序列处理的首个token生成时间。

先进编码器:音频方面采用基于通用语音模型(USM)的编码器,支持自动语音识别和语音翻译功能,可处理长达30秒的音频片段。视觉方面配备MobileNet-V5-300M编码器,支持多种输入分辨率,在Google Pixel上可达到每秒60帧的处理速度。

实用功能与应用场景

Gemma3n在语音翻译方面表现突出,特别是英语与西班牙语、法语、意大利语、葡萄牙语之间的转换。视觉编码器MobileNet-V5通过先进蒸馏技术,相比基线模型实现13倍加速,参数减少46%,内存占用降低4倍,同时保持更高准确率。

开源生态与发展前景

谷歌已在Hugging Face平台开源模型和权重,并提供详细文档和开发指南。自去年首个Gemma模型发布以来,该系列累计下载量已超过1.6亿次,显示出强劲的开发者生态。

Gemma3n的发布标志着端侧AI进入新的发展阶段,将云端级别的多模态能力下沉到用户设备,为移动应用、智能硬件等领域带来无限可能。

猜你喜欢

“lulu同款短款”被判售假?一个商家的惊险经历

这是一家主营轻运动风格服饰的淘宝商家,根据当下市场流行趋势,选择上架了这款设计上类似于知名运动品牌Lululemon(露露乐檬)的短款上衣,试图吸引热衷“同款”穿搭的消费群体。 经过一段时间的申诉流程,平台最…

“lulu同款短款”被判售假?一个商家的惊险经历

从 “追着问题跑” 到 “提前拦住它”—— 智慧执法如何让城市治理变主动!

它能敏锐地识别出 “悄悄” 摆出来的夜宵摊,在摊主支起桌子的那一刻,系统就会自动提醒附近的巡逻队员:“XX 路口有占道经营苗头,请关注。” 从“出了问题再解决” 到 “没出问题先预防”,致天科技的智慧执法正…

从 “追着问题跑” 到 “提前拦住它”—— 智慧执法如何让城市治理变主动!

马上停止佩戴这东西,辐射超强会致癌,戴一天等于胸透117次

在追求美的同时,我们往往容易忽视了那些潜藏在饰品背后的健康隐患。那么,磁疗产品,另外一个让无数人趋之若鹜的养生利器。当你沉浸在那份看似舒适的磁场当中,你可曾想过这些所谓的磁场,或者它有着一些放射性的物质,正在…

马上停止佩戴这东西,辐射超强会致癌,戴一天等于胸透117次

印度279死坠机或因操作失误:黑匣子录音显示机长关闭燃油开关

总台记者当地时间7月16日获悉,美方初步调查评估消息称,印度航空失事航班的黑匣子录音显示,机长关闭了控制两台引擎燃油供应的开关,这可能是导致坠机的直接原因。 报告说,客机坠毁前,控制两台发动机燃油流量的开关在…

印度279死坠机或因操作失误:黑匣子录音显示机长关闭燃油开关

克拉玛依市先科院与田志坚团队携克拉玛依2项创新技术亮相全球化工盛会

7月15日,克拉玛依市先进科技联合研究院(以下简称 “市先科院”)与田志坚研究员新疆战略人才团队(以下简称 “战略人才团队”)携2项创新技术,亮相在北京国家会议中心举办的第12届世界化学工程大会暨第21届亚太…

克拉玛依市先科院与田志坚团队携克拉玛依2项创新技术亮相全球化工盛会