Liquid AI:LFM2-VL模型赋能手机视觉AI

Liquid AI:LFM2-VL模型赋能手机视觉AI

Liquid AI发布了LFM2-VL,这是新一代视觉-语言基础模型,专为在各种硬件设备上高效部署而设计——从『智能手机』、笔记本📓电脑💻️到可穿戴设备和嵌入式系统。该模型承诺提供低延迟性能、高精度和实际应用的灵活性。

LFM2-VL基于该公司一个月前推出的现有LFM2架构构建,该架构被称为"市场上最快的设备端基础模型",得益于其为每个输入实时生成"权重"或模型设置的方法(称为线性输入变化系统),将其扩展到支持文本和图像输入的多模态处理,支持可变分辨率。

据Liquid AI表示,该模型的GPU推理速度比同类视觉-语言模型快两倍,同时在常见基准测试中保持竞争性能表现。

针对不同需求的两个版本

此次发布包括两种模型规模:

LFM2-VL-450M——一个超高效模型,参数不到5亿,针对资源极度受限的环境。

LFM2-VL-1.6B——一个更强大的模型,但仍轻量化足以在单GPU和设备端部署。

两个版本都能处理高达512×512像素的原生分辨率图像,避免失真或不必要的放大。对于更大图像,系统应用非重叠分块并添加缩略图以提供全局上下文,使模型能够同时捕获精细细节和更广阔的场景。

Liquid AI背景

Liquid AI由麻省理工学院计算机科学与人工智能实验室(CSAIL)的前研究人员创立,目标是构建超越广泛使用的Transformer模型的AI架构。该公司的旗舰创新——液体基础模型(LFM),基于动力学系统、信号处理和数值线性代数原理,产生能够处理文本、视频、音频、时间序列和其他序列数据的通用AI模型

与传统架构不同,Liquid的方法旨在使用显著更少的计算资源提供竞争性或更优的性能,允许在推理过程中实时适应,同时保持低内存需求。这使得LFM既适合大规模企业用例,也适合资源有限的边缘部署。

2025年7月,该公司通过推出Liquid Edge AI平台(LEAP)扩展了其平台策略,这是一个跨平台SDK,旨在帮助开发者更容易地在移动和嵌入式设备上直接运行小型语言模型。LEAP提供iOS和Android的操作系统无关支持,与Liquid自有模型和其他开源小型语言模型集成,内置库包含小至300MB的模型——足够小以适配现代手机的最小RAM。

速度/质量权衡和技术设计

LFM2-VL使用模块化架构,结合语言模型骨干、SigLIP2 NaFlex视觉编码器和多模态投影器。投影器包含带像素解打乱的两层MLP连接器,减少图像Token数量并提高吞吐量。

用户可以调整参数,如最大图像Token或分块数量,根据部署场景平衡速度和质量。训练过程涉及约1000亿多模态Token,来源于开放数据集和内部合成数据。

性能和基准测试

该模型在一系列视觉-语言评估中实现了竞争性基准结果。LFM2-VL-1.6B在RealWorldQA(65.23分)、InfoVQA(58.68分)和OCRBench(742分)中表现良好,在多模态推理任务中保持稳定结果。在推理测试中,当在1024×1024图像和短提示的标准工作负载上测试时,LFM2-VL在其类别中实现了最快的GPU处理时间。

许可和可用性

LFM2-VL模型现已在Hugging Face上可用,同时提供Colab中的示例微调代码。它们与Hugging Face transformers和TRL兼容。模型在定制的"LFM1.0许可证"下发布。Liquid AI描述该许可证基于Apache 2.0原则,但完整文本尚未发布。该公司表示将在某些条件下允许商业使用,对年收入超过和低于1000万美元💵的公司采用不同条款。

通过LFM2-VL,Liquid AI旨在让高性能多模态AI在设备端和资源有限的部署中更易获得,而不牺牲能力。

Q&A

Q1:LFM2-VL模型有什么特别之处?

A:LFM2-VL是Liquid AI发布的新一代视觉-语言基础模型,专为『智能手机』、笔记本📓电脑💻️、可穿戴设备等各种硬件高效部署设计。它的GPU推理速度比同类模型快两倍,同时保持竞争性能,支持512×512像素原生分辨率图像处理。

Q2:LFM2-VL有哪两个版本?分别适用于什么场景?

A:LFM2-VL提供两个版本:LFM2-VL-450M是超高效模型,参数不到5亿,适用于资源极度受限环境;LFM2-VL-1.6B是更强大的模型,但仍足够轻量化,适合单GPU和设备端部署。

Q3:普通开发者如何获取使用LFM2-VL模型?

A:LFM2-VL模型现已在Hugging Face平台上提供,同时包含Colab中的示例微调代码。模型与Hugging Face transformers和TRL兼容,在定制的LFM1.0许可证下发布,允许在特定条件下商业使用。

特别声明:[Liquid AI:LFM2-VL模型赋能手机视觉AI] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

万象生鲜采购系统为什么这么方便(万象生鲜采购系统官网)

库存管理与成本控制的高效搭配万象生鲜采购系统的库存管理功能极为出色,实时更新的库存信息使得用户在采购过程中能够快速掌握货源状况。在数据分析方面,万象生鲜通过分析用户行为和市场趋势,实现了个性化推荐和高效决策…

万象生鲜采购系统为什么这么方便(万象生鲜采购系统官网)

台娱主播曝大S跨年夜真相,具俊晔根本没去小S家(台湾艺人大s简介)

跨年夜的钟声刚刚敲响,小S的『社交媒体』突然投下一颗“甜蜜炸弹”——照片里她左手搂着姐姐大S,右手搭着姐夫具俊晔,三人对着镜头绽放标准八颗牙微笑,背景是某高档派对的璀璨灯火。 最戏剧性的是去年中秋,某娱记号称拍到…

台娱主播曝大S跨年夜真相,具俊晔根本没去小S家(台湾艺人大s简介)

悲痛!彭德怀扮演者宗利群逝世,俩人同为74岁,生前日步行10公里

近日,网上传来消息:国家一级演员、著名彭德怀特型演员宗利群先生,于4月14日晚8点在南戴河逝世,这一噩耗迅速引发了大量网友的关注与悼念。巧合的是,宗利群先生与彭德怀元帅一样,都是在74岁这一年离世,更让人…

悲痛!彭德怀扮演者宗利群逝世,俩人同为74岁,生前日步行10公里

美联邦政府“停摆”致重要经济数据暂停发布

由于美国联邦政府“停摆”,美国劳工统计局未能按计划于3日公布月度就业数据统计报告。劳工部下属的劳工统计局是美国官方核心统计机构。

美联邦政府“停摆”致重要经济数据暂停发布

揭秘多功能建筑防护新星——捷艾防水背衬板(多功能组合建筑属于哪一类)

捷艾防水背衬板是一种新型建筑材料,在潮湿环境下发挥多重功效。它能有效解决地下室、卫生间🚻、阳台墙面的防潮、防水、保温及隔音难题。本文将深入探讨这一材料的功能、构造及其实际应用场景。

揭秘多功能建筑防护新星——捷艾防水背衬板(多功能组合建筑属于哪一类)