Liquid AI发布了LFM2-VL,这是新一代视觉-语言基础模型,专为在各种硬件设备上高效部署而设计——从智能手机、笔记本电脑到可穿戴设备和嵌入式系统。该模型承诺提供低延迟性能、高精度和实际应用的灵活性。
LFM2-VL基于该公司一个月前推出的现有LFM2架构构建,该架构被称为"市场上最快的设备端基础模型",得益于其为每个输入实时生成"权重"或模型设置的方法(称为线性输入变化系统),将其扩展到支持文本和图像输入的多模态处理,支持可变分辨率。
据Liquid AI表示,该模型的GPU推理速度比同类视觉-语言模型快两倍,同时在常见基准测试中保持竞争性能表现。
针对不同需求的两个版本
此次发布包括两种模型规模:
LFM2-VL-450M——一个超高效模型,参数不到5亿,针对资源极度受限的环境。
LFM2-VL-1.6B——一个更强大的模型,但仍轻量化足以在单GPU和设备端部署。
两个版本都能处理高达512×512像素的原生分辨率图像,避免失真或不必要的放大。对于更大图像,系统应用非重叠分块并添加缩略图以提供全局上下文,使模型能够同时捕获精细细节和更广阔的场景。
Liquid AI背景
Liquid AI由麻省理工学院计算机科学与人工智能实验室(CSAIL)的前研究人员创立,目标是构建超越广泛使用的Transformer模型的AI架构。该公司的旗舰创新——液体基础模型(LFM),基于动力学系统、信号处理和数值线性代数原理,产生能够处理文本、视频、音频、时间序列和其他序列数据的通用AI模型。
与传统架构不同,Liquid的方法旨在使用显著更少的计算资源提供竞争性或更优的性能,允许在推理过程中实时适应,同时保持低内存需求。这使得LFM既适合大规模企业用例,也适合资源有限的边缘部署。
2025年7月,该公司通过推出Liquid Edge AI平台(LEAP)扩展了其平台策略,这是一个跨平台SDK,旨在帮助开发者更容易地在移动和嵌入式设备上直接运行小型语言模型。LEAP提供iOS和Android的操作系统无关支持,与Liquid自有模型和其他开源小型语言模型集成,内置库包含小至300MB的模型——足够小以适配现代手机的最小RAM。
速度/质量权衡和技术设计
LFM2-VL使用模块化架构,结合语言模型骨干、SigLIP2 NaFlex视觉编码器和多模态投影器。投影器包含带像素解打乱的两层MLP连接器,减少图像Token数量并提高吞吐量。
用户可以调整参数,如最大图像Token或分块数量,根据部署场景平衡速度和质量。训练过程涉及约1000亿多模态Token,来源于开放数据集和内部合成数据。
性能和基准测试
该模型在一系列视觉-语言评估中实现了竞争性基准结果。LFM2-VL-1.6B在RealWorldQA(65.23分)、InfoVQA(58.68分)和OCRBench(742分)中表现良好,在多模态推理任务中保持稳定结果。在推理测试中,当在1024×1024图像和短提示的标准工作负载上测试时,LFM2-VL在其类别中实现了最快的GPU处理时间。
许可和可用性
LFM2-VL模型现已在Hugging Face上可用,同时提供Colab中的示例微调代码。它们与Hugging Face transformers和TRL兼容。模型在定制的"LFM1.0许可证"下发布。Liquid AI描述该许可证基于Apache 2.0原则,但完整文本尚未发布。该公司表示将在某些条件下允许商业使用,对年收入超过和低于1000万美元的公司采用不同条款。
通过LFM2-VL,Liquid AI旨在让高性能多模态AI在设备端和资源有限的部署中更易获得,而不牺牲能力。
Q&A
Q1:LFM2-VL模型有什么特别之处?
A:LFM2-VL是Liquid AI发布的新一代视觉-语言基础模型,专为智能手机、笔记本电脑、可穿戴设备等各种硬件高效部署设计。它的GPU推理速度比同类模型快两倍,同时保持竞争性能,支持512×512像素原生分辨率图像处理。
Q2:LFM2-VL有哪两个版本?分别适用于什么场景?
A:LFM2-VL提供两个版本:LFM2-VL-450M是超高效模型,参数不到5亿,适用于资源极度受限环境;LFM2-VL-1.6B是更强大的模型,但仍足够轻量化,适合单GPU和设备端部署。
Q3:普通开发者如何获取使用LFM2-VL模型?
A:LFM2-VL模型现已在Hugging Face平台上提供,同时包含Colab中的示例微调代码。模型与Hugging Face transformers和TRL兼容,在定制的LFM1.0许可证下发布,允许在特定条件下商业使用。