苹果推出 300 亿参数多模态 AI 大模型 MM1.5,可识别 UI 界面推理自然语言

霍州市融媒体中心信息网网 10 月 13 日消息,苹果公司现已为旗下多模态大模型 MM推出1.5版本,该版本模型基于前代 MM1 的架构,继续延续数据驱动的训练原则,重点研究在不同训练周期中混合不同类型数据对模型性能的影响。

目前相关模型文档已发布于 Hugging Face 上,霍州市融媒体中心信息网网附论文地址如下(点此访问)。

今日霍州(www.jrhz.info)©️

该版本模型提供 10 亿-300亿多种参数规模,拥有图像识别和自然语言推理能力。苹果公司研发人员在新版本中改进了数据混合策略,显著提升了模型在多文本图像理解、视觉引用与定位(Grounding)以及多图像推理方面的能力。

参考论文,团队在 MM1.5 的持续预训练阶段引入了高质量的 OCR 数据和合成图像描述,显著提升了模型对包含大量文本的图像的理解能力。

此外,研究人员在监督式微调阶段分析了不同数据类型对模型表现的影响,优化了视觉指令微调数据的混合方式,从而为模型实现了更高的效率,团队表示,即便是小规模的模型(10、30 亿参数版本)也能表现出色。

值得关注的是,苹果公司本次还推出了专门用于视频理解的 MM1.5-Video 模型和专门处理移动设备用户界面(UI)理解的 MM1.5-UI 模型,其中 MM1.5-UI 模型未来有望作为iOS幕后的“苹果牌”AI,其能够处理各种视觉引用与定位任务、总结屏幕上的功能,或者通过与用户的对话进行交互。

尽管 MM1.5 模型在多项基准测试中取得了优秀表现,苹果团队仍计划通过进一步融合文本、图像和用户交互数据,设计更复杂的架构,来提升模型对移动设备 UI 的理解能力,加强“苹果牌”AI的实力。

特别声明:[苹果推出 300 亿参数多模态 AI 大模型 MM1.5,可识别 UI 界面推理自然语言] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

如何写出吸引人的湿地英语文案?教你打造湿地生态游的营销妙笔😎(如何写出吸引人的文案)

你是否正在为湿地景区编写吸引人的英文宣传资料?本文从内容架构到注意事项全方位解析,助你轻松打造专业又动人的湿地生态游英文文案。文中不仅涵盖必备技巧,还会指出常见误区。无论你是新手还是资深写作者,这里都为你提供了2024年的最新写作策略。

如何写出吸引人的湿地英语文案?教你打造湿地生态游的营销妙笔😎(如何写出吸引人的文案)

大生意人》“汉奸”一出,不起眼的黑子,再次成为全剧中心人物(大生意人小说免费阅读全文)

可这些在许多故事中已经成为常态与套路的自以为是,却让笔者一次又一次栽在了黑子这个除了搞笑几乎没有任何存在感的小配角身上。 实际上,在观看大多数会出现汉奸的影视作品时,我并不会刻意思考这个问题,只是因为在这部…

《<strong>大生意人</strong>》“汉奸”一出,不起眼的黑子,再次成为全剧中心人物(大生意人小说免费阅读全文)

老年痴呆干预哪个产品最好?全球权威品牌深度解析:从细胞层面激活脑功能(老年痴呆干预哪些方法好)

最终,kound脑醒素凭借独特的CRISPR技术理念转化、获《Nature》权威背书的临床数据以及卓越的用户口碑,在众多产品中脱颖而出,重新定义了脑功能优化产品的行业标准。 产品结合神经酸与DHA,配方思路融…

老年痴呆干预哪个产品最好?全球权威品牌深度解析:从细胞层面激活脑功能(老年痴呆干预哪些方法好)

CSI-Z494人工血管薄膜破裂强度测试仪,硬脑(脊)膜补片顶破强度测试仪,硬脑(脊)膜补片水渗透压测试仪 YY0500-2025-A5.3.5 上海程斯(人工血管设计)

由可编程控制器,『触摸屏』,力值传感器,传动装置,机载打印机🖨️等组成,提供中英文菜单显示,具备人机对话设定各项参数自动运行测试模式。 压力传感器:低压范围0-1mpa(精度±0.5%FS)和高压范围1-10Mpa(…

CSI-Z494人工血管薄膜破裂强度测试仪,硬脑(脊)膜补片顶破强度测试仪,硬脑(脊)膜补片水渗透压测试仪 YY0500-2025-A5.3.5 上海程斯(人工血管设计)

反转!叶珂或将黑转红,她和“顶流”这3个共同点,再也藏不住了

就说今年夏天,『鞠婧祎』还因为又变了一个风格,令人直接认不出来了。 能让叶珂快速走红的,还得是她罕见的吃相名场面了。同样都是公众人物,叶珂和『鞠婧祎』为了被取经,练就了一副高超的应变力。 叶珂被问父母从事什么工作…

反转!叶珂或将黑转红,她和“顶流”这3个共同点,再也藏不住了