技术速递|开启全新的多模态模型 - Microsoft Phi-4-mini & Phi-4-multimodal

技术速递|开启全新的多模态模型 - Microsoft Phi-4-mini & Phi-4-multimodal

作者:卢建晖 - 微软高级云技术布道师

排版:Alan Wang

Microsoft Phi-4 系列模型正式发布,延续先前发布的强推理 Phi-4 (14B)模型, 今天带来了 Phi-4-mini-instruct(3.8B),以及 Phi-4-multimodal(5.6B)模型。我们可以从 Hugging face、Azure AI Foundry Model Catalog、GitHub Models,以及 Ollama 获取使用模型。

Phi-4 除了在多语言、推理以及数学等方面的能力提升外,对于大家期待已久的 Function Calling 也终于支持了。与此同时,Phi-4-multimodal 更是作为全模态模型,具备了视觉、听觉、文本、多语言理解、强推理,以及编码等能力。我们可以把 Phi-4-mini / Phi-4-multimodal 部署在边缘终端,让更多的 IoT 应用场景在算力和网络受限的情况下,可以和生成式人工智能结合。接下来,我们一起探索全新的 Phi-4-mini 以及 Phi-4-multimodal。

Function Calling

这是社区期待已久的功能,有了 Function Calling,我们可以对 Phi-4-mini / Phi-4-multimodal 的文本能力进行扩展,结合搜索引擎,以及连接不同的工具等。如图所示,这是一个通过 Phi-4-mini 查询英超比赛信息的示意图:

jrhz.info

示例代码

https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/07.FunctionCalling/Phi4/FunctionCallingBasic/README.md

量化后的模型部署

我们可以把量化后的模型部署在边缘设备中,并结合 Microsoft Olive, ONNXRuntime GenAI 把 Phi-4-mini 部署在 『Windows』、iPhone、Android 等终端上。以下是一个在 iPhone 12 Pro 上运行的示例:

全模态 SLM

Phi-4-multimodal 是全模态的模型,支持文字、视觉、语音输入。或许大家对视觉场景已经非常熟悉,我们可以根据图片,直接生成代码。

示例

https://github.com/kinfey/PhiCookbook/tree/main/md/02.Application/04.Vision/Phi4/CreateFrontend

语音功能的整合让 Phi-4 在功能上有了更强的支持,以下是相关示例:

  • 语音提取

    https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/08.Multimodel/Phi4/TechJournalist/phi_4_mm_audio_text_publish_news.ipynb

  • 语音交互

    https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/05.Audio/Phi4/Siri/demo.ipynb

  • 语音翻译

    https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/05.Audio/Phi4/Translate/demo.ipynb

语音提取

https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/08.Multimodel/Phi4/TechJournalist/phi_4_mm_audio_text_publish_news.ipynb

语音交互

https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/05.Audio/Phi4/Siri/demo.ipynb

语音翻译

https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/05.Audio/Phi4/Translate/demo.ipynb

强推理性

Phi-4 (14B) 发布时,强推理性就是一个卖点,现在 Phi-4-mini 和 Phi-4-multimodal 虽然参数量减少了,但也具备了该能力,我们可以结合 Image 来测试强推理能力。例如上传一张图片,让 Phi-4-multimodal 能根据图片内容结合提示词更有序地生成项目代码。

示例代码

https://github.com/kinfey/PhiCookbook/blob/main/md/02.Application/02.Code/Phi4/GenProjectCode/README.md

Phi-4-mini 和 Phi-4-multimodal 在有限的参数量上达到了一些 LLM 的效果。我们可以把 Phi-4-mini 和 Phi-4-multimodal 部署在边缘端,让我们的 PC、移动设备、IoT 具备更强的生成式人工智能能力。我们会陆续在 Phi Cookbook(https://aka.ms/Phicookbook)增加示例, 希望 Phi Cookbook 能成为你使用 Phi-4 的必备指南。

学习资源

  • Micorsoft Phi Cookbook

    https://aka.ms/Phicookbook

  • Microsoft Phi-4-multimodal techreport

    https://aka.ms/phi-4-multimodal/techreport

  • Microsoft Phi-4 Paper

    https://arxiv.org/abs/2412.08905

Micorsoft Phi Cookbook

https://aka.ms/Phicookbook

Microsoft Phi-4-multimodal techreport

https://aka.ms/phi-4-multimodal/techreport

Microsoft Phi-4 Paper

https://arxiv.org/abs/2412.08905

卢建晖

微软高级云技术布道师

专注在 AI + Data,著有超过 70 万阅读量的 《Phi-3 Cookbook》。

微信

特别声明:[技术速递|开启全新的多模态模型 - Microsoft Phi-4-mini & Phi-4-multimodal] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

TVB上位小花红裙亮相晚会大放异彩现场演出歌喉获盛赞

她描述初次踏入庄严场地时的陌生感与空间压迫感,但强调随着演艺生涯的积累,如今已能更从容地掌控舞台节奏。即便在演出筹备期遭遇档期冲突与时间紧迫的双重压力,Sophie仍坚持利用通勤间隙反复揣摩歌曲细节,其专业态…

TVB上位小花红裙亮相晚会大放异彩现场演出歌喉获盛赞

石杉碱甲片产生的不良反应会是什么多久会消失(石杉碱甲片产生毒素吗)

石杉碱甲片为药物通用名,商品名称一般为哈伯因。石杉碱甲片是一种抗胆碱酯酶类药物,主要成分为石杉碱甲。该药主要用于治疗良性记忆障碍以及痴呆症等疾病。

石杉碱甲片产生的不良反应会是什么多久会消失(石杉碱甲片产生毒素吗)

保温管规格型号对照表大全(橡塑保温管规格型号)

以常见的热水输送工程为例,当输送距离较短、压力较小时,可能会选用 DN50、壁厚 3mm的直埋保温管;而对于长距离、高压力的热力输送,DN300、壁厚 6mm 甚至更大规格的直埋保温管更为合适。在一些小型的…

保温管规格型号对照表大全(橡塑保温管规格型号)

川大:废弃聚烯烃自限域裂解,实现高效制备低碳烯烃

化学回收,特别是催化裂解技术,能将聚合物长链“打碎”成小分子,被视为实现闭环循环和升级回收的理想路径。丙烯化学吸附实验表明,聚烯烃熔融层显著抑制烯烃中间体的吸附。通过选择性毒化沸石外表面酸性位点,研究团队发现…

川大:废弃聚烯烃自限域裂解,实现高效制备低碳烯烃

国庆后将提升产能 i6让理想重拾信心 市场反馈积极(国庆以后)

9月26日,理想i6正式上市,售价24.98万元。在筹备i6上市的过程中,理想吸取了此前i8的教训,对舆情进行了有效控制。发布会环节借鉴了小米的做法,在公布价格后加入了“免费送”环节,进一步强化用户感知

国庆后将提升产能 i6让理想重拾信心 市场反馈积极(国庆以后)