酷睿Ultra平台Day 0高效适配部署大模型,率先赋能驱动人生AIGC助手(酷睿iru)

今日,腾讯正式发布新一代混元开源『大语言模型』。英特尔凭借在人工智能领域的全栈技术布局,现已在英特尔®酷睿™ Ultra 平台上完成针对该模型的第零日(Day 0)部署与性能优化。值得一提的是,依托于OpenVINO™ 构建的AI 软件平台的可扩展性,英特尔助力ISV生态伙伴率先实现应用端Day 0 模型适配,大幅加速了新模型的落地进程,彰显了“硬件+ 模型+ 生态”协同的强大爆发力。

混元新模型登场:多维度突破,酷睿 Ultra 平台Day 0适配

腾讯混元宣布开源四款小尺寸模型,参数分别为 0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于笔记本📓电脑💻️、手机、智能座舱、智能家居等低功耗场景。新开源的4 个模型均属于融合推理模型,具备推理速度快、性价比高的特点,用户可根据使用场景灵活选择模型思考模式——快思考模式提供简洁、高效的输出;而慢思考涉及解决复杂问题,具备更全面的推理步骤。

这些模型已在英特尔酷睿 Ultra 平台实现全面适配,其在 CPU、GPU、NPU 三大 AI 运算引擎上都展现了卓越的推理性能表现1。以酷睿 Ultra 2 代 iGPU 平台为例,7B 参数量模型在 INT4 精度下,吞吐量达 20.93token/s;0.5B 小尺寸模型在 FP16 精度下吞吐量达 68.92token/s。值得一提的是,英特尔对新模型的 NPU 第零日支持已形成常态化能力,为不同参数量模型匹配精准硬件方案,满足从个人终端到边缘设备的多样化需求。

Device

Model

Precision

Throughput

Intel® Core™ Ultra 7 258V(iGPU)

Hunyuan-0.5B

FP16

68.92

Intel® Core™ Ultra 7 258V(NPU)

Hunyuan-0.5B

FP16

48.44

Intel® Core™ Ultra 7 258V(iGPU)

Hunyuan-7B

INT4-MIXED-ASYM

20.93

Intel® Core™ Ultra 7 258V(NPU)

Hunyuan-7B

INT4-MIXED-CW-SYM

15.02

OpenVINO:新模型快速落地的 “关键引擎”

作为英特尔推出的开源深度学习工具套件,OpenVINO 以 “性能优化 + 跨平台部署” 为核心优势,可充分释放英特尔硬件资源潜力,广泛应用于 AI PC、边缘 AI 等场景。其核心价值在于能将深度学习模型的推理性能最大化,同时实现跨 CPU、GPU、NPU 等异构硬件的无缝部署。

目前,OpenVINO已支持超过 900 个人工智能模型,涵盖生成式 AI 领域主流模型结构与算子库。这样的模型支持体系,使其能在新模型发布的Day 0,即完成英特尔硬件平台的适配部署。此次混元模型的快速落地,正是 OpenVINO 技术实力的直接体现 —— 通过其优化能力,混元模型在酷睿 Ultra 平台的性能得到充分释放,为用户带来即发即用的 AI 体验。

生态共创:AI技术到应用的 “最后一公里” 加速

生态合作是英特尔 AI 战略的核心支柱,驱动人生作为其长期合作伙伴,专注于『互联网』客户端软件研发及运营,本着“以用户为中心,以技术为根本,以开放为原则”的理念,长期致力于技术研发和技术创新,为用户提供优质的服务。其 AIGC 助手软件,实现本地部署,离线使用,支持文字输入、语音转译,将大模型装进背包,可随时随地与它进行智能对话,还能让它帮忙解读文档,编撰方案。

该应用采用 OpenVINO推理框架,借助其快速适配能力,在混元模型发布当日即完成应用层适配,成为首批支持新模型的应用之一。

目前,驱动人生 AIGC 助手、英特尔AIPC应用专区和多家OEM 应用商店的 AI PC专区均已上线,搭载混元模型的新版本也将在近期推出,用户可第 一时间体验更智能的交互与服务。这种 “模型发布 - 硬件适配 - 应用落地” 的全链条第零日响应,正是英特尔生态协同能力的生动写照。

AI 的发展离不开模型创新与软硬件生态协同 —— 模型如同燃料,生态则是驱动前进的引擎。英特尔通过硬件平台、软件工具与生态网络的深度协同,实现对新模型的第零日适配,不仅加速了技术到应用的转化,更推动着整个 AI 产业的高效创新。未来,英特尔将持续深化与合作伙伴的协同,让 AI 创新更快走进千行百业与大众生活。

快速上手指南

第 一步,环境准备

通过以下命令可以搭建基于Python的模型部署环境。

· python -m venv py_venv

· ./py_venv/s/activate.bat

· pip install nncf

· pip install git+https://github.com/openvino-dev-samples/optimum-intel.git@hunyuan

· pip install git+https://github.com/huggingface/transformers@4970b23cedaf745f963779b4eae68da281e8c6ca

该示例在以下环境中已得到验证:

· 硬件环境:

o Intel® Core™ Ultra 7 258V

§ iGPU Driver:32.0.101.6972

§ NPU Driver:32.0.100.4181

§ Memory: 32GB

· 操作系统:

o 『Windows』 11 24H2 (26100.4061)

· OpenVINO版本:

o openvino 2025.2.0

o openvino-genai 2025.2.0.0

o openvino-tokenizers 2025.2.0.0

· Transformers版本:

第二步,模型下载和转换

在部署模型之前,我们首先需要将原始的PyTorch模型转换为OpenVINOTM的IR静态图格式,并对其进行压缩,以实现更轻量化的部署和最佳的性能表现。通过Optimum提供的命令行工具optimum-cli,我们可以一键完成模型的格式转换和权重量化任务:

optimum-cli export openvino --model tencent/Hunyuan-4B-Instruct --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 --trust-remote-code

开发者可以根据模型的输出结果,调整其中的量化参数,包括:

· --model: 为模型在HuggingFace上的model id,这里我们也提前下载原始模型,并将model id替换为原始模型的本地路径,针对国内开发者,推荐使用ModelScope魔搭社区作为原始模型的下载渠道,具体加载方式可以参考ModelScope官方指南:

· --weight-format:量化精度,可以选择fp32,fp16,int8,int4,int4_sym_g128,int4_asym_g128,int4_sym_g64,int4_asym_g64

· --group-size:权重里共享量化参数的通道数量

· --ratio:int4/int8权重比例,默认为1.0,0.6表示60%的权重以int4表,40%以int8表示

· --sym:是否开启对称量化

此外我们建议使用以下参数对运行在NPU上的模型进行量化,以达到性能和精度的平衡。

optimum-cli export openvino --model --task text-generation-with-past --weight-format int4 --sym --group-size -1 --backup-precision int8_sym --trust-remote-code

这里的--backup-precision是指混合量化精度中,8bit参数的量化策略。

第三步,模型部署

目前我们推荐是用openvino-genai来部署大语言以及生成式AI任务,它同时支持Python和C++两种编程语言,安装容量不到200MB,支持流式输出以及多种采样策略。

· GenAI API部署示例

import argparse

import openvino_genai

def streamer(subword):

print(subword, end='', flush=True)

# Return flag corresponds whether generation should be stopped.

return openvino_genai.StreamingStatus.RUNNING

def main:

parser = argparse.ArgumentParser

parser.add_argument('model_dir', help='Path to the model directory')

parser.add_argument('device', nargs='?', default='NPU', help='Device to run the model on (default: CPU)')

args = parser.parse_args

device = args.device

pipe = openvino_genai.LLMPipeline(args.model_dir, device)

tokenizer = pipe.get_tokenizer

tokenizer.set_chat_template("{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}<|hy_begin▁of▁sentence|>{{ system_message }}<|hy_place▁holder▁no▁3|>{% else %}{% set loop_messages = messages %}<|hy_begin▁of▁sentence|>{% endif %}{% for message in loop_messages %}{% if message['role'] == 'user' %}<|hy_User|>{{ message['content'] }}{% elif message['role'] == 'assistant' %}<|hy_Assistant|>{{ message['content'] }}<|hy_place▁holder▁no▁2|>{% endif %}{% endfor %}{% if add_generation_prompt %}<|hy_Assistant|>{% else %}<|hy_place▁holder▁no▁8|>{% endif %}{% if add_generation_prompt and enable_thinking is defined and not enable_thinking %}\n\n\n{% endif %}")

config = openvino_genai.GenerationConfig

config.max_new_tokens = 10204

pipe.start_chat

while True:

try:

prompt = input('question:\n')

except EOFError:

break

pipe.generate(prompt, config, streamer)

print('\n----------')

pipe.finish_chat

if '__main__' == __name__:

main

其中,'model_dir'为OpenVINOTM IR格式的模型文件夹路径,'device'为模型部署设备,支持CPU,GPU以及NPU。此外,openvino-genai提供了chat模式的构建方法,通过声明pipe.start_chat以及pipe.finish_chat,多轮聊天中的历史数据将被以kvcache的形态,在内存中进行管理,从而提升运行效率。

开发者可以通过该该示例的中方法调整chat template,以关闭和开启thinking模式,具体方式可以参考官方文档(https://huggingface.co/tencent/Hunyuan-4B-Instruct)。由于目前OpenVINOTM Tokenizer还没有完全支持Hunyuan-7B-Instruct模型默认的chat template格式,因此我们需要手动替换原始的chat template,对其进行简化,具体方法如下:

tokenizer = pipe.get_tokenizer

tokenizer.set_chat_template("{% for message in messages %}{% if message['role'] == 'system' %}<|startoftext|>{{ message['content'] }}<|extra_4|>{% elif message['role'] == 'assistant' %}<|startoftext|>{{ message['content'] }}<|eos|>{% else %}<|startoftext|>{{ message['content'] }}<|extra_0|>{% endif %}{% endfor %}{{- '\n\n\n' }}")

chat模式输出结果示例:

关于该示例的后续更新,可以关注OpenVINO notebooks仓库:https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-chatbot

驱动人生应用获取方式:

英特尔AIPC应用专区(intel.cn/aipc)

1. 通过使用 OpenVINO 框架版本 2025.2.0 在 英特尔® 酷睿™ Ultra 7 258V 和 英特尔® 酷睿™ Ultra 9 285H 上进行测试获得了性能数据,计算过程发生在 iGPU 或 NPU 上。测试评估了首 Token 的延迟以及在 int4-mixed、int4-mixed-cw-sym 和 fp16 精度设置下 1K 输入的平均吞吐量。每项测试在预热阶段后执行三次,并选择平均值作为报告数据。

特别声明:[酷睿Ultra平台Day 0高效适配部署大模型,率先赋能驱动人生AIGC助手(酷睿iru)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

正午阳光的长片首秀,一众布衣甲的抗战史诗(正午阳光有多厉害)

它让人看到正午阳光走出舒适区、拥抱电影语言的主动性,也让人看到国产战争题材中更贴近普通人的一条叙事路径,该片提供了一种颇具现实意义的视角:战争的胜利不是由英雄单独完成,而是由那些无名的小人物、那些原本只想好好…

正午阳光的长片首秀,一众布衣甲的抗战史诗(正午阳光有多厉害)

肛门直肠畸形预后怎样(肛门直肠畸形最常见的伴发畸形)

肛门直肠畸形的预后与畸形类型、有无合并其他畸形、治疗时机与效果等因素有关。多数患儿经过规范治疗后能够获得较好的排便控制功能,但部分复杂畸形患儿可能存在长期排便功能障碍。 低位肛门直肠畸形如肛门狭窄、肛门闭锁伴瘘管等,通常预后良好

肛门直肠畸形预后怎样(肛门直肠畸形最常见的伴发畸形)

科技赋能,硕果盈枝!水电总院2025年荣获多项科技奖励(科技赋能产业 创新引领未来)

2025年,牵头或参与荣获省部级及行业级科技奖励23项,其中,中国电建科学技术奖 9 项、水力发电科学技术奖 3 项、中国大坝工程学会科技进步奖3项、工程建设科学技术进步奖1项、电力工程科学技术进步奖2项、工…

科技赋能,硕果盈枝!水电总院2025年荣获多项科技奖励(科技赋能产业 创新引领未来)

2025年选购充电式家用电蚊拍,如何做到安全高效?(2025年充电桩)

近年来,随着智能化和新消费趋势的推动,充电式电蚊拍成为许多家庭的选择。但市场上种类繁多,如何挑选一款安全高效的产品呢?本文深入解析,帮助您了解如何根据实际需求做出明智决策。文中还将分享实用购买建议,避免误区,并提供2025最新趋势参考。

2025年选购充电式家用电蚊拍,如何做到安全高效?(2025年充电桩)

中国游客赴日旅游锐减,东京街头垃圾乱象却依旧 转而“盯上”别国游客(中国游客赴日旅游趋势)

近日,中国游客前往日本旅游大幅减少,但日本东京街头游客乱扔垃圾现象依然泛滥,甚至有已经垃圾堆成山,让当地居民感到不适。在此情况下,日本方面似乎开始将“关注目光”转向别国游客。12月14日,有日本记者在东京涩谷区街头探访,拍下外国游客乱扔垃圾

中国游客赴日旅游锐减,东京街头垃圾乱象却依旧 转而“盯上”别国游客(中国游客赴日旅游趋势)