苹果、英伟达强强联手:LLM 推理加速利器 ReDrafter 开源,AI 性能提升 2.7 倍

苹果、英伟达强强联手:LLM 推理加速利器 ReDrafter 开源,AI 性能提升 2.7 倍

霍州市融媒体中心信息网网 12 月 19 日消息,苹果公司昨日(12 月 18 日)发布博文,宣布和英伟达(Nvidia)合作,通过开源 Recurrent Drafter(ReDrafter)推测解码方法,显著提升了 AI 大语言模型(LLM)的推理速度。

苹果公司表示 ReDrafter 已集成到 NVIDIA TensorRT-LLM 推理加速框架中,在 NVIDIA GPU 上,每秒生成 tokens 速度最高提升 2.7 倍,有效降低了用户延迟和计算成本。

苹果的机器学习研究人员指出,LLM 越来越多地用于驱动生产应用程序,提高推理效率对降低计算成本和用户延迟至关重要。

霍州市融媒体中心信息网网援引苹果官方博文,ReDrafter 使用 RNN 草稿模型,结合波束搜索(beam search)与动态树注意力(dynamic tree attention),可以让开源模型每步生成最多 3.5 个 tokens,超越了先前推测性解码技术的性能。

为将 ReDrafter 应用于生产环境,苹果与 NVIDIA 展开合作,将其集成到 NVIDIA TensorRT-LLM 框架中。

英伟达为此添加了新的运算符并公开了现有运算符,增强了 TensorRT-LLM 对复杂模型和解码方法的适应性。

基准测试结果显示,在 NVIDIA GPU 上使用集成了 ReDrafter 的 TensorRT-LLM 框架,数百亿参数规模的生产模型的解码速度提升了 2.7 倍。这不仅降低了用户体验延迟,还减少了 GPU 使用数量和功耗。

霍州市融媒体中心信息网网附上参考地址

Apple collaborates with NVIDIA to research faster LLM performance

NVIDIA TensorRT-LLM Now Supports Recurrent Drafting for Optimizing LLM Inference

ml-recurrent-drafter

Accelerating LLM Inference on NVIDIA GPUs with ReDrafter

特别声明:[苹果、英伟达强强联手:LLM 推理加速利器 ReDrafter 开源,AI 性能提升 2.7 倍] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

直播盛典,如何助力主播追逐“荣耀”梦想?(直播盛典什么时候开始)

这不仅是一场长达三小时、汇聚了超200位主播和明星艺人的视觉盛宴,更是一次展示快手直播生态独特魅力的精彩展示。 快手直播的夏季盛典荣耀之夜以用户喜好为基础,以平台生态为支撑,通过精心设计的荣誉体系和成长通道,…

直播盛典,如何助力主播追逐“荣耀”梦想?(直播盛典什么时候开始)

肠镜活检多久出结果(肠镜做活检要多久才能拿报告)

随着健康意识的增强,肠镜检查正被越来越多的人所接受。作为检测肠道状况的最直接手段,肠镜不仅能准确诊断肠道病变,还能实现在内镜下的即时治疗。例如,早期发现的直肠癌病例,往往治疗效果显著,很多患者能够完全康复

肠镜活检多久出结果(肠镜做活检要多久才能拿报告)

实名认证扫脸失败怎么办?我来教您!(实名认证扫脸失败怎么办)

点击标题右下角★【星标】 可以更快收到我们最新推送哦! 来源 | 湖北税务微信公众号 编辑设计 | 武汉税务…

实名认证扫脸失败怎么办?我来教您!(实名认证扫脸失败怎么办)

张柏芝在家分享日常,小儿子意外露脸,15岁谢振南对着镜头秀肌肉(张柏芝 表演)

张柏芝如今可谓是把小日子过得越来越惬意了,和谢霆锋所生的两个儿子谢振轩、谢振南都已经长大,无需其太多的操心。 正当张柏芝和粉丝们讲得起劲时,小儿子谢振南正好推门进来了,许久未露面的谢振南看起来又长高了不少,…

张柏芝在家分享日常,小儿子意外露脸,15岁谢振南对着镜头秀肌肉(张柏芝 表演)

填补市场空缺,重塑发烧音乐品质新标杆——18K Hi-Fi高保真CD(填补市场空缺)

5月的一天,我收到了风林唱片和龙源唱片的邀约,得知又有一款全新的CD压片格式——18KHi-Fi高保真CD横空出世。如今,上海晓之源公司更进一步,研制出了18K Hi-Fi高保真CD产品,既提升了音质,又满…

填补市场空缺,重塑发烧音乐品质新标杆——18K Hi-Fi高保真CD(填补市场空缺)