英伟达发布 Llama Nemotron Nano VL

英伟达发布 Llama Nemotron Nano VL

6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达(Nvidia)针对高效、精准地处理文档级理解任务,推出 Llama Nemotron Nano VL 视觉-语言模型(VLM)。

Llama Nemotron Nano VL 基于 Llama 3.1 架构,融合了 CRadioV2-H 视觉编码器和 Llama 3.1 8B 指令微调语言模型,能同时处理多页文档中的视觉和文本元素,支持最长 16K 的上下文长度,覆盖图像和文本序列。

模型通过投影层和旋转位置编码实现视觉-文本对齐,优化了 token 效率,特别适合长篇多模态任务,无论是多图像输入还是复杂文本解析,它都能游刃有余。

该模型的训练分为三个阶段:首先,利用商业图像和视频数据集进行交错式图文预训练;其次,通过多模态指令微调提升交互式提示能力;最后,重新混合纯文本指令数据以优化在标准语言模型基准上的表现。

训练采用英伟达的 Megatron-LLM 框架和 Energon 数据加载器,依托 A100 和 H100 GPU 集群完成。在 OCRBench v2 基准测试中,该模型在 OCR、表格解析和图表推理等任务上取得领先精度,尤其在结构化数据提取(如表格和键值对)及布局相关问题解答中表现突出,媲美更大规模模型。

部署方面,Llama Nemotron Nano VL 设计灵活,支持服务器和边缘推理场景。英伟达提供了 4-bit 量化版本(AWQ),结合 TinyChat 和 TensorRT-LLM 实现高效推理,兼容 Jetson Orin 等受限环境。

模型还支持 Modular NIM(NVIDIA 推理微服务)、onNX 和 TensorRT 导出,此外英伟达通过预计算视觉嵌入选项,进一步降低静态图像文档处理的延迟,为企业应用提供了实用解决方案。

附上参考地址

特别声明:[英伟达发布 Llama Nemotron Nano VL] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

从「千人千面」到「一人千时千面」 | GEO技术如何驱动品牌信息的情境化进化(从千人石上至山门,栉比如鳞翻译)

GEO (Generative Engine Optimization,生成式引擎优化)技术则是指通过优化内容,使其更符合生成式AI的理解和推荐逻辑,从而在AI生成的回答中获得品牌曝光和推荐。 让品牌信息…

从「千人千面」到「一人千时千面」 | GEO技术如何驱动品牌信息的情境化进化(从千人石上至山门,栉比如鳞翻译)

小米、阿里入局,科技巨头竞逐AI眼镜,谁能成为下一个爆款?(阿里和小米)

目前,国内市场中做AI智能眼镜的主要分为三类玩家,分别是初创企业、手机厂商和互联网大厂,不同基因的智能眼镜玩家,正走出差异化的探索路径。目前,市场上的AI眼镜普遍在1000-2000元范围,而AI+AR眼镜则…

小米、阿里入局,科技巨头竞逐AI眼镜,谁能成为下一个爆款?(阿里和小米)

又一30集悬疑剧来袭,万茜坐镇,明日首播,观众:又有好戏看了(电视剧,悬疑)

突如其来,一只手帕从背后迅速伸出,紧紧地捂住了她的口鼻,随即一根绳索也勒住了她的脖子,女子顿时无法呼吸,拼命地挣扎着。 朱雀堂,是一个掌控着当地地下世界的庞大犯罪集团,而这个集团的头目正是一名冷酷的女性——高…

又一30集悬疑剧来袭,万茜坐镇,明日首播,观众:又有好戏看了(电视剧,悬疑)

2025短发范本!层次锁骨发、微卷波波头……换对发型=换张脸(2021短发型)

像浅棕色这类柔和的发色,融入其中,在阳光下折射出温暖光泽,让层次锁骨发的优雅与俏皮完美平衡,适配日常通勤、约会等多种场景,是“懒人”变美的高效选择,随意一披就有松弛感。 2025年的这些短发发型,从不同维度…

2025短发范本!层次锁骨发、微卷波波头……换对发型=换张脸(2021短发型)

当年为什么非要找女人来演许仙?时隔33年,赵雅芝才说出真实原因(当年为什么非要打仗)

导演夏祖辉眼前一亮,毫不犹豫地决定让她出演,而叶童对这个剧本也是情有独钟,于是欣然接受。 第二,演白娘子的赵雅芝那时正与丈夫恩爱如初,得知剧情是爱情片后,担心会有绯闻影响家庭关系,果断拒绝了导演。叶童老师的刚…

当年为什么非要找女人来演许仙?时隔33年,赵雅芝才说出真实原因(当年为什么非要打仗)