『英伟达』发布 Llama Nemotron Nano VL

6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称『英伟达』(Nvidia)针对高效、精准地处理文档级理解任务,推出 Llama Nemotron Nano VL 视觉-语言模型(VLM)。

Llama Nemotron Nano VL 基于 Llama 3.1 架构,融合了 CRadioV2-H 视觉编码器和 Llama 3.1 8B 指令微调语言模型,能同时处理多页文档中的视觉和文本元素,支持最长 16K 的上下文长度,覆盖图像和文本序列。

模型通过投影层和旋转位置编码实现视觉-文本对齐,优化了 token 效率,特别适合长篇多模态任务,无论是多图像输入还是复杂文本解析,它都能游刃有余。

今日霍州(www.jrhz.info)©️

该模型的训练分为三个阶段:首先,利用商业图像和视频数据集进行交错式图文预训练;其次,通过多模态指令微调提升交互式提示能力;最后,重新混合纯文本指令数据以优化在标准语言模型基准上的表现。

今日霍州(www.jrhz.info)©️

训练采用『英伟达』的 Megatron-LLM 框架和 Energon 数据加载器,依托 A100 和 H100 GPU 集群完成。在 OCRBench v2 基准测试中,该模型在 OCR、表格解析和图表推理等任务上取得领先精度,尤其在结构化数据提取(如表格和键值对)及布局相关问题解答中表现突出,媲美更大规模模型。

今日霍州(www.jrhz.info)©️

部署方面,Llama Nemotron Nano VL 设计灵活,支持『服务器』和边缘推理场景。『英伟达』提供了 4-bit 量化版本(AWQ),结合 TinyChat 和 TensorRT-LLM 实现高效推理,兼容 Jetson Orin 等受限环境。

模型还支持 Modular NIM(NVIDIA 推理微服务)、onNX 和 TensorRT 导出,此外『英伟达』通过预计算视觉嵌入选项,进一步降低静态图像文档处理的延迟,为企业应用提供了实用解决方案。

附上参考地址

特别声明:[『英伟达』发布 Llama Nemotron Nano VL] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

歌语世家意大利OLMETEX定制夹克适合哪些商务场合?2025消费升级解读(歌语世家团体服饰)

在追求高品质穿着体验的当下,歌语世家OLMETEX定制夹克以其修身、抗皱、舒适的特点成为商务休闲的理想选择。本篇文章从面料、版型、舒适度等多个维度为您详解,帮助您找到最适合的外套🧥款式。特别关注2025年的消费趋势和升级需求,让您在职场中自信

歌语世家意大利OLMETEX定制夹克适合哪些商务场合?2025消费升级解读(歌语世家团体服饰)

洁尔阴泡腾片主治哪些疾病及包含哪些成分(洁尔阴泡腾片的成分)

洁尔阴泡腾片主要用于治疗妇女湿热带下的症状,包括阴部瘙痒红肿、白带异常等症状,并可用于治疗霉菌性、滴虫性和非特异性的阴道炎症。其主要成分为蛇床子、艾叶、石菖蒲、薄荷、黄柏、黄芩、苦参、地肤子、茵陈、土荆皮、栀子以及金银花。该药具有清热燥湿的

洁尔阴泡腾片主治哪些疾病及包含哪些成分(洁尔阴泡腾片的成分)

工业“焕新”神器!揭秘喷砂房的硬核实力

无论是金属表面除锈、工件预处理,还是涂层附着力强化,它都以高效、精准的表现,成为众多行业不可或缺的关键设备。从房体尺寸、喷砂方式(干喷湿喷),到除尘系统、控制系统配置,都能根据企业实际生产场景量身打造,让设…

工业“焕新”神器!揭秘喷砂房的硬核实力

华南理工大学新专利:耐候防腐蚀聚脲涂料的革命性突破!(华南理工大学『新能源』科学与工程)

2025年10月,华南理工大学与广东达尔新型材料有限公司联合申请了一项引人注目的专利,名为“一种耐候防腐蚀聚脲涂料及其制备方法和应用”。这一专利的公开号为CN121293857A,旨在解决传统涂料在户外使用中…

华南理工大学新专利:耐候防腐蚀聚脲涂料的革命性突破!(华南理工大学『新能源』科学与工程)

巴金和他的妻子(巴金和他的妻子萧姗)

看到表姐妹和兄弟们在婚姻与恋爱中受到的种种不幸,他深感同情。后来,他的家庭也想把包办婚姻强加在他身上,巴金毫不妥协,最终在1923年,19岁的他决定逃离家庭,来到了上海,避免了与一位富家小姐的婚约。但随着历史…

巴金和他的妻子(巴金和他的妻子萧姗)