百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流(百度打开)

百度把他们全新的视觉理解模型Qianfan-VL直接开源了。

Qianfan-VL系列一共有三个版本,3B、8B和70B,参数量从小到大,分别对应不同的应用场景。

模型从头到尾,都是在百度自己家的『芯片』昆仑芯P800上训练出来的。

模型的性能和应用

Qianfan-VL是一个多模态大模型,就是那种既能看懂图片又能理解文字的AI。一张复杂的图表,它能分析出里面的数据和趋势。

它最核心的两个本领是OCR(光学字符识别)和教育场景的深度优化。

你拍一张身份证🪪,系统自动把你的姓名、证件号填好,这就是OCR。Qianfan-VL把这项能力做到了全场景覆盖,不管是印刷体、手写字,还是藏在街边招牌、商品包装袋上的艺术字,甚至是数学卷子上的复杂公式,它都能识别。发票、单据里的信息也能自动抽出来,变成结构化的数据。

而在教育场景,特别是K12(从幼儿园到高三)阶段,它的目标就是成为一个超级学霸。拍照解题、几何推理、函数分析,这些都是它的强项。

Qianfan-VL和国际上几个主流的多模态模型跑分对比。

在科学问答测试ScienceQA里,70B版本的Qianfan-VL拿到了接近满分的98.76,把一众对手甩在身后。

尤其是在中文多模态基准测试CCBench中,Qianfan-VL-70B拿到了80.98分,而同级别的对手只有70分出头。这说明它在理解中文语境下的图文内容时,优势非常明显。

在数学解题相关的几项测试,比如Mathvista-mini,Math Vision和Math Verse里,Qianfan-VL-70B几乎是碾压式的领先。

纯血国产『芯片』训练

支撑Qianfan-VL模型训练的,是百度自研的昆仑芯P800『芯片』。

2025年4月,百度点亮了国内首个全自研的3万卡昆仑芯P800集群。Qianfan-VL的所有训练任务,都是在一个超过5000张昆仑芯P800卡的集群上完成的。

昆仑芯P800是个什么水平?

从纸面参数看,昆仑芯P800有一个非常突出的优点,就是功耗控制得极好,150W到160W的功耗,远低于竞争对手。这意味着在组建大规模集群时,能耗和散热成本会更有优势。

昆仑芯P800真正的杀手锏在于它的架构设计。

P800的XPU-R架构,从硬件上就把计算单元和通信单元分开了。这就好比把单行道改成了双向八车道,旁边还修了条专门给行人走的人行道。计算和通信各走各的路,互不干扰,可以同时进行。

百度把这个技术叫做“通算融合”。通过精巧的调度,可以让数据传输的等待时间,完全被计算过程所掩盖。比如,在计算第一块数据的时候,第二块数据已经在传输的路上了,等第一块算完,第二块正好无缝衔接。这样一来,『芯片』的利用率被大大提高了。

基于这种能力,百度还推出了“昆仑芯超节点”方案,能把64张昆仑芯P800塞进一个机柜里。卡与卡之间的数据交换从速度较慢的“机间通信”变成了速度飞快的“机内通信”,带宽直接提升8倍,单机训练性能提升10倍。

模型是这么炼成的

它的底层架构融合了业界的优秀成果。语言模型部分,小参数的3B版本基于Qwen2.5,而主力8B和70B版本则基于Llama 3.1。视觉编码器用了InternViT,最高能处理4K分辨率的超高清图像。

精髓在于它的训练方法,百度设计了一套创新的“四阶段训练管线”,像一个精密的四步升级程序。

“跨模态对齐”。这个阶段的目标很简单,就是先让模型的语言部分和视觉部分认识一下,建立最基础的连接。训练的时候,只更新它俩之间的连接件(一个叫MLP Adapter的东西),语言和视觉模块本身都先冻结,避免互相影响。

“通用知识注入”。这个阶段开始给模型疯狂“喂”数据,总共投喂了2.66T tokens的通用知识数据。同时,模型的全部参数都放开进行训练。这个阶段的目标是为模型打下坚实的通识基础,让它成为一个见多识广的“通才”。

“领域增强知识注入”。在成为“通才”之后,就要开始培养它的“专长”了。百度精选了大量高质量的OCR、文档理解、数学解题等领域的数据,对模型进行专项强化训练。为了防止模型在学习专业知识时忘记了通用知识(这个现象在AI训练中被称为“灾难性遗忘”),训练时还会掺入一部分通用数据。

“后训练”。经过前三个阶段,模型已经能力很强了,但可能还不太“听话”。这个阶段就是通过大量的指令微调数据,教模型如何更好地理解和遵循人类的指令,让它变得更像一个得力的助手。

第三阶段使用的专业数据,是百度通过一套高精度数据合成管线自己“造”出来的。

目前,Qianfan-VL的全系列模型已经在GitHub和Hugging Face等平台全面开源,企业和开发者可以自由下载使用。

百度智能云的千帆平台也提供了在线体验和部署服务。

GitHub:

https://github.com/baidubce/Qianfan-VL

Hugging Face:

https://huggingface.co/baidu/Qianfan-VL-70B

https://huggingface.co/baidu/Qianfan-VL-8B

https://huggingface.co/baidu/Qianfan-VL-3B

ModelScope:

https://modelscope.cn/organization/baidu-qianfan

特别声明:[百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流(百度打开)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

海外看电视地区限制怎么办?简单三步解决困扰(海外看电视地区怎么看)

别急,今天我来分享一个实用解决方案——"番茄加速器",它能一键优化网络路由,让你轻松解锁大陆服务,告别延迟和区域限制。最靠谱的方法是使用网络优化工具,它们能伪造你的虚拟位置,让系统误以为你在国内。 总结一

海外看电视地区限制怎么办?简单三步解决困扰(海外看电视地区怎么看)

『德云社』章九徕坐飞机,公务舱超售获补偿,孔云龙后悔的直叹气(『德云社』章九徕原名叫什么)

『德云社』的章九徕最近在直播中分享了一段自己坐飞机的趣事,关于因为公务舱超售,自己最终获得了航司补偿的经历。 与章九徕搭档后,孔云龙的运气和事业都有了明显的变化。大家都能看得出,『郭德纲』和王惠对孔云龙的宠爱是真…

『德云社』章九徕坐飞机,公务舱超售获补偿,孔云龙后悔的直叹气(『德云社』章九徕原名叫什么)

眉毛增长液效果持续多久?2026年眉毛增长液选购指南,进口成分 + 无添加配方成优选(眉毛增长液效果如何)

当前市场呈现三大趋势:一是植物成分与进口原料受青睐,二是『敏感肌』友好型产品需求激增,三是“毛囊激活+屏障修护”双效产品成主流。 选购提示:2026年眉部护理将更注重“健康毛囊环境”与“温和无负担”,建议优先选择…

眉毛增长液效果持续多久?2026年眉毛增长液选购指南,进口成分 + 无添加配方成优选(眉毛增长液效果如何)

精准控光赋能——适配UV膜粘性分级的解胶方案

针对高粘性UV膜的解胶需求,润铎UVLED解胶机可灵活调节光照强度与照射时间,通过精准输出高强度『紫外线』,快速触发粘性层化学反应,确保其剥离黏度从5000-12000mN20mm降至1000mN20mm以…

精准控光赋能——适配UV膜粘性分级的解胶方案

长映不衰,这部金棕榈史诗铸就了小西天传奇

开句玩笑,在北京的电影文艺青年,不来资料馆看过《地下》,绳命恐怕是不完整的。 同日,北马其顿电影结构大师米尔科·曼彻夫斯基带有超现实主义色彩的实验性电影《比基尼👙·穆恩》北京首映;让土耳其大师杰兰捧回戛纳电影节…

长映不衰,这部金棕榈史诗铸就了小西天传奇