olmOCR:比传统OCR精度更高、比GPT-4o省钱30倍

olmOCR:比传统OCR精度更高、比GPT-4o省钱30倍

在数字时代,高质量文本数据的获取对于推动语言模型的发展至关重要。

现代人工智能系统依赖于万亿级别的标记数据集来提高其准确性和效率。尽管大量数据来源于『互联网』,但其中相当一部分以PDF等格式存在,给内容提取带来了独特的挑战。

PDF处理的主要问题在于,这些文档存储信息是为了视觉呈现而非逻辑阅读顺序。许多PDF在字符级别编码文本,记录每个字母的位置和字体属性,而没有保留句子结构。

这使得在多栏布局或包含嵌入式表格、图像和公式的文档中重建连贯的叙事变得困难。

此外,扫描的PDF引入了额外的挑战,因为它们包含的是图像格式的文本而非机器可读字符。从这类文档中提取结构化和有意义的内容需要专门的工具来理解文本和视觉元素。

为了解决从PDF中提取文本的问题,研究人员已经开发出多种方法。

另一方面,端到端模型如Nougat和GOT Theory 2.0试图使用深度学习将整个PDF页面转换为可读文本。然而,许多系统成本高昂、不可靠或效率低下,不适合大规模应用。

艾伦人工智能研究所的研究人员推出了olmOCR,这是一个开源的Python工具包,旨在高效地将PDF文件转换为结构化纯文本,同时保留逻辑阅读顺序。

此工具包整合了文本信息和视觉信息,与传统的OCR方法相比,能够实现更高的提取精度。该系统基于一个70亿参数的视觉语言模型(VLM),该模型在从超过10万份独特文档中收集的260,000页PDF数据集上进行了微调。

与将PDF视为普通图像的传统OCR方法不同,olmOCR利用嵌入的文本及其空间位置来生成高保真的结构化内容。该系统针对大规模批量处理进行了优化,能够以成本效益的方式转换大量的文档库。其最显著的优势之一是,它只需190美元💵就能处理一百万页PDF,而同样的任务在GPT-4o上需要6,200美元💵,便宜了32倍。

olmOCR背后的核心创新是文档锚定技术,这是一种将文本元数据与基于图像的分析相结合的技术。与仅依赖于光栅化图像的端到端OCR模型不同,这种方法直接从PDF嵌入的数据中提取文本元素,并将它们与相应的视觉表示对齐。

此外,该系统采用微调技术来提高提取精度,利用专门为各种文档布局定制的数据集。模型训练过程涉及10,000次优化步骤,使用4个批次大小和1e-6的自适应学习率。olmOCR已被设计为可以无缝与推理框架如vLLM和SGLang一起运行。

该系统与其教师模型实现了0.875的对齐得分,超过了GPT-4o Mini等小型模型。在与其他OCR工具的直接比较中,olmOCR在准确性和效率上始终优于竞争对手。在人工评估中,该系统在领先的PDF提取方法中获得了最高的ELO评分。

此外,当使用olmOCR提取的文本对OLMo-2-1124-7B语言模型进行中期训练时,它在多个AI基准任务中平均提高了1.3个百分点的准确率。在ARC Challenge和DROP等数据集中观察到具体的性能提升,其中基于olmOCR的训练数据对语言模型理解能力的提升贡献显著。

olmOCR研究的主要收获包括:

  1. olmOCR基于一个70亿参数的视觉语言模型构建,并在10万个PDF文档的260,000页上进行微调,确保了跨不同文档类型的强大提取能力。

  2. 利用文档锚定技术将文本元数据与基于图像的信息相结合,显著提高了结构化内容的提取精度。

  3. 处理一百万页PDF仅需190美元💵,而使用GPT-4o则需要6,200美元💵,这使得它在大规模应用中成本效率提高了32倍。

  4. 实现了对齐分数0.875,超过了小型模型,并在重建逻辑阅读顺序方面展现了更高的准确性。

  5. 通过在AI基准数据集如ARC Challenge和DROP上提高1.3个百分点的准确性,改进语言模型训练。

  6. 与vLLM和SGLang等推理引擎兼容,允许在各种硬件配置上灵活部署。

仓库地址 https://github.com/allenai/olmocr

特别声明:[olmOCR:比传统OCR精度更高、比GPT-4o省钱30倍] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

赌王千金何超莲冒风雨站台,一身浅色裙好知性,身价百亿还这么拼(赌王千金何超莲个人资料)

在深圳某高端品牌的户外活动现场,却出现了令人意外的一幕——赌王千金何超莲正顶着烈日完成她的工作。就在几天前,她刚在沈阳完成一场商业活动,转眼又马不停蹄赶到深圳。 从商业到『娱乐圈』️,何超莲正在多个领域展现自己的才…

赌王千金何超莲冒风雨站台,一身浅色裙好知性,身价百亿还这么拼(赌王千金何超莲个人资料)

你也有今天凭什么打开现偶剧新思路?瑶钱树CP感从何而来?(你也有今天这句话)

正如陈铭章所说:&34偶像剧,肯定需要甜蜜的瞬间,但一定要有逻辑而非刻意。&34剧中的甜蜜场景都建立在合理的情节基础之上,避免了生硬的&34工业糖精&34式撒糖,让观众在感受甜

你也有今天凭什么打开现偶剧新思路?瑶钱树CP感从何而来?(你也有今天这句话)

华为开启“价格战”,6100mAh+卫星通信+256GB,国补后才卖1160元

虽然说华为畅享70X活力版的定位不高,但是综合配置还是不错的,在同价位手机中算不上强悍,但也算是均衡了,另外它还具备了畅享X按键,可以一键启动卫星通信功能,没有地面信号也可以收发短信消息,使用起来还是相当不…

华为开启“价格战”,6100mAh+卫星通信+256GB,国补后才卖1160元

拍8年警匪大片赔钱超过4亿!金城武『古天乐』『高圆圆』救不了(80年代警匪电影大陆)

今年国庆档的票房表现,简直堪称有史以来最为低迷的一届。10月1日当天,全国票房仅有3.2亿,接下来的两天,票房均未突破3亿大关。像《志愿军3》《刺杀小说家2》《浪浪人生》《震耳欲聋》等一众新上映的影片,票房竟…

拍8年警匪大片赔钱超过4亿!金城武『古天乐』『高圆圆』救不了(80年代警匪电影大陆)

董宇辉功高震主升任东方甄选高级合伙人?看历史上王翦如何应对?(董宇光简历)

3. 获得领导的认可——王翦能够让秦始皇亲自道歉并带领大军,董宇辉则通过“高级合伙人”身份获得了俞敏洪的认可,暂时稳住了自己的地位。 4. 将个人利益与团队利益绑定——王翦请求土地和财富,但目的始终是为了确…

董宇辉功高震主升任东方甄选高级合伙人?看历史上王翦如何应对?(董宇光简历)