olmOCR:最新开源的PDF解析”六边形战士”!高精准提取文本、表格、公式等结构化数据!

2月28日

olmOCR 是 Ai2 推出的开源工具,用在将 PDF 文档高效转换为干净的结构化纯文本。olmOCR结合文档锚定(document-anchoring)技术与Qwen2-VL-7B-Instruct(阿里多模态模型),支持处理多种类型的 PDF文档,包括学术论文、书籍、表格和图表等。olmOCR基于提取文档中的文本和布局信息,与页面图像结合,更准确地提取内容、保留结构化信息。

主要功能支持:

  • PDF 文本提取与线性化: 将 PDF 文件转换为 Dolma 风格的 JSONL 格式文本,保留阅读顺序。
  • GPU 加速推理: 利用本地 GPU 和 sglang 技术,实现高效文档处理。
  • 多节点并行处理: 支持通过 AWS S3 协调多节点任务,适合处理数百万 PDF。
  • 复杂内容识别: 处理表格、数学公式和手写文本,输出结构化结果。
  • 灵活的工作区管理: 支持本地或云端工作区,存储处理结果和中间数据。
  • 开源生态支持: 提供完整代码和文档,方便二次开发与定制。

在线体验:https://olmocr.allenai.org/

GitHub地址:https://github.com/allenai/olmocr

发表回复