2月28日
olmOCR 是 Ai2 推出的开源工具,用在将 PDF 文档高效转换为干净的结构化纯文本。olmOCR结合文档锚定(document-anchoring)技术与Qwen2-VL-7B-Instruct(阿里多模态模型),支持处理多种类型的 PDF文档,包括学术论文、书籍、表格和图表等。olmOCR基于提取文档中的文本和布局信息,与页面图像结合,更准确地提取内容、保留结构化信息。

主要功能支持:
- PDF 文本提取与线性化: 将 PDF 文件转换为 Dolma 风格的 JSONL 格式文本,保留阅读顺序。
- GPU 加速推理: 利用本地 GPU 和 sglang 技术,实现高效文档处理。
- 多节点并行处理: 支持通过 AWS S3 协调多节点任务,适合处理数百万 PDF。
- 复杂内容识别: 处理表格、数学公式和手写文本,输出结构化结果。
- 灵活的工作区管理: 支持本地或云端工作区,存储处理结果和中间数据。
- 开源生态支持: 提供完整代码和文档,方便二次开发与定制。
在线体验:https://olmocr.allenai.org/
GitHub地址:https://github.com/allenai/olmocr