跳转到内容

User:Jujizhiwang/MinerU

维基百科,自由的百科全书
点评: 下述問題未解決 Kanshui0943留言) 2024年12月19日 (四) 09:07 (UTC)
点评: 虽然加了来源了,但是加了一堆Twit……呃不对,X来源,让人很难信服。唯一一个像样的来源,中国证券报,内容跟这个MinerU一点关系都没有。文章写得也像是买微信公众号推送时给对方供的稿。 MilkyDefer 2024年12月8日 (日) 16:23 (UTC)

MinerU全称PDF文档数据转换器,是由上海人工智能实验室OpenDataLab团队开发的PDF文档数据提取的程序,2024年7月在Github开源,允许公众下载、部署、使用该工具。[1]

该程序核心部分是PDF-Extract-Kit模型库[2][3],原理是识别 PDF 版面中的图片、文字(OCR识别)、公式表格脚注目录等元素,整理成机器可读的markdownjson格式[4] 。它的架构依赖于自然语言处理 (NLP) 和机器学习 (ML) 技术来有效地提取和组织数据。[5][6] 该工具被认为可应用在RAG(Retrieval-Augmented Generation,检索增强生成) 人工智能技术中,提取学术文献财务报告法律文件电子书籍等专业文档数据,适用于打造个人私有的知识AI引擎场景。[7][8];不过也有反馈认为,其表格提取功能还有待优化,一些特殊的表格样式,提取效果还不够让人满意。[9]

发展历程

[编辑]

2024年7月4日,世界人工智能大会WAIC 2024科学前沿主论坛上[10],上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队宣布在Github开源MinerU。[11]

2024年12月19日,MinerU Github star超过2.1万。(如图)

PDF Document Extraction Open Source Tools Star Comparison

参考资料

[编辑]
  1. ^ State-of-the-Art. MinerU: Open-Source AI Solution Significantly Boosts Document Extraction Accuracy. neurohive. [2024.09.30] (英语). 
  2. ^ Nikos Kafritsas. Just came across 𝐏𝐃𝐅-𝐄𝐱𝐭𝐫𝐚𝐜𝐭-𝐊𝐢𝐭, an open-source tool that tags and extracts every kind of data from a PDF. Linkedin. [2024.07.19] (英语). 
  3. ^ Python Trending. PDF-Extract-Kit - A Comprehensive Toolkit for High-Quality PDF Content Extraction. X. [2024.11.10] (英语). 
  4. ^ Pankaj. MinerU: High-Quality PDF Conversion for the AI Era. Medium. [2024.12.1] (英语). 
  5. ^ Pragati Jhunjhunwala. MinerU: An Open-Source PDF Data Extraction Tool. MarktechPost. [2024.10.5] (英语). 
  6. ^ 顶层架构领域. MinerU一款全能、开源的文档与网页数据提取工具. 今日头条. 2024.09.13 [2024.09.13] (中文). https://www.51cto.com/article/796972.html 
  7. ^ Fahd Mirza. MinerU - High-Quality Local PDF Extraction with AI - Dataset Creation Helper. YouTube. [2024.08.23] (英语). 
  8. ^ VlogleGuide. 非構造化データを宝に変える:MinerUと生成AIの威力. note. [2024.09.02] (日语). 
  9. ^ kun432. PDFを読みやすいフォーマットに変換する「MinerU」を試す. zenn. [2024.11.26] (日语). 
  10. ^ AIbase基地. 上海人工智能实验室开源智能数据提取工具——MinerU. AI新闻资讯. [2024.09.03] (中文). 
  11. ^ meng shao. MinerU 是一个一站式、开源、高质量的数据提取工具,由 OpenDataLab 开源. X. [2024.7.11] (中文).