跳至內容

使用者:Jujizhiwang/MinerU

維基百科,自由的百科全書
點評: 下述問題未解決 Kanshui0943留言) 2024年12月19日 (四) 09:07 (UTC)
點評: 雖然加了來源了,但是加了一堆Twit……呃不對,X來源,讓人很難信服。唯一一個像樣的來源,中國證券報,內容跟這個MinerU一點關係都沒有。文章寫得也像是買微信公眾號推送時給對方供的稿。 MilkyDefer 2024年12月8日 (日) 16:23 (UTC)

MinerU全稱PDF文檔數據轉換器,是由上海人工智慧實驗室OpenDataLab團隊開發的PDF文檔數據提取的程序,2024年7月在Github開源,允許公眾下載、部署、使用該工具。[1]

該程序核心部分是PDF-Extract-Kit模型庫[2][3],原理是識別 PDF 版面中的圖片、文字(OCR識別)、公式表格腳註目錄等元素,整理成機器可讀的markdownjson格式[4] 。它的架構依賴於自然語言處理 (NLP) 和機器學習 (ML) 技術來有效地提取和組織數據。[5][6] 該工具被認為可應用在RAG(Retrieval-Augmented Generation,檢索增強生成) 人工智慧技術中,提取學術文獻財務報告法律文件電子書籍等專業文檔數據,適用於打造個人私有的知識AI引擎場景。[7][8];不過也有反饋認為,其表格提取功能還有待優化,一些特殊的表格樣式,提取效果還不夠讓人滿意。[9]

發展歷程

[編輯]

2024年7月4日,世界人工智慧大會WAIC 2024科學前沿主論壇上[10],上海人工智慧實驗室(上海AI實驗室)大模型數據基座OpenDataLab團隊宣布在Github開源MinerU。[11]

2024年12月19日,MinerU Github star超過2.1萬。(如圖)

PDF Document Extraction Open Source Tools Star Comparison

參考資料

[編輯]
  1. ^ State-of-the-Art. MinerU: Open-Source AI Solution Significantly Boosts Document Extraction Accuracy. neurohive. [2024.09.30] (英語). 
  2. ^ Nikos Kafritsas. Just came across 𝐏𝐃𝐅-𝐄𝐱𝐭𝐫𝐚𝐜𝐭-𝐊𝐢𝐭, an open-source tool that tags and extracts every kind of data from a PDF. Linkedin. [2024.07.19] (英語). 
  3. ^ Python Trending. PDF-Extract-Kit - A Comprehensive Toolkit for High-Quality PDF Content Extraction. X. [2024.11.10] (英語). 
  4. ^ Pankaj. MinerU: High-Quality PDF Conversion for the AI Era. Medium. [2024.12.1] (英語). 
  5. ^ Pragati Jhunjhunwala. MinerU: An Open-Source PDF Data Extraction Tool. MarktechPost. [2024.10.5] (英語). 
  6. ^ 頂層架構領域. MinerU一款全能、开源的文档与网页数据提取工具. 今日頭條. 2024.09.13 [2024.09.13] (中文). https://www.51cto.com/article/796972.html 
  7. ^ Fahd Mirza. MinerU - High-Quality Local PDF Extraction with AI - Dataset Creation Helper. YouTube. [2024.08.23] (英語). 
  8. ^ VlogleGuide. 非構造化データを宝に変える:MinerUと生成AIの威力. note. [2024.09.02] (日語). 
  9. ^ kun432. PDFを読みやすいフォーマットに変換する「MinerU」を試す. zenn. [2024.11.26] (日語). 
  10. ^ AIbase基地. 上海人工智能实验室开源智能数据提取工具——MinerU. AI新聞資訊. [2024.09.03] (中文). 
  11. ^ meng shao. MinerU 是一个一站式、开源、高质量的数据提取工具,由 OpenDataLab 开源. X. [2024.7.11] (中文).