使用者:Jujizhiwang/MinerU
外觀
您提交的內容很可能並不適合維基百科。在2024年12月20日由Talimu0518 (留言)審閱。 在2024年12月20日由Talimu0518 (留言)審閱。最後由Talimu0518於13天前編輯。 |
您所提交的草稿仍需改善。在2024年12月19日由Talimu0518 (留言)審閱。 如何改善您的草稿
|
您所提交的草稿仍需改善。在2024年12月19日由Kanshui0943 (留言)審閱。 如何改善您的草稿
|
您所提交的草稿仍需改善。在2024年12月8日由MilkyDefer (留言)審閱。 如何改善您的草稿
|
您所提交的草稿仍需改善。在2024年11月26日由S8321414 (留言)審閱。 如何改善您的草稿
|
您所提交的草稿仍需改善。在2024年11月25日由姆汗費焰 (留言)審閱。 如何改善您的草稿
|
點評: 下述問題未解決 Kanshui0943(留言) 2024年12月19日 (四) 09:07 (UTC)
點評: 雖然加了來源了,但是加了一堆Twit……呃不對,X來源,讓人很難信服。唯一一個像樣的來源,中國證券報,內容跟這個MinerU一點關係都沒有。文章寫得也像是買微信公眾號推送時給對方供的稿。 MilkyDefer 2024年12月8日 (日) 16:23 (UTC)
MinerU全稱PDF文檔數據轉換器,是由上海人工智慧實驗室OpenDataLab團隊開發的PDF文檔數據提取的程序,2024年7月在Github開源,允許公眾下載、部署、使用該工具。[1]
該程序核心部分是PDF-Extract-Kit模型庫[2][3],原理是識別 PDF 版面中的圖片、文字(OCR識別)、公式、表格、腳註、目錄等元素,整理成機器可讀的markdown、json格式[4] 。它的架構依賴於自然語言處理 (NLP) 和機器學習 (ML) 技術來有效地提取和組織數據。[5][6] 該工具被認為可應用在RAG(Retrieval-Augmented Generation,檢索增強生成) 人工智慧技術中,提取學術文獻、財務報告、法律文件、電子書籍等專業文檔數據,適用於打造個人私有的知識AI引擎場景。[7][8];不過也有反饋認為,其表格提取功能還有待優化,一些特殊的表格樣式,提取效果還不夠讓人滿意。[9]
發展歷程
[編輯]2024年7月4日,世界人工智慧大會WAIC 2024科學前沿主論壇上[10],上海人工智慧實驗室(上海AI實驗室)大模型數據基座OpenDataLab團隊宣布在Github開源MinerU。[11]
2024年12月19日,MinerU Github star超過2.1萬。(如圖)
參考資料
[編輯]- ^ State-of-the-Art. MinerU: Open-Source AI Solution Significantly Boosts Document Extraction Accuracy. neurohive. [2024.09.30] (英語).
- ^ Nikos Kafritsas. Just came across 𝐏𝐃𝐅-𝐄𝐱𝐭𝐫𝐚𝐜𝐭-𝐊𝐢𝐭, an open-source tool that tags and extracts every kind of data from a PDF. Linkedin. [2024.07.19] (英語).
- ^ Python Trending. PDF-Extract-Kit - A Comprehensive Toolkit for High-Quality PDF Content Extraction. X. [2024.11.10] (英語).
- ^ Pankaj. MinerU: High-Quality PDF Conversion for the AI Era. Medium. [2024.12.1] (英語).
- ^ Pragati Jhunjhunwala. MinerU: An Open-Source PDF Data Extraction Tool. MarktechPost. [2024.10.5] (英語).
- ^ 頂層架構領域. MinerU一款全能、开源的文档与网页数据提取工具. 今日頭條. 2024.09.13 [2024.09.13] (中文).
https://www.51cto.com/article/796972.html
- ^ Fahd Mirza. MinerU - High-Quality Local PDF Extraction with AI - Dataset Creation Helper. YouTube. [2024.08.23] (英語).
- ^ VlogleGuide. 非構造化データを宝に変える:MinerUと生成AIの威力. note. [2024.09.02] (日語).
- ^ kun432. PDFを読みやすいフォーマットに変換する「MinerU」を試す. zenn. [2024.11.26] (日語).
- ^ AIbase基地. 上海人工智能实验室开源智能数据提取工具——MinerU. AI新聞資訊. [2024.09.03] (中文).
- ^ meng shao. MinerU 是一个一站式、开源、高质量的数据提取工具,由 OpenDataLab 开源. X. [2024.7.11] (中文).