User:Jujizhiwang/MinerU
外观
您提交的内容很可能并不适合维基百科。在2024年12月20日由Talimu0518 (留言)审阅。 在2024年12月20日由Talimu0518 (留言)审阅。最后由Talimu0518于10天前编辑。 |
您所提交的草稿仍需改善。在2024年12月19日由Talimu0518 (留言)审阅。 如何改善您的草稿
|
您所提交的草稿仍需改善。在2024年12月19日由Kanshui0943 (留言)审阅。 如何改善您的草稿
|
您所提交的草稿仍需改善。在2024年12月8日由MilkyDefer (留言)审阅。 如何改善您的草稿
|
您所提交的草稿仍需改善。在2024年11月26日由S8321414 (留言)审阅。 如何改善您的草稿
|
您所提交的草稿仍需改善。在2024年11月25日由姆汗費焰 (留言)审阅。 如何改善您的草稿
|
点评: 下述問題未解決 Kanshui0943(留言) 2024年12月19日 (四) 09:07 (UTC)
点评: 虽然加了来源了,但是加了一堆Twit……呃不对,X来源,让人很难信服。唯一一个像样的来源,中国证券报,内容跟这个MinerU一点关系都没有。文章写得也像是买微信公众号推送时给对方供的稿。 MilkyDefer 2024年12月8日 (日) 16:23 (UTC)
MinerU全称PDF文档数据转换器,是由上海人工智能实验室OpenDataLab团队开发的PDF文档数据提取的程序,2024年7月在Github开源,允许公众下载、部署、使用该工具。[1]
该程序核心部分是PDF-Extract-Kit模型库[2][3],原理是识别 PDF 版面中的图片、文字(OCR识别)、公式、表格、脚注、目录等元素,整理成机器可读的markdown、json格式[4] 。它的架构依赖于自然语言处理 (NLP) 和机器学习 (ML) 技术来有效地提取和组织数据。[5][6] 该工具被认为可应用在RAG(Retrieval-Augmented Generation,检索增强生成) 人工智能技术中,提取学术文献、财务报告、法律文件、电子书籍等专业文档数据,适用于打造个人私有的知识AI引擎场景。[7][8];不过也有反馈认为,其表格提取功能还有待优化,一些特殊的表格样式,提取效果还不够让人满意。[9]
发展历程
[编辑]2024年7月4日,世界人工智能大会WAIC 2024科学前沿主论坛上[10],上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队宣布在Github开源MinerU。[11]
2024年12月19日,MinerU Github star超过2.1万。(如图)
参考资料
[编辑]- ^ State-of-the-Art. MinerU: Open-Source AI Solution Significantly Boosts Document Extraction Accuracy. neurohive. [2024.09.30] (英语).
- ^ Nikos Kafritsas. Just came across 𝐏𝐃𝐅-𝐄𝐱𝐭𝐫𝐚𝐜𝐭-𝐊𝐢𝐭, an open-source tool that tags and extracts every kind of data from a PDF. Linkedin. [2024.07.19] (英语).
- ^ Python Trending. PDF-Extract-Kit - A Comprehensive Toolkit for High-Quality PDF Content Extraction. X. [2024.11.10] (英语).
- ^ Pankaj. MinerU: High-Quality PDF Conversion for the AI Era. Medium. [2024.12.1] (英语).
- ^ Pragati Jhunjhunwala. MinerU: An Open-Source PDF Data Extraction Tool. MarktechPost. [2024.10.5] (英语).
- ^ 顶层架构领域. MinerU一款全能、开源的文档与网页数据提取工具. 今日头条. 2024.09.13 [2024.09.13] (中文).
https://www.51cto.com/article/796972.html
- ^ Fahd Mirza. MinerU - High-Quality Local PDF Extraction with AI - Dataset Creation Helper. YouTube. [2024.08.23] (英语).
- ^ VlogleGuide. 非構造化データを宝に変える:MinerUと生成AIの威力. note. [2024.09.02] (日语).
- ^ kun432. PDFを読みやすいフォーマットに変換する「MinerU」を試す. zenn. [2024.11.26] (日语).
- ^ AIbase基地. 上海人工智能实验室开源智能数据提取工具——MinerU. AI新闻资讯. [2024.09.03] (中文).
- ^ meng shao. MinerU 是一个一站式、开源、高质量的数据提取工具,由 OpenDataLab 开源. X. [2024.7.11] (中文).