文字挖掘

文字挖掘（Text mining）有時也被稱為文字探勘、文字數據探勘等，大致相當於文字分析，一般指文字處理過程中產生高質素的資訊。高質素的資訊通常通過分類和預測來產生，如圖型識別。文字挖掘通常涉及輸入文字的處理過程（通常進行分析，同時加上一些衍生語言特徵以及消除雜音，隨後插入到資料庫中），產生結構化數據，並最終評價和解釋輸出。'高質素'的文字挖掘通常是指某種組合的相關性，新穎性和趣味性。典型的文字挖掘方法包括文字分類，文字聚類，概念/實體挖掘，生產精確分類，觀點分析，文件摘要和實體關係模型（即，學習已命名實體之間的關係）。文字分析包括了資訊檢索與詞典分析來研究詞語的頻數分佈、圖型識別、標籤\註釋、資訊抽取，數據探勘技術包括連結和關聯分析、視覺化和預測分析。本質上，首要的任務是，通過自然語言處理（NLP）和分析方法，將文字轉化為數據進行分析。

文字挖掘與文字分析

文字分析這一術語描述了一套語言學、統計學和機器學習技術，其對文字來源的內容資訊進行建模和結構化，用於商業智能、探索性數據分析（英語：Exploratory data analysis）、研究或調查。^[1] 該術語大致與文字挖掘同義；事實上，Ronen Feldman在2004年修改了2000年對 "文字挖掘"^[2]的描述，以描述 "文字分析"。^[3]後一個術語現在在商業環境中使用得更頻繁，而 "文字挖掘 "則用於一些最早可以追溯到1980年代的應用領域，^[4]尤其是在生命科學研究和政府情報方面。

文字分析這一術語也描述了文字分析對商業問題的應用，無論是獨立的還是與現場數字數據的查詢和分析相結合的。不言而喻的，80%的商業相關資訊是以非結構化（英語：Unstructured data）的形式出現的，主要是文字。^[5]這些技術和過程可以發現並展示知識——事實、商業規則（英語：Business rule）和關係——否則這些知識就會被鎖定在文字形式中，無法被自動處理。

歷史

勞工密集型的人工純文字挖掘方法最早出現在20世紀80年代中期，但在過去的十年中，技術的進步已經使這一領域迅速取得進展。文字挖掘已經是資訊檢索、數據探勘、機器學習、統計以及計算語言學等學科中的重要領域。由於目前的大多數資訊（80％）是以文字的形式來儲存，文字挖掘被認為具有較高的商業潛在價值。

多語種數據探勘已經越來越多的引起人們的興趣：能夠根據自己的意願從跨語種的文字來源中挖掘出有用的資訊。

應用

現在，文字挖掘技術被廣泛地應用於各種政府、研究和商業需求。所有這些群體都可能將文字挖掘用於管理記錄和搜尋與他們日常活動相關的檔案。例如，法律專業人士可將文字挖掘用於電子取證（英語：Electronic discovery）。政府和軍事團體將文字挖掘用於國家安全和情報目的。科學研究人員將文字挖掘方法納入組織大量文字數據（即解決非結構化數據（英語：Unstructured data）的問題）的工作中，以挖掘通過文字交流的想法（例如，社交媒體的情感分析^[6]^[7]^[8]），並支援生命科學和生物資訊科學等領域的科學發現（英語：Discovery (observation)）。在商業領域，其應用有支援競爭情報和自動廣告投放（英語：Ad serving），以及其他許多活動。

安全應用

許多文字挖掘的軟件套件是為安全應用的。它們多數是出於國家安全的目的，監控和分析類似於互聯網新聞（英語：Digital journalism）、網誌等的線上純文字。^[9] 文字加密和解密的領域也需要研究文字挖掘。

軟件應用

包括IBM和微軟在內的大公司也在研究和開發文字挖掘方法和軟件，以進一步實現文字挖掘和分析過程的自動化；而搜尋和索引領域的一些公司也在研究和開發文字挖掘方法和軟件，以改善其結果。在公共部門內，許多努力集中在開發跟蹤和監測恐怖活動的軟件上。^[10]對於研究而言，Weka軟件（見後文「軟件和應用」部分）是科學界最受歡迎的選擇之一，它對初學者來說是一個很好的入門點。對於Python程式設計師來說，為更加普遍的目的有一個優秀的工具包，叫做NLTK（英語：Natural Language Toolkit）。對於更進階的程式設計師，還有Gensim（英語：Gensim）庫，它專注於基於詞嵌入的文字表示。

線上媒體應用

大型媒體公司，如Tribune Media，正在使用文字挖掘來澄清資訊，為讀者提供更好的搜尋體驗，這反過來又增加了網站的 "粘性 "和收入。此外，在後端，編輯們也正在受益，因為他們能夠分享、關聯和包裝新聞，大大增加了內容賺錢的機會。

行銷應用

文字分析正在被應用於商業領域，特別是行銷領域，如客戶關係管理。^[11]Coussement和Van den Poel（2008）^[12]^[13]將其應用於改善客戶流失（英語：Customer attrition）的預測分析模型。^[12]文字挖掘也被應用於股票收益預測。^[14]

情感分析

情感分析可能涉及對電影評論的分析，以估計評論對電影的好感程度。^[15]這種分析可能需要一個已標記的數據集或對詞的情感性進行標記。WordNet^[16]和ConceptNet（英語：Open Mind Common Sense）^[17]已經有分別詞彙和概念的情感性資源。

在情感計算的相關領域，文字已經被用來檢測情感。^[18]基於文字的情感計算方法已經被用於多個語料庫，如學生評價、兒童故事和新聞故事。情感分析也被應用於分析社交媒體內容。例如，之前對碳中和貼文的研究發現，正面情緒微博（83.9%）大約是負面情緒微博（9.9%）的八倍，只有 6.3% 是中性的^[19]。

軟件和應用

用來文字挖掘的電腦程式可從許多商業和開放原始碼公司和來源獲得。

開源軟件和應用

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/ （頁面存檔備份，存於互聯網檔案館）

影響

直到最近，網站最常使用的是基於文字的搜尋，它只能找到包含用戶給定的特定單詞或短語的檔案。現在，通過使用語意網，文字挖掘可以根據意義和上下文（而不僅僅是某個特定的詞）來尋找內容。此外，文字挖掘軟件可以被用來建立有關特定人物和事件的大型資訊檔案。例如，可以根據從新聞報道中提取的數據建立大型數據集，以促進社會網絡分析或反情報工作。實際上，文字挖掘軟件的作用類似於情報分析員或研究圖書管理員，儘管分析的範圍更有限。文字挖掘也被用於一些電子郵件的垃圾郵件過濾器，作為確定可能為廣告或其他不需要的材料的資訊的一種方式。文字挖掘在確定金融市場情緒（英語：Market sentiment）方面發揮着重要作用。

註釋

Ronen Feldman and James Sanger, The Text Mining Handbook, Cambridge University Press, ISBN 9780521836579
Kao Anne, Poteet, Steve R. (Editors), Natural Language Processing and Text Mining, Springer, ISBN 184628175X
Konchady Manu "Text Mining Application Programming (Programming Series)" by Manu Konchady, Charles River Media, ISBN 1584504609
M. Ikonomakis, S. Kotsiantis, V. Tampakas, Text Classification Using Machine Learning Techniques, WSEAS Transactions on Computers, Issue 8, Volume 4, August 2005, pp. 966-974 (https://web.archive.org/web/20081203004649/http://www.math.upatras.gr/~esdlab/en/members/kotsiantis/Text%20Classification%20final%20journal.pdf)

參考資料

^ Business Technology News and Commentary. InformationWeek. [2022-08-22] （英語）.
^ KDD-2000 Workshop on Text Mining – Call for Papers. Cs.cmu.edu. [2015-02-23]. （原始內容存檔於2022-07-13）.
^ [1] 互聯網檔案館的存檔，存檔日期March 3, 2012，.
^ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. Natural language access to structured text. Proceedings of the 9th conference on Computational linguistics 1. 1982: 127–32. S2CID 6433117. doi:10.3115/991813.991833.
^ Unstructured Data and the 80 Percent Rule. Breakthrough Analysis. August 2008 [2015-02-23]. （原始內容存檔於2014-09-12）.
^ Pang, Bo; Lee, Lillian. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval. 2008, 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . ISSN 1554-0669. doi:10.1561/1500000011.
^ Paltoglou, Georgios; Thelwall, Mike. Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media. ACM Transactions on Intelligent Systems and Technology. 2012-09-01, 3 (4): 66. ISSN 2157-6904. S2CID 16600444. doi:10.1145/2337542.2337551.
^ Sentiment Analysis in Twitter < SemEval-2017 Task 4. alt.qcri.org. [2018-10-02]. （原始內容存檔於2019-03-24）.
^ Zanasi, Alessandro. Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing 53: 53. 2009. ISBN 978-3-540-88180-3. doi:10.1007/978-3-540-88181-0_7.
^ [2] 互聯網檔案館的存檔，存檔日期October 4, 2013，.
^ Text Analytics. Medallia. [2015-02-23]. （原始內容存檔於2017-11-08）.
^ ^12.0 ^12.1 Coussement, Kristof; Van Den Poel, Dirk. Integrating the voice of customers through call center emails into a decision support system for churn prediction. Information & Management. 2008, 45 (3): 164–74 [2022-08-22]. CiteSeerX 10.1.1.113.3238 . doi:10.1016/j.im.2008.01.005. （原始內容存檔於2019-12-15）.
^ Coussement, Kristof; Van Den Poel, Dirk. Improving customer complaint management by automatic email classification using linguistic style features as predictors. Decision Support Systems. 2008, 44 (4): 870–82. doi:10.1016/j.dss.2007.10.010.
^ Ramiro H. Gálvez; Agustín Gravano. Assessing the usefulness of online message board mining in automatic stock prediction systems. Journal of Computational Science. 2017, 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar. Thumbs up?. Proceedings of the ACL-02 conference on Empirical methods in natural language processing 10. 2002: 79–86. S2CID 7105713. doi:10.3115/1118693.1118704.
^ Alessandro Valitutti; Carlo Strapparava; Oliviero Stock. Developing Affective Lexical Resources (PDF). PsychNology Journal. 2005, 2 (1): 61–83 [2008-09-27]. （原始內容存檔 (PDF)於2018-09-20）.
^ Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain. SenticNet: a Publicly Available Semantic Resource for Opinion Mining (PDF). Proceedings of AAAI CSK: 14–18. 2010 [2022-08-22]. （原始內容存檔 (PDF)於2019-03-29）.
^ Calvo, Rafael A; d'Mello, Sidney. Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications. IEEE Transactions on Affective Computing. 2010, 1 (1): 18–37. S2CID 753606. doi:10.1109/T-AFFC.2010.1.
^ (2023) A Study on Public Perceptions of Carbon Neutrality in China: has the Idea of ESG Been Encompassed? Front. Environ. Sci. 10:949959. doi: 10.3389/fenvs.2022.949959

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智能（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文字挖掘	文字分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體辨識指代文字情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文件摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文字簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語意學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動辨識與數據採集	語音辨識語音合成光學字元辨識自然語言生成提示工程
主題模型	彈珠分佈（英語：Pachinko allocation）隱含狄利克雷分佈潛在語意索引
電腦輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文字（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言用戶介面（英語：Natural language user interface）	自動線上助手聊天機械人文字冒險遊戲問答系統