詞形還原
語言學中的詞形還原(英語:Lemmatization)是將一個單詞的屈折形式組合在一起的過程,以便可以將它們作為單個項目進行分析,由該單詞的原形或詞典形式進行識別[1]。
在計算語言學中,詞形還原是根據一個單詞的預期含義來確定其詞形的算法過程。與詞幹提取不同的是,詞形還原取決於正確識別一個單詞在句子中的詞類和意義,以及在該句子周圍更大的語境中,例如鄰近的句子甚至整個文件中。因此,開發高效的詞義分析算法是一個開放的研究領域[2][3][4]。
描述
[编辑]在許多語言中,單詞會以多種屈折形式出現。例如在英語中,動詞「to walk」可能出現「walk」、「walked」、「walks」或「walking」。人們在字典中可能查到的基本形式「walk」,被稱為該詞的詞義。基本形式與一個語篇的關聯通常被稱為該詞的詞位。
詞形還原與詞幹提取密切相關。不同的是,詞幹提取在不了解上下文的情況下對單個單詞進行操作,因此不能區分因語篇不同而具有不同含義的單詞。然而詞幹提取通常更容易實現,運行速度也更快。對於某些應用來說,降低「準確度」可能並不重要。事實上,當在資訊檢索系統中使用時,與詞形還原比,詞幹提取提高了查詢召回的準確性,或真正的正面率。然而對於這些系統來說,詞幹提取降低了精確率,或者說實際為陽性的正標實例的比例[5]。
舉例來說:
- 「better」的原形是「good」。這種聯繫被詞幹提取所遺漏,因為它需要查詢字典。
- 「walk」是「walking」的基本形式,因此在詞幹提取和詞形還原中都與此相匹配。
- 根據上下文,「meeting」可以是名詞的基本形式,也可以是動詞的形式(「meet」);例如,「In our last meeting」或「We are meeting again tomorrow」。與詞幹提取不同,詞形還原試圖根據上下文選擇正確的原形。
像Lucene[6]這樣的文檔索引軟體可以存儲單詞的基本詞幹提取格式,而不需要了解詞義,只是考慮單詞形成的語法規則。詞幹提取的詞本身可能不是一個有效的單詞:如下例所示,「lazy」被許多詞幹提取為「lazi」。這是因為詞幹提取的目的不是為了產生適當的詞組——那是一個更具挑戰性的任務,需要對語境的了解。詞幹提取的主要目的是將一個單詞的不同形式映射到一個單一形式[7]。作為一個基於規則的算法,它只依賴於一個詞的拼寫,它犧牲了準確性,以確保,例如當「laziness」被詞幹提取為「lazi」時,它與「lazy」具有相同的詞幹。
演算法
[编辑]詞形還原的一個簡單的方法是通過簡單的字典查詢。這對直接的屈折形式很有效,但在其他情況下,例如在有長合成詞的語言中,就需要一個基於規則的系統。這種規則可以是手工製作的,也可以是從註釋的語料庫中自動學習的。
在生物醫學中的應用
[编辑]對已發表的生物醫學文獻進行形態學分析可以產生有用的結果。生物醫學文本的形態學處理可以通過專門的生物醫學的詞形還原程序更加有效,並可能提高實際信息抽取任務的準確性[8]。
參考資料
[编辑]- ^ Collins English Dictionary, entry for "lemmatise"
- ^ WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages (PDF). [2022-10-28]. (原始内容存档 (PDF)于2016-11-01).
- ^ Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich. Joint Lemmatization and Morphological Tagging with LEMMING (PDF). 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics: 2268–2274. 2015 [2022-10-28]. doi:10.18653/v1/D15-1272 . (原始内容 (PDF)存档于2017-10-31).
- ^ Bergmanis, Toms; Goldwater, Sharon. Context Sensitive Neural Lemmatization with Lematus (PDF). [2022-10-28]. (原始内容 (PDF)存档于2019-12-31).
- ^ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press. [2022-10-28]. (原始内容存档于2022-12-13).
- ^ Lucene Snowball. Apache project. [2022-10-28]. (原始内容存档于2022-12-10).
- ^ Martin Porter. Porter Stemmer. [2022-10-28]. (原始内容存档于2012-05-14).
- ^ Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. BioLemmatizer: A lemmatization tool for morphological processing of biomedical text. Journal of Biomedical Semantics. 2012, 3: 3. PMC 3359276 . PMID 22464129. doi:10.1186/2041-1480-3-3.