基于互信息和鄰接熵的新詞發現算法
摘要:如何快速高效地識別新詞是自然語言處理中一項非常重要的任務。針對當前新詞發現存在的問題,提出了一種從左至右逐字在未切詞的微博語料中發現新詞的算法。通過計算候選詞語與其右鄰接字的互信息來逐字擴展,得到候選新詞;并通過計算鄰接熵、刪除候選新詞的首尾停用詞和過濾舊詞語等方法來過濾候選新詞,最終得到新詞集。解決了因切詞錯誤導致部分新詞無法識別以及通過n-gram方法導致大量重復詞串和垃圾詞串識別為新詞的問題。最后通過實驗驗證了該算法的有效性。
注: 保護知識產權,如需閱讀全文請聯系計算機應用研究雜志社