基于互信息和鄰接熵的新詞發(fā)現(xiàn)算法
摘要:如何快速高效地識(shí)別新詞是自然語言處理中一項(xiàng)非常重要的任務(wù)。針對(duì)當(dāng)前新詞發(fā)現(xiàn)存在的問題,提出了一種從左至右逐字在未切詞的微博語料中發(fā)現(xiàn)新詞的算法。通過計(jì)算候選詞語與其右鄰接字的互信息來逐字?jǐn)U展,得到候選新詞;并通過計(jì)算鄰接熵、刪除候選新詞的首尾停用詞和過濾舊詞語等方法來過濾候選新詞,最終得到新詞集。解決了因切詞錯(cuò)誤導(dǎo)致部分新詞無法識(shí)別以及通過n-gram方法導(dǎo)致大量重復(fù)詞串和垃圾詞串識(shí)別為新詞的問題。最后通過實(shí)驗(yàn)驗(yàn)證了該算法的有效性。
注: 保護(hù)知識(shí)產(chǎn)權(quán),如需閱讀全文請聯(lián)系計(jì)算機(jī)應(yīng)用研究雜志社