午夜亚洲国产日本电影一区二区三区,九九久久99综合一区二区,国产一级毛片视频,草莓视频在线观看精品最新

加急見刊

基于互信息和鄰接熵的新詞發現算法

劉偉童; 劉培玉; 劉文鋒; 李娜娜 山東師范大學信息科學與工程學院; 濟南250358; 山東省分布式計算機軟件新技術重點實驗室; 濟南250358; 菏澤學院計算機學院; 山東菏澤274015

摘要:如何快速高效地識別新詞是自然語言處理中一項非常重要的任務。針對當前新詞發現存在的問題,提出了一種從左至右逐字在未切詞的微博語料中發現新詞的算法。通過計算候選詞語與其右鄰接字的互信息來逐字擴展,得到候選新詞;并通過計算鄰接熵、刪除候選新詞的首尾停用詞和過濾舊詞語等方法來過濾候選新詞,最終得到新詞集。解決了因切詞錯誤導致部分新詞無法識別以及通過n-gram方法導致大量重復詞串和垃圾詞串識別為新詞的問題。最后通過實驗驗證了該算法的有效性。

注: 保護知識產權,如需閱讀全文請聯系計算機應用研究雜志社