午夜亚洲国产日本电影一区二区三区,九九久久99综合一区二区,国产一级毛片视频,草莓视频在线观看精品最新

加急見刊

基于互信息和鄰接熵的新詞發(fā)現(xiàn)算法

劉偉童; 劉培玉; 劉文鋒; 李娜娜 山東師范大學(xué)信息科學(xué)與工程學(xué)院; 濟(jì)南250358; 山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室; 濟(jì)南250358; 菏澤學(xué)院計(jì)算機(jī)學(xué)院; 山東菏澤274015

摘要:如何快速高效地識(shí)別新詞是自然語言處理中一項(xiàng)非常重要的任務(wù)。針對(duì)當(dāng)前新詞發(fā)現(xiàn)存在的問題,提出了一種從左至右逐字在未切詞的微博語料中發(fā)現(xiàn)新詞的算法。通過計(jì)算候選詞語與其右鄰接字的互信息來逐字?jǐn)U展,得到候選新詞;并通過計(jì)算鄰接熵、刪除候選新詞的首尾停用詞和過濾舊詞語等方法來過濾候選新詞,最終得到新詞集。解決了因切詞錯(cuò)誤導(dǎo)致部分新詞無法識(shí)別以及通過n-gram方法導(dǎo)致大量重復(fù)詞串和垃圾詞串識(shí)別為新詞的問題。最后通過實(shí)驗(yàn)驗(yàn)證了該算法的有效性。

注: 保護(hù)知識(shí)產(chǎn)權(quán),如需閱讀全文請聯(lián)系計(jì)算機(jī)應(yīng)用研究雜志社