基于分布式框架下的中文文本特征分類
摘要:研究運(yùn)用復(fù)旦中文文本及搜狗中文文檔作為研究對(duì)象,提高了中文文本分類精確度及召回率,分析得出特征詞的最佳貢獻(xiàn)值。應(yīng)用樸素貝葉斯分類方法和改進(jìn)的TFIDF關(guān)鍵字提取及權(quán)重計(jì)算,提出TNBIF模型分類方法,在Spark平臺(tái)上并行分類實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明:應(yīng)用TNBIF模型實(shí)行中文文本分類,精確度高達(dá)95.49%,比傳統(tǒng)文本分類方法精確度提高5.41%,召回率提高了6.64%。本研究得出最佳貢獻(xiàn)值為0.95。
注: 保護(hù)知識(shí)產(chǎn)權(quán),如需閱讀全文請(qǐng)聯(lián)系電腦與電信雜志社
字化用戶.jpg)
與技術(shù).jpg)
科技.jpg)
算機(jī)與網(wǎng)絡(luò).jpg)
碼世界.jpg)

于我們.jpeg)