基于分布式框架下的中文文本特征分類
摘要:研究運用復旦中文文本及搜狗中文文檔作為研究對象,提高了中文文本分類精確度及召回率,分析得出特征詞的最佳貢獻值。應用樸素貝葉斯分類方法和改進的TFIDF關鍵字提取及權重計算,提出TNBIF模型分類方法,在Spark平臺上并行分類實現。實驗結果表明:應用TNBIF模型實行中文文本分類,精確度高達95.49%,比傳統文本分類方法精確度提高5.41%,召回率提高了6.64%。本研究得出最佳貢獻值為0.95。
注: 保護知識產權,如需閱讀全文請聯系電腦與電信雜志社