基于LDA模型的移動投訴文本熱點話題識別
摘要:【目的】運用中文信息處理和話題識別與追蹤的方法,從大量移動投訴文本中找出有價值的信息。【方法】從分析投訴文本的特點人手,使用k—means先對文本聚類。利用LDA對每個類進行建模,提取話題,并從詞頻、詞跨度和詞長三方面計算每個話題中詞的權(quán)值,把權(quán)重最大的詞作為該話題的標(biāo)簽,并計算每個話題的文檔分布概率均值。對具有相同標(biāo)簽的話題,先按照均值最大的原則去掉重復(fù)標(biāo)簽話題,再對所有話題計算文檔支持率,并將文檔支持率作為話題的熱度,通過熱度區(qū)分熱點話題和一般話題。【結(jié)果】對投訴文本進行時間上的建模,通過對比一般話題和熱點話題,得出熱點話題的支持文檔率至少是一般話題的3倍,支持文檔率變化趨勢也比一般話題高,說明本文算法是有效的。【局限】沒有考慮到話題之間的語義關(guān)系。【結(jié)論】利用LDA模型對移動投訴話題檢測初探的方法是比較合理和有效的,對今后此領(lǐng)域的研究具有一定的借鑒意義。
注: 保護知識產(chǎn)權(quán),如需閱讀全文請聯(lián)系現(xiàn)代圖書情報技術(shù)雜志社