詞向量聚類加權TextRank的關鍵詞抽取
摘要:【目的】將維基百科蘊涵的世界知識以詞向量方式融入TextRank模型,改進單文檔關鍵詞抽取效果。【方法】利用Word2Vec模型基于維基百科中文數據,生成詞向量模型,對TextRank詞圖節點的詞向量進行聚類以調整簇內節點的投票重要性,結合節點的覆蓋和位置因素,計算節點之間的隨機跳轉概率,生成轉移矩陣,最終通過迭代計算獲得節點的重要性得分,選取前TopN個詞語生成關鍵詞。【結果】當TopN≤7時,詞向量聚類加權方法均優于對比方法;TopN=3時,F值取得最大值,比先前最優結果增量提升了3.374%;TopN〉7時,結果與位置加權法相似。【局限】聚類分析使得計算開銷變高。【結論】詞向量聚類加權能夠改善關鍵詞抽取效果。
注: 保護知識產權,如需閱讀全文請聯系現代圖書情報技術雜志社