基于領域知識的增強約束詞向量
摘要:詞向量是一種詞語的數字化的表達。基于神經網絡模型,利用語料中詞語之間的上下文關系這一約束條件,通過大量訓練得到詞向量。詞向量在表達詞的語義上的表現給人以無限的希望與想象空間,基于詞向量的文本分類、人機對話、智能檢索等得到了廣泛的研究。該文針對校園信息查詢的特定應用,建立了所涉及詞語的分類本體,除了利用語料中詞語上下文關系外,還將本體知識作為約束條件進行詞向量的訓練,增強了詞向量的語義表達。基于skip-gram模型,采用多任務的神經網絡訓練方法,在自己收集的語料上訓練得到了針對領域的詞向量。實驗表明,基于領域知識的增強約束詞向量能夠更準確地表達詞的語義信息。
注: 保護知識產權,如需閱讀全文請聯(lián)系中文信息學報雜志社