關聯規則推薦的高效分布式計算框架
摘要:關聯規則推薦模型是在電子商務網站應用最廣泛的商用推薦引擎之一,目前已有的工作大多聚焦于如何挑選高質量規則,以提升推薦精度.然而,關聯規則數量龐大,且用戶并發訪問量通常極大,如何快速匹配用戶瀏覽記錄和關聯規則庫,為海量在線用戶產生近實時推薦,成為制約關聯規則推薦能否勝任真實電子商務網站推薦的重要因素.為此,本文研究關聯規則推薦的效率問題,提出服務于高效關聯規則推薦的分布式計算框架,將規則挖掘與推薦計算無縫銜接.具體而言,本文首先設計有序模式森林,用于壓縮存儲頻繁模式;然后將候選規則挖掘轉化為森林上的路徑搜索計算,并提出高效的單機路徑搜索算法;最后提出負載均衡的數據分割策略,同時降低分布式規則挖掘與推薦計算中的任務最遲完成時間.在3個公開數據集的實驗結果表明基于有序模式森林的推薦計算比傳統窮舉匹配策略降低6倍以上時間,同時所提出的分布式計算框架可隨計算節點數量達到近線性擴展.
注: 保護知識產權,如需閱讀全文請聯系計算機學報雜志社