去冗余Top-k對比序列模式挖掘
摘要:對比序列模式可以用來表征不同類別數據集之間的差異。在生物信息、物流管理、電子商務等領域,對比序列模式有著廣泛的應用。Top-k對比序列模式挖掘的目標是發現數據集中對比度最高的前k個序列模式。在Top-k對比序列模式挖掘中,可能挖掘出冗余的序列模式。目前,雖然有Top-k對比序列模式發現算法被提出,但這些算法并未考慮冗余序列模式的問題。為此,本文提出了基于廣度優先生成樹的去冗余Top-k對比序列模式挖掘算法BFM(breadth-first miner)。使用BFM算法可以有效地解決冗余問題,得到去冗余的Top-k對比序列模式。在BFM算法的基礎上,提出了性能更好的算法PBFM(pruning breadth-first miner)。通過在真實數據集上的實驗分析與對比,驗證了本文算法的有效性。
注: 保護知識產權,如需閱讀全文請聯系智能系統學報雜志社