共享和私有信息最大化的跨媒體聚類
摘要:近年來,具有典型多源異構特性的跨媒體數據的快速涌現給數據分析帶來巨大挑戰.然而,絕大多數現有跨媒體數據分析方法僅依賴模態間的共享信息發掘跨媒體數據中蘊含的模式結構,忽略各模態自身的重要信息.針對此問題,提出共享和私有信息最大化(share and private information maximization)的跨媒體聚類算法,通過兼顧跨媒體數據的共享和私有信息,以求得更加合理的聚類模式.首先,提出2種跨媒體數據的共享信息構建模型:1)混合單詞模型,該模型將各模態的底層特征轉換為統一的詞頻向量表示,然后使用一種新的自凝聚信息最大化方法自底向上地構建多模態的混合單詞空間,最大化地保持各模態底層特征的統計相似性;2)聚類集成模型,構建各模態自身的聚類劃分,通過互信息度量各模態聚類劃分間的信息量,抽取各模態的高層聚類劃分之間的相關性.其次,提出基于信息論的目標函數,將跨媒體數據的共享和私有信息融合在同一目標函數中,在抽取聚類模式結構的過程中兼顧跨媒體數據的共享和私有信息.最后,采用順序“抽取合并”過程優化SPIM算法的目標函數,保證其收斂到局部最優解.在6種跨媒體數據上的實驗結果表明SPIM算法的優越性.
注: 保護知識產權,如需閱讀全文請聯系計算機研究與發展雜志社