基于劃分的增量式字符串相似性連接方法
摘要:字符串相似性連接是數(shù)據(jù)質(zhì)量管理的基本操作,也是數(shù)據(jù)價值發(fā)現(xiàn)的關(guān)鍵步驟。針對目前已有的方法不能滿足面向大數(shù)據(jù)的增量式處理需求的問題,提出一種面向流式數(shù)據(jù)的增量式字符串相似性連接方法——IncJoin,并對方法的索引技術(shù)進(jìn)行了優(yōu)化。該方法以Pass-Join字符串連接算法為基礎(chǔ),首先,采用字符串劃分技術(shù)將字符串劃分成多個互不相交的子串;然后,建立字符串的反向索引列表并將其作為狀態(tài);最后,新增數(shù)據(jù)只需根據(jù)狀態(tài)進(jìn)行相似性計算,每次連接操作結(jié)束后都對狀態(tài)進(jìn)行更新。實驗結(jié)果表明,Inc-Join方法在不影響連接準(zhǔn)確率的同時,有效將長、短字符串重復(fù)匹配次數(shù)減少為√n(n是批處理方式的匹配次數(shù))。實驗對3種數(shù)據(jù)集進(jìn)行處理,發(fā)現(xiàn)使用批處理方式進(jìn)行相似性連接的響應(yīng)時間是Inc-Join的1至4.7倍,并呈現(xiàn)急劇遞增的趨勢;而且優(yōu)化后Inc-Join方法的響應(yīng)時間最小只占優(yōu)化前的3/4,并隨處理數(shù)據(jù)的增多所占比例越來越小。同時優(yōu)化后的Inc-Join不需要保存狀態(tài),再一次減小了算法執(zhí)行的時間和空間開銷。
注: 保護(hù)知識產(chǎn)權(quán),如需閱讀全文請聯(lián)系計算機(jī)應(yīng)用雜志社