壓縮數(shù)據(jù)上的關(guān)系代數(shù)操作算法
摘要:針對(duì)在大數(shù)據(jù)管理中,在壓縮的數(shù)據(jù)上無需解壓即可進(jìn)行相關(guān)操作的問題,在數(shù)據(jù)服從正態(tài)分布的前提下,根據(jù)列數(shù)據(jù)存儲(chǔ)的特點(diǎn),提出了一種新的面向列存儲(chǔ)的壓縮方法——CCA。首先,通過對(duì)列數(shù)據(jù)的長(zhǎng)度進(jìn)行歸類;然后,采用抽樣的方法獲得重復(fù)度較高的前綴;最后,使用字典編碼進(jìn)行壓縮,提出了列索引(CI)和列實(shí)體(CR)作為數(shù)據(jù)壓縮結(jié)構(gòu)來降低大數(shù)據(jù)存儲(chǔ)的空間需求,從而直接有效地在壓縮數(shù)據(jù)上支持選擇、投影、連接等基本操作,并實(shí)現(xiàn)了基于CCA的數(shù)據(jù)庫原型系統(tǒng)——D-DBMS。理論分析和在1 TB數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,該壓縮算法能夠顯著提高大數(shù)據(jù)的存儲(chǔ)效率和數(shù)據(jù)操作性能,與BAP和TIDC壓縮方法相比,在壓縮率分別提高了51%、14%;在執(zhí)行速度上提高了47%、42%。
注: 保護(hù)知識(shí)產(chǎn)權(quán),如需閱讀全文請(qǐng)聯(lián)系計(jì)算機(jī)應(yīng)用雜志社