基于統計感知的大數據系統計算框架
摘要:為在一定計算資源條件下實現大數據可計算化,本研究提出一種基于統計感知思想的Tbyte級大數據系統計算框架Bigdata-α,該框架的核心為大數據隨機樣本劃分模型和逼近式集成學習模型.前者保證了劃分后每個子數據塊所包含的樣本與大數據總體概率分布的一致性.后者通過分析若干個隨機樣本數據塊替代了Tbyte級全量數據分析.使用1Tbyte模擬數據集驗證隨機樣本劃分模型的有效性,通過逐漸增加隨機樣本塊的個數,提升了Higgs數據集基分類器的分類準確度,證明該方法能克服大數據分析中計算資源的限制瓶頸.
注: 保護知識產權,如需閱讀全文請聯系深圳大學學報雜志社