基于PCA-SMOTE-隨機(jī)森林的地質(zhì)不平衡數(shù)據(jù)分類方法——以東天山地球化學(xué)數(shù)據(jù)為例
摘要:基于PCA改進(jìn)SMOTE算法,能實現(xiàn)不平衡數(shù)據(jù)集的均衡化,并以隨機(jī)森林作為分類器,應(yīng)用于地質(zhì)數(shù)據(jù)進(jìn)行分類與預(yù)測.因原始數(shù)據(jù)集中的噪聲數(shù)據(jù)可能會引起插值后的數(shù)據(jù)分布形態(tài)的改變,故提出結(jié)合PCA算法與SMOTE算法,先進(jìn)行除噪降維再進(jìn)行數(shù)據(jù)插值,改善不平衡數(shù)據(jù)集的分類性能,并對東天山化探樣本數(shù)據(jù)進(jìn)行實驗,結(jié)果表明,新算法能較好地提高分類精度,為地質(zhì)不平衡數(shù)據(jù)的分類與預(yù)測提供新的思路.
注: 保護(hù)知識產(chǎn)權(quán),如需閱讀全文請聯(lián)系桂林理工大學(xué)學(xué)報雜志社