午夜亚洲国产日本电影一区二区三区,九九久久99综合一区二区,国产一级毛片视频,草莓视频在线观看精品最新

加急見刊

CS-XMLSim:一種XML文檔分類的改進方法

張娜; 張東站; 段江嬌 廈門大學計算機科學系

摘要:由于越來越多的結構化或半結構化的數據采用XML格式存儲和交換,對XML數據的挖掘變得日益重要,其中對XML文檔分類的研究越來越廣泛。針對目前XML文檔基于結構和內容的編輯距離分類算法的不足,本文在計算相似性度量時提出了一種新的改進方法CS-XMLSim方法,使得當XML文檔結構相似而內容差異大時(即XML文檔集由同一個DTD生成時)分類也有很高的準確率,并應用于k均值算法進行分類。CS-XMLSim方法在計算XML文檔相似性時使用歐氏距離度量,其中計算內容相似性度量時運用譜聚類算法進行降維,對偏重于內容的XML文檔分類時有更好的效果。實驗結果表明,當XML文檔結構相似內容差異大時,CS-XMLSim方法在提高分類準確率方面有了明顯改善。

注: 保護知識產權,如需閱讀全文請聯系心智與計算雜志社