新聞中心

        EEPW首頁 > 嵌入式系統 > 設計應用 > 一種基于密度的聚類的算法

        一種基于密度的聚類的算法

        作者: 時間:2011-08-18 來源:網絡 收藏

          3 性能及分析

          對M-DBSCAN的性能作了測試,并與DBSCAN作了比較。所有的測試都在1臺PC機上進行,配置P4,2.0 GHz CPU,512 MB內存,80 GB硬盤,用Matlab7.3實現。

          首先用構造的模擬數據對聚類結果進行驗證。圖2為DBSCAN算法在閾值半徑為20時得到的結果,明顯地將不同的三類作為一類輸出,形成了錯誤的類劃分;而在取同樣的初始閾值半徑時,圖3可以看出M-DBSCAN算法得到更好的聚類結果。

        QQ截圖未命名4.jpg

          從圖4中可以看到兩種算法在SEQUOIA 2000數據庫上對不同數據量樣本的執行時間的比較。算法M-DBSCAN比算法DBSCAN快得多,且隨著數據量的不斷增大,這種速度上的差別越來越大。表1為兩種算法的錯誤率比較圖,錯誤率為,N1為算法所得聚類數目,N2為實際聚類數目。表1中可看出,改進的M-DBSCAN算法錯誤概率普遍要小于DBSCAN的,表明改進后的算法減小了錯誤率,對處理大樣本集有較好的性能。

        QQ截圖未命名2.jpg

          表2中的測試數據集來自Dr.JSrg Sander提供的仿照DBSCAN 中DataBase2生成的數據集DB2[8]。由表中可以看出,當數據規模為50 000時,雖然SGDO[7]處理噪音點的能力比M-DBSCAN強,但是從錯誤率和運行時間上M-DBSCAN比前兩者都有較大的改善。CURD雖然有較短的運行時間,但是存在大量的噪音點。

        QQ截圖未命名1.jpg

          本文討論了一種將DBSCAN聚類算法進行改進的M-DBSCAN聚類算法,它克服了DBSCAN聚類算法不能處理大數據集的問題,并實現可以對閾值進行實時更改。試驗結果顯示,M-DBSCAN算法的準確性比DBSCAN算法要好,處理大數據集的速度更快。但是對于聚類數目的確定仍然是判斷是否超過某閾值才可算作某一類的標準,聚類數目與閾值的選擇有很大關系。因此如何自動確定聚類數目將是下一步工作的方向。



        上一頁 1 2 3 4 下一頁

        關鍵詞: 算法 密度 基于

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 通化县| 南溪县| 襄樊市| 开封县| 芦山县| 岫岩| 怀宁县| 青海省| 岚皋县| 平塘县| 延津县| 曲沃县| 丰都县| 宝坻区| 靖西县| 乌海市| 平阴县| 理塘县| 句容市| 区。| 平阳县| 通道| 织金县| 阿拉善左旗| 张家港市| 六枝特区| 环江| 清徐县| 乾安县| 绥棱县| 磐安县| 鱼台县| 洪湖市| 从化市| 肥西县| 普陀区| 清河县| 乌苏市| 波密县| 沂南县| 卢龙县|