新聞中心

        EEPW首頁 > 模擬技術 > 設計應用 > 數據挖掘技術在交通事故分析中的應用

        數據挖掘技術在交通事故分析中的應用

        作者: 時間:2009-08-28 來源:網絡 收藏

        (1)信息熵的計算
        信息熵的計算公式為:

        本文引用地址:http://www.104case.com/article/188701.htm


        式中,i取值1、2,U分別表示有和無樣本,P(Ui)表示類別為Ui的樣本占樣本總數中的比例。
        根據式(1),信息熵H(U的計算算法為:


        式中P(Vj)表示屬性A中取值為Vj的樣本占樣本總數的比例,P(Ui|Vj)表示屬性A取值Vj時,類別為Ui的概率。
        例如,對于駕駛員年齡屬性,j的取值范圍是駕駛員的年齡范圍,約20~70;i的取值范圍仍是1、2,表示事故的有無。則駕駛員年齡屬性條件熵計算的具體算法為:


        分別計算出決策屬性的互信息Gain(年齡)、Gain(駕齡)、Gain(性別)的數值,選擇互信息最大的屬性作為決策樹的根節點。依該屬性的取值作為分枝,每個分枝對應一個子集。對于每一個子集,重新計算其所含樣本的信息熵、條件熵和互信息,確定該子集的當前節點及其分枝,直到遍歷了所有的決策屬性,獲得全部的葉子節點。葉子節點的數值就是從決策樹根節點開始,沿相關路徑(分枝)到達葉子節點所包含的樣本集可能發生的概率。
        這樣建立的決策樹及概率分布就把交通事故與駕駛員的關系清晰地表露出來,同樣,也可選擇其他挖掘主題如交通事故與機動車輛的關系、與天氣的關系等進行挖掘。


        4 結語
        經過多年的發展與積累,與交通管理相關的部門積累了大量的與交通安全相關的數據資源,充分利用這些數據資源,使其為促進經濟發展、創建和諧社會服務。是開發這些數據資源的有效手段,可以找出這些海量數據之間的內在的規律性的聯系,從而為相關部門或機構的宏觀決策提供技術支持。與其他相關研究不同.這里的工作基于對機動車駕駛員總體樣本的研究,結果會更真實可信,指導意義更強。


        上一頁 1 2 下一頁

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 临桂县| 林州市| 梓潼县| 营山县| 射洪县| 镇沅| 遂平县| 延川县| 朔州市| 邹平县| 定西市| 都兰县| 崇明县| 信阳市| 兴安县| 易门县| 蒙山县| 郧西县| 西华县| 含山县| 秦皇岛市| 明星| 白朗县| 寿宁县| 马公市| 安仁县| 上栗县| 和田市| 广饶县| 旅游| 当阳市| 龙胜| 海宁市| 杂多县| 苏州市| 大新县| 班玛县| 乾安县| 吴江市| 德安县| 平原县|