嵌入式數據挖掘模型及其在銀行卡業務中的應用
2嵌入式數據挖據的應用
2.1嵌入式數據挖掘
在銀行卡業務中的應用目前的數據挖掘技術在銀行卡業務上的應用大多存在3個方面的局限:1)效率不高:面對目前的海量數據挖掘時,顯得無能為力;2)專業化程度較低:不能很好的專門針對銀行卡業務進行挖掘;3)開銷較大:需要開發專門的系統來進行數據挖掘,而且大多數系統不能進行二次開發。
嵌入式數據挖掘顯然很好的彌補了普通數據挖掘技術所帶來的缺陷。首先,嵌入式數據挖據是把算法直接嵌入到數據倉庫下,從而減少數據轉換的時間,充分利用整個數據倉庫的處理能力,大大提高數據挖掘的效率;其次,它實現了算法的組件化管理,針對不同的行業開發不同的算法組件,對銀行卡業務進行數據挖掘的主要目的是對客戶進行分類,從中發現對銀行貢獻度較大的優質客戶,嵌入式數據挖掘可以開發單獨的算法專門滿足客戶分類的需要,從而具備了很好的專業性。最后,嵌入式數據挖掘系統是個種很靈活的數據挖掘系統,客戶可以在系統中不斷添加新的算法、改進算法,同時進行二次開發,從而省去了重新開發大型系統的開支,這點對于當今企業來說顯得尤為重要。
2.2應用實例分析
為了證實嵌入式數據挖掘模型的有效性,我們與中國銀行湖南分行進行了合作,采用其信用卡業務數據分別對嵌入式數據挖掘模型系統和非嵌入式數據挖掘模型系進行運行對比,測試是在PC機(P4 2.5G CPU,HY DDR512M RAM)上進行的,選取CMP和Apriori兩種數據挖掘算法。選擇嵌入的數據庫為SQL Server 2005實驗錢據從10 000條記錄到160 000條記錄,以測試上述兩種算法在大小不同數據集上采用嵌入式數據挖掘和非嵌入式數據挖掘所表現出的性能差異。嵌入式數據挖掘在銀行卡業務中的應用主要包括關聯規則挖掘和分類挖掘。
1)關聯規則挖掘綜合持卡人用卡行為和基本情況進行分析,導出具有一定支持度和可信度的用卡習慣的人群組成之間的關聯規則。在算法選擇方面,選擇了由wang H等提出的一種新型高效決策數算法:CMP算法。在實例中,當實例數據呈倍數增長時,數據挖掘所需時間對比如表1所示。
算法運行效率曲線如圖5所示。
2)分類挖掘根據持卡人的使用情況和交易方式,對持卡人群進行分類,主要分為優質客戶、潛在優質客戶、流失客戶和潛在流失客戶等,這也是當前比較流行的用法。在分類挖掘過程中,使用關聯規則中的Apriori算法對實例進行了數據的挖掘,算法時間對比如表2所示。
算法運行效率曲線如圖6所示。
從以上對比數據可以看出,在將嵌入式數據挖掘應用到銀行卡業務數據的挖掘當中后,對于兩種不同的算法,其效率的提高都是顯而易見的,從圖形中可以看出,不管是CMP還是Apriori,其效率上都有2~3倍的提高。從應用實例中,還可以看出,隨著業務數據量的不斷加大,嵌入式數據挖掘能更進一步的節省時間。整體說來,嵌入式數據挖掘模型是非常有效的,同時把它應用于銀行卡業務數據的挖掘中也是切實可行的。
3結束語
嵌入式數據挖掘模型使挖掘算法更加簡單易用、方便,它將成為第四代數據挖掘系統的一個重要發展方向之一,也是數據倉庫系統,商業智能平臺的一個重要發展方向。把新的嵌入式數據挖掘技術應用到銀行卡業務中,一方面可以驗證嵌入式數據挖掘技術的優越性,推動數據挖掘技術的發展;另一方面,為商務智能應用軟件升級做出貢獻,這是一個極具吸引力的課題,具有十分重要的社會效益和經濟價值。
評論