新聞中心

        EEPW首頁 > 模擬技術 > 設計應用 > 面向中小企業智能數據處理工具

        面向中小企業智能數據處理工具

        作者: 時間:2012-03-17 來源:網絡 收藏
        用用戶編程,就能通過可視化的方法實現一個MIS系統,再結合決策系統,將能實現更靈活、更強大的功能。
      1. 既可以實現傳統的查詢及統計報表功能,又可以實現多維數據分析、決策支持及數據發掘等高級功能。決策可以實現極為靈活的查詢和報表,而且內嵌了部分分析功能,可以稱之為交互式的查詢和報表。另外,即使在較大型的MIS系統甚至ERP系統中,都很難找到多維數據分析、決策支持及數據發掘等高級功能,決策內卻提供這些功能,這樣就可以很好地利用原有的數據,大大加強原有系統的能力.
      2. 全面支持Internet/Intranet。絕大部分的輸出都可以定向為HTML文件,這中間包括查詢結果、報表、分析和數據挖掘的結果等;另外,還提供部分功能在基于瀏覽器的環境中實現,使用戶可以通過瀏覽器來進行諸如查詢數據、瀏覽報表、簡單分析等功能。
      3. 五、系統的結構

        系統分為兩大部分棗分析設計部分和應用系統部分,分別面向企業IS(信息系統管理員)人員與企業管理人員,IS人員除了負責高級數據分析工作以外,還負責為管理人員設計具體應用系統,由于大部分具體的應用工作可以由管理人員來完成,所以從另一個方面緩解了信息人才缺乏的問題。應用系統部分的功能結構圖見圖一,設計部分功能結構圖見圖二。系統中最重要的是“描述層”的設計。

        在一般的商業用戶訪問數據時,他們最擔心的往往是復雜的數據庫術語和繁復的數據庫操作。如何才能賦予這些商業用戶自主訪問數據庫和數據倉庫中信息的能力,使他們可以把那些數據庫術語和操作拋之腦后呢?我們在此使用了一種稱為“描述層”的技術來解決這個問題。在使用了“描述層”技術后,不但解決了一般商業用戶擔心的問題,而且同時也提供了IS人員控制和管理數據訪問所必須的。這一技術把復雜的數據庫結構描述成易于理解的業務術語,把商業用戶同技術性的數據庫術語以及復雜的SQL訪問語言分離開來。它就像一個透鏡,用戶可以通過它來看數據倉庫。這樣最終用戶無須具備計算機專業知識,更不必是數據庫方面的專家,就能夠自主地訪問公共數據,分析信息,從而更好地理解企業發展的趨勢,作出明智的決策。

        “描述層”可以被稱為一個覆蓋在數據庫內部數據對象之上的一個解釋層,是用戶和數據庫之間的一個代碼翻譯層,也就是將數據庫中比較凌亂、復雜的數據對象(例如:存儲在數據表中的各個字段的記錄)通過預先定義好的規則(“描述層”)過濾轉換成實際使用的業務對象,例如:人員姓名、物資類型等等。同時,“描述層”的功能不僅僅在于過濾和映射,還可以對數據通過預先定義好的規則進行重組,例如在數據庫中沒有的高層數據(比如:通過價格和銷售量在本地提取銷售額),所以我們可以通過“描述層”給數據庫增加一些不存在而又有實際意義的內容。另外,我們還可以利用“描述層”來增加數據庫中數據所包含的信息量(比如:建立某一字段的分類規則,使數據庫中的記錄可以分屬于不同的類別,具體的例子是,按銷售業績多少分為優、良、中、差,用戶就可以直接用諸如 “銷售業績=優”之類的條件進行查詢;類似的還有分層規則等其它許多規則)。最后,我們還可以在“描述層”中加入一些預定義的條件,在以后的查詢或分析時,就可以直接從“描述層”中提取條件。使用“描述層”重組數據的實際意義在于:數據庫內大量珍貴的數據資源不再是只有數據庫開發人員才能理解的“天書”,通過“描述層”的解釋和組織,大多數不具備計算機專業知識的業務人員,可以直接使用這些數據。

        在這個部分,主要的工作就是兩點,即“描述層”的定義與解釋。在“描述層”的定義部分,要進行各種不同類型的定義,具體來說就是上一段提到的幾種類型,然后將各個類型的定義作為元數據進行存儲。在定義的過程中,必然要通過數據庫連接工具來對數據庫或數據倉庫進行訪問,再按照數據庫的結構和內容來設計各個不同的“描述”。另外,在以后使用本系統的其它主體部分如查詢、報表、分析和數據挖掘部分時,將用到“描述層”中定義的“描述”,這是就需要“描述層”的解釋部分來進行解釋,將“描述”語言翻譯為數據庫能夠接受的語言。

        本軟件設計中的另一個重點是體現商業智能化的數據挖掘功能,隨著數據庫技術的不斷發展及數據庫管理系統的廣泛應用,數據庫中存儲的數據量急劇增大,可是目前用于對這些數據進行分析處理的工具卻很少。現在所能做到的只是對數據庫中已有的數據進行由人驅動的分析,人們通過這些數據所獲得的信息量僅僅是整個數據庫所包含的信息量的一部分,隱藏在這些數據之后的更重要的信息是關于這些數據的整體特征的描述及對其發展趨勢的預測,這些信息在決策生成的過程中具有重要的參考價值。

        數據庫中的知識發現(KDD)就是利用機器學習的方法從數據庫中提取有價值知識的過程,是數據庫技術和機器學習兩個學科的交叉學科。數據庫技術側重于對數據存儲處理的高效率方法的研究,而機器學習則側重于設計新的方法從數據中提取知識。KDD利用數據庫技術對數據進行前端處理,而利用機器學習方法則從處理后的數據中提取有用的知識。KDD與其他學科也有很強的聯系,如統計學、數學和可視化技術等等。

        在我們的系統中,將實現一個完整的KDD工具,也可以稱為數據挖掘(Data Mining)工具。因為我們要面向廣大商業用戶,所以我們的系統特別注重對用戶與數據庫交互的支持,由用戶根據數據庫中的數據,選擇一種模型,然后選擇有關數據進行知識的挖掘,并不斷對模型的數據進行調整優化。整個處理過程分為下面一些步驟:

        數據發現:了解任務所涉及的原始數據的數據結構及數據所代表的意義,并從數據庫中提取相關數據。

        數據清理:對用戶的數據進行清理以使其適于后續的。這需要用戶的背景知識,同時也應該根據實際的任務確定清理規則。

        模型的確定:通過對數據的分析選擇一個初始的模型。模型定義一般分為三個步驟:數據分隔,模型選擇和參數選擇。在我們的系統中,主要引入了關聯規則模型和分類模型。

        數據分析:對選中的模型進行詳細定義,確定模型的類型及有關屬性;通過對相關數據的計算,計算模型的有關參數,得到模型的各屬性值;通過測試數據對得到的模型進行測試和評價;根據評價結果對模型進行優化。

        輸出結果生成:數據分析的結果一般都比較復雜,很難被人理解,將結果以文檔或圖表形式表現出來則易于被人接受。

        在KDD過程中,最重要的是其中的數據挖掘部分,即模型和相關屬性的確定。我們計劃采用其中應用最廣泛的兩個模型,分別是關聯規則和分類規則,以下作詳細的介紹。

        關聯規則是形式如下的一種規則,“在購買面包和黃油的顧客中,有90%的人同時也買了牛奶”(面包+黃油=>牛奶 )。用于關聯規則發現的主要對象是事務型數據庫,其中最典型的應用則是售貨數據,一個事務一般由如下幾個部分組成:事務處理時間,一組顧客購買的物品,有時也有顧客標識號(如信用卡號)。如果對這些歷史事務數據進行分析,則可對顧客的購買行為提供極有價值的信息。例如,可以幫助如何擺放貨架上的商品(如把顧客經常同時買的商品放在一起),幫助如何規劃市場(怎樣相互搭配進貨)。由此可見,從事務數據中發現關聯規則,對于改進零售業等商業活動的決策非常重要。隨著應用的推廣,關聯規則已經在許多領域發揮作用,成為最典型的數據挖掘應用。

        分類也是數據挖掘中的一項非常重要的任務。分類的目的是學會一個分類函數或分類模型(也常常稱作分類器),該模型能把數據庫中的數據項映射到給定類別中的某一個。分類的應用實例也很多,比較典型的由保險公司的保費設置。保險公司成功的一個關鍵因素是在設置具有競爭力保費和覆蓋風險之間選擇一種平衡。保險市場競爭激烈,設置過高的保費意味著失去市場,而保費過低又會影響公司的贏利。保費通常是通過對一些主要的因素(如駕駛員的年齡、車輛的類型等)進行多種分析和直覺判斷來確定。由于投資組合的數量很大,分析方法通常是粗略的。采用分類進行數據挖掘以后,就可以利用計算機處理海量數據的能力來進行合理的分類,定出合理的保費,使保險公司得到最大收益。



        關鍵詞: 智能 數據處理 工具

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 福建省| 绥宁县| 南丹县| 彭水| 禄劝| 上饶县| 东海县| 泽州县| 临沂市| 秦安县| 红桥区| 兴和县| 万年县| 曲麻莱县| 漳浦县| 临湘市| 双流县| 海南省| 万载县| 郸城县| 哈尔滨市| 莆田市| 喀喇沁旗| 雅江县| 左权县| 江北区| 克山县| 托里县| 乳山市| 阳原县| 华容县| 正宁县| 金平| 汶上县| 江川县| 留坝县| 波密县| 遂宁市| 吴堡县| 祥云县| 丰都县|