數據倉庫在移動通信企業經營分析系統中的應用
移動通信業是典型的數據密集型行業,隨著通信體制改革的深化,移動通信業的競爭也日趨激烈。與其他行業相比,移動通信行業擁有更多的有關用戶的數據。誰能正確地分析這些數據所得到有用的信息,誰就能更好地向用戶提供服務,也就能夠發現更多的商機,從而在競爭中獲勝。數據倉庫可以將移動通信企業的這些數據變為有用的信息來支持決策,因此,數據倉庫在移動通信業中有重要的應用價值。
本文引用地址:http://www.104case.com/article/157869.htm現在絕大多數的企業都在走經營分析信息化這條路,但光有綜合業務自動化系統或者決策支持系統卻沒有完善的數據支持都屬于粗放型經營分析,只算是達到了企業經營分析的自動化,還不能算是經營分析信息化。可以通過移動通信業邏輯數據模型,建立一個集中的、一致的和可擴展的數據倉庫系統,以保證移動通信企業運用先進的經營分析系統建立戰略性的競爭優勢。
1 數據倉庫的概念及技術
1.1 數據倉庫的概念
數據倉庫之父Bill Inmon對數據倉庫所下的定義是:數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合,用以支持管理決策的過程。這個定義概括了數據倉庫的實質。從存儲方式和技術方面,數據庫領域著名的學者韓家煒教授給出另外一個描述:數據倉庫是一種多個異種數據源在單個站點以統一的模式組織的存儲,以支持管理決策。可見,數據倉庫是一個支持決策的過程,它有這樣一些特性:面向主題的、集成的、穩定的、隨時間變化的,多個異種數據源在單個站點以統一的模式組織存儲的。
1.2 數據倉庫技術
1.2.1 數據處理
數據倉庫的數據處理(ETL)包括數據的抽取、清理、轉換與加載。把數據從操作型環境轉換到數據倉庫環境的數據抽取要實現技術上的變化。這種變化不僅指的是一種DBMS的變化,還包含源于操作系統的變化、硬件的變化、數據結構的變化。
把數據從操作型環境載入到數據倉庫環境時,如果數據以一種非集成狀態到達數據倉庫,它就不能被用來支持數據的企業視圖。數據的企業視圖是體系結構設計環境的本質之一。
數據并非只是注入數據倉庫,它在數據倉庫中也有自己的生命周期。到了一定時候,數據將從倉庫中清除。數據清理問題是數據倉庫設計人員無法回避的基本設計問題之一。從某種意義上講,數據根本不是從數據倉庫中清除,而僅是上升到更高的綜合級。
1.2.2 數據倉庫的數據模型
一個企業數據模型建造時不考慮現存的操作型系統與數據倉庫之間的差別,企業數據模型只包含原始數據。要建造一個單獨的現存數據模型,需要從企業數據模型開始。當企業數據模型用于操作型系統時,幾乎不用做什么改動。但是,企業數據模型用到數據倉庫中要做相當多的改動。首先要做的是除去純粹用于操作型環境的數據;然后在企業數據模型的鍵碼結構中增加時間元素;導出數據加到企業數據模型中,在那里導出數據作為公用并只計算一次,而不重復計算;最后,操作型系統中的數據關系在數據倉庫中就轉變為“人工關系”。
有3個層次的數據建模:高層建模(ERD,實體關系層),中間層建模(DIS,數據項集),底層建模(物理層)。
1.2.3 數據倉庫的性能特性
確定性能特性是設計的重要一步,在數據倉庫的情況下,意味著決定數據的粒度與分割。
粒度 粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別。在早期建立的操作型系統中,粒度是用于訪問授權的。當詳細的數據被更新時,幾乎總是把它存放在最低粒度級上。但在數據倉庫環境中,對粒度不作假設。在數據倉庫環境中粒度之所以是主要的設計問題,是因為它深深影響存放在數據倉庫中的數據量的大小,以及數據倉庫所能回答的查詢類型。在數據倉庫中的數據量大小與查詢的詳細程度之間要作出權衡。
分割 人們常說,如果粒度和分割都做得很好的話,數據倉庫設計和實現的幾乎所有其他問題都容易解決。但是,假如粒度處理不當并且分割也沒有認真地設計與實現,這將使其他方面的設計難以真正實現。對當前細節數據進行分割的總體目的是把數據劃分成小的物理單元。數據分割的重要性在于小的物理單元能為操作者和設計者在管理數據時提供比對大的物理單元更大的靈活性。
物理I/O 物理設計因素的中心在于物理I/O(輸入/輸出)。對性能來說I/O事件如此重要是因為存儲器和計算機之間的數據傳輸速度比計算機運算速度要慢大約2~3個數量級。計算機內部運算速度以毫微秒計,而數據的傳輸速度是以毫秒計。因此,物理I/O是主要影響性能的因素。為了提升性能,應在系統中盡量減少物理I/O。
評論