探索性數據分析(EDA),你會使用嗎?
—— 探索性數據分析(EDA)及其應用
本文引用地址:http://www.104case.com/article/113459.htm
還有人說:用一些傳統的圖形工具,比如折線圖、柱狀圖、餅圖等等來分析,不就可以進行數據探索了嗎?這種方法似乎是可行的,但這些數據中有不少類別變量,他們的分類水平很多(例如年份跨越7年,行業分為30個,國家有75個之多,公司名稱更是多達3505個),這樣一來,光作圖可能就讓我們筋疲力盡了,“數據探索”又從何談起?
表一 經JMP軟件整理的福布斯2000強排行數據
什么方法才能很好地探索這些數據,從中發現我們所期望的、甚至意想不到的重要信息呢?我們應該從哪里著手分析才能找到這些信息呢?我們來嘗試運用現代EDA中的可視化技術“泡泡圖”來邊看邊想。在JMP軟件的幫助下,我們可以很快得到類似圖一的圖形,其中的橫軸代表公司的市值,縱軸代表公司的銷售額,泡泡的大小代表公司的利潤額,泡泡的顏色代表公司所屬的行業。最有意義的是,所有的泡泡并不是靜止不動的,它們的位置、大小等都會隨著年度的變化而動態變化。與此同時,整個變化的歷史軌跡線也會在圖中顯示出來。
這樣一來,我們就可以直觀地發現一些明顯的數據特征。就拿圖中標識出來的兩家知名公司來說。我們會發現通用電氣General Electric的經營業績比較穩定,而埃克森美孚Exxon Mobil就相對顯得大起大落一些。雖然兩者有明顯不同,但自2008年起,市場價值均有顯著的回落,這應當與當時席卷全球的經濟危機有關。
圖一 基于JMP軟件生成的動態泡泡圖
評論