博客專欄

        EEPW首頁 > 博客 > 數據偏度介紹和處理方法

        數據偏度介紹和處理方法

        發布人:數據派THU 時間:2023-06-10 來源:工程師 發布文章
        偏度(skewness)是用來衡量概率分布或數據集中不對稱程度的統計量。它描述了數據分布的尾部(tail)在平均值的哪一側更重或更長。偏度可以幫助我們了解數據的偏斜性質,即數據相對于平均值的分布情況。


        圖片
        有時,正態分布傾向于向一邊傾斜。這是因為數據大于或小于平均值的概率更高,因此使得分布不對稱。這也意味著數據不是均勻分布的。
        偏度可以與其他描述性統計一起描述變量的分布。通過偏度也可以判斷變量是否為正態分布。因為正態分布的偏度為零,是許多統計過程的假設。


        偏度分類


        分布可以有右偏度(或正偏度)、左偏度(或負偏度)或零偏度。右偏態分布在其峰值的右側較長,而左偏態分布在其峰值的左側較長。
        1、零偏度
        —當一個分布的偏度為零時,它是對稱的。它的左右兩邊是鏡像。正態分布的偏度為零,但不是只有正態分布的偏度為零。任何對稱分布,如均勻分布或某些雙峰分布,偏度都是零。
        檢查變量是否具有傾斜分布的最簡單方法是將其繪制成直方圖。
        圖片
        分布近似對稱,觀測值在峰值的左右兩側分布相似。因此分布的偏度近似為零。在零偏度的分布中,平均值和中位數是相等的,也就是說:


        mean = median

        2、右偏(正偏)
        右偏分布在其峰值的右側比其左側更長。右偏也被稱為正偏。它表明在分布的極端一端有觀測值,但它們相對較少。右偏分布的右側有一條長尾。
        圖片
        分布是右偏的,因為它在峰值右側的時間更長。右偏分布的均值幾乎總是大于中位數。這是因為極值(尾部的值)對均值的影響大于中位數。

        mean > median

        3、左偏(負偏)
        左偏分布的峰值左側比右側更長。左偏分布的左側有一條長尾。左偏也被稱為負偏。
        圖片
        這個分布是左偏的,因為它在峰值的左側更長。左偏分布的均值幾乎總是小于中位數。

        mean < median


        偏度計算


        有幾個公式可以用來測量偏度。其中最簡單的是皮爾遜中值偏度。它就是利用了上面我們說的偏態分布中均值和中位數不相等來計算的。
        圖片
        皮爾遜中位數偏度是計算均值和中位數之間有多少個標準差。
        真實的觀測很少有剛好為0的皮爾遜偏中值。因為如果數據的值接近于0,則可以認為它具有零偏度,但是在實際數據中很少有沒有零偏度的分布數據。
        例如,我們每年觀測到的太陽黑子數量的Pearson中位數偏度:平均值= 48.6,中位數= 39,標準差= 39.5。那么公式如下:
        圖片
        如果該值介于:

        • -0.5和0.5,值的分布幾乎對稱
        • -1和-0.5之間為負偏斜,0.5到1之間為正偏斜。偏度適中。
        • 如果偏度小于-1(負偏)或大于1(正偏),則數據是高度偏斜。


        如何處理有偏度數據


        如果你的統計過程需要正態分布并且你的數據是傾斜的,你通常有三個選擇:

        • 什么也不做:許多統計檢驗,包括t檢驗、方差分析和線性回歸,對偏斜數據不太敏感。特別是如果偏斜是輕微或中度的,最好的辦法就是忽略它。
        • 數據轉換:通過對數據應用某種變換,可以調整數據的分布形狀,使其更接近對稱分布。常見的數據轉換方法包括取對數、開方、平方根等。這些轉換可以減小或消除數據的偏度。
        • 使用不同的模型:你可能想選擇一個不假設正態分布的模型,非參數測試或廣義線性模型可能更適合您的數據。比如說非參數方法:如果數據的偏度較大,而且無法通過簡單的轉換來糾正,可以考慮使用非參數統計方法。非參數方法不依賴于分布的假設,而是直接對數據進行分析,例如使用中位數作為代表性的位置測度,而不是平均值。
        • 分組分析:如果數據集中存在明顯的子群體,可以考慮對數據進行分組分析。通過將數據分成多個子群體,并對每個子群體進行單獨的分析,可以更好地了解數據的特征和偏度情況。
        • 針對特定問題采取相應的方法:根據具體的數據和分析目的,可以采用特定的方法來處理偏度數據。例如,在回歸分析中,可以使用偏度穩定轉換(skewness-stabilizing transformation)來調整數據的偏度,以滿足回歸模型的假設。


        下表總結了一些常用數據變換:
        圖片

        總結


        數據的偏度是用來衡量概率分布或數據集中不對稱程度的統計量。它描述了數據分布的尾部在平均值的哪一側更重或更長。通過計算偏度,可以更好地了解數據的分布特征,并在需要時采取適當的數據處理或分析方法。但是需要注意的是,偏度只是數據分布的一種度量,不能完全代表數據的整體特征,因此在分析數據時需要綜合考慮其他統計指標和可視化方法。
        作者:Dhaval Raval


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 汪清县| 札达县| 庄河市| 葫芦岛市| 横峰县| 罗江县| 运城市| 报价| 昌平区| 许昌县| 石渠县| 昌宁县| 南川市| 邵阳县| 成武县| 蛟河市| 吴忠市| 扎囊县| 隆回县| 图片| 新邵县| 曲麻莱县| 鲁甸县| 长丰县| 曲松县| 连云港市| 井陉县| 龙南县| 林芝县| 平安县| 磐安县| 松滋市| 板桥市| 万全县| 吕梁市| 东辽县| 平谷区| 定日县| 宁阳县| 正镶白旗| 黑河市|