博客專欄

        EEPW首頁 > 博客 > 如何通俗理解協(xié)方差、相關(guān)系數(shù)?

        如何通俗理解協(xié)方差、相關(guān)系數(shù)?

        發(fā)布人:數(shù)據(jù)派THU 時間:2023-08-22 來源:工程師 發(fā)布文章
        Part1 方差

        之前介紹了方差是用來刻畫數(shù)據(jù)波動性的統(tǒng)計量,那么協(xié)方差就是描述兩個變量之間的變動關(guān)系。通俗地理解為:兩個變量是同向變化?還是反向變化?同向或反向程度有多少?

        X變大,Y也變大,說明兩個變量是同向變化的,這時協(xié)方差就是正的。X變大,Y變小,說明兩個變量是反向變化的,這時協(xié)方差就是負(fù)的。并且從數(shù)值大小來看,協(xié)方差的絕對值越大,則兩個變量同向或反向的程度也越大,即有較強(qiáng)的相關(guān)。

        公式的計算很簡單,每個X與其均值之差乘以Y與其均值之差得到一個乘積,再將其都加起來求個均值即可。比如有兩個變量X,Y,觀察7個樣本,畫出他們的變化情況,并且很明顯是同向變化的。

        圖片

        可以發(fā)現(xiàn)每一時刻的值與的值的正負(fù)號相同(比如t1時刻,他們同為正,t2時刻他們同為負(fù)):

        圖片

        于是當(dāng)他們同向變化時,的值與的值乘積為正。這樣,當(dāng)你把7個時刻的乘積加在一起,求平均后也就是正數(shù)了。如果反向運(yùn)動:

        圖片

        很明顯,的值與的值的正負(fù)號相反,于是其乘積就是負(fù)值,計算出來的協(xié)方差也就是負(fù)數(shù)了。上面說的兩種情況比較特殊,很多時候XY兩個變量的變動沒有規(guī)律,比如:

        圖片圖片

        這種情況下某些的值與的值乘積為正,某些的值與的值乘積為負(fù)。加在一起后,其中的一些正負(fù)項就會抵消掉,最后平均得出的值就是協(xié)方差,通過協(xié)方差的數(shù)值大小,就可以判斷這兩個變量同向或反向的程度了。所以,在7個樣本中,與的乘積為正的越多,說明同向變化的次數(shù)越多,亦即同向程度越高,反之亦然。

        總而言之:

        若協(xié)方差為正,則X和Y同向變化;反之協(xié)方差為負(fù),則反向變化;協(xié)方差絕對值越大表示同向或反向的程度越深。

        其實方差也是一種特殊的協(xié)方差,只不過是X和X之間的協(xié)方差。

        Part2 相關(guān)系數(shù)

        相關(guān)系數(shù)的公式為:其實就是用X、Y的協(xié)方差除以X和Y的標(biāo)準(zhǔn)差。所以相關(guān)系數(shù)可以看成剔除了兩個變量單位的影響、標(biāo)準(zhǔn)化后的特殊協(xié)方差。它可以反映兩個變量變化是同向還是反向的,同向為正,反向為負(fù)。并且它又是標(biāo)準(zhǔn)化后的協(xié)方差,則它出現(xiàn)最重要的目的來了,就是消除兩個變量單位的影響,使得不同變量的相關(guān)系數(shù)之間具有可比性。比如下面兩種情況,關(guān)注一下縱軸的刻度:

        圖片


        很容易可以看出兩種情況下X和Y都是同向變化的,并且它們變化的方式都大致相同,在特定的樣本點(diǎn)同為正或同為負(fù),那么它們理應(yīng)具有相同的相關(guān)關(guān)系。于是可以計算一下他們的協(xié)方差:

        第一種情況下:[(100-0)×(70-0)+(-100-0)×(-70-0)+(-200-0)×(-200-0)…]÷7≈15428.57

        第二種情況下:[(0.01-0)×(70-0)+(-0.01-0)×(-70-0)+(-0.02-0)×(-200-0)…]÷7≈1.542857

        協(xié)方差差了一萬倍,只能看出兩種情況都是正相關(guān)的,但是我們能說第一種情況就相關(guān)性更強(qiáng)嗎?在上面兩種情況中,雖然X和Y的變化方向都相同,但是每次變化的幅度不相同,主要原因是單位的不一致引起的。所以,為了能準(zhǔn)確比較兩個變量的相關(guān)程度,我們就要把變化幅度對協(xié)方差的影響中剔除掉,也就是要去掉單位的影響,于是就要使用相關(guān)系數(shù)。那么如何剔除變量變化幅度的影響呢?很自然的就應(yīng)該使用前面提到的方差和標(biāo)準(zhǔn)差了!相關(guān)系數(shù)是協(xié)方差除以標(biāo)準(zhǔn)差,當(dāng)X或Y的波動變大的時候,它們的協(xié)方差會變大,標(biāo)準(zhǔn)差也會變大,這樣相關(guān)系數(shù)的分子分母都變大,相互抵消,變小時也亦然。于是相關(guān)系數(shù)不像協(xié)方差一樣可以在實數(shù)域上取值,它只能在+1到-1之間變化,具體為什么是+1和-1,可以自行Google柯西-斯瓦茨不等式。總之,對于兩個變量X、Y,

        當(dāng)他們的相關(guān)系數(shù)為1時,說明兩個變量線性相關(guān)程度最大,兩個變量存在線性關(guān)系。隨著相關(guān)系數(shù)減小,兩個變量相關(guān)程度也變小。當(dāng)相關(guān)系數(shù)為0時,兩個變量的線性無關(guān),但要注意,無關(guān)不一定獨(dú)立。當(dāng)相關(guān)系數(shù)繼續(xù)變小,小于0時,兩個變量開始出現(xiàn)反向相關(guān)。當(dāng)相關(guān)系數(shù)為-1時,說明兩個變量線性相關(guān)程度也最強(qiáng),不過是相反的線性相關(guān),反相變化。

        讓我們再回到前面X和Y的例子,用相關(guān)系數(shù)來衡量相關(guān)程度:

        第一種情況:

        X的標(biāo)準(zhǔn)差為:


        Y的標(biāo)準(zhǔn)差為:


        于是相關(guān)系數(shù)為:


        說明第一種情況下,X和Y有極強(qiáng)的相關(guān)性,幾乎是線性相關(guān)。

        第二種情況:

        X的標(biāo)準(zhǔn)差為:


        Y的標(biāo)準(zhǔn)差為:


        于是相關(guān)系數(shù)為:


        在第二種情況下,X的標(biāo)準(zhǔn)差較第一種小了10000倍,即變化幅度小了,但是并不改變X和Y線性高度相關(guān)的事實。兩種情況的相關(guān)系數(shù)相等,X和Y具有相同的相關(guān)性,故而使用相關(guān)系數(shù)來衡量和比較相關(guān)性,要比協(xié)方差合適很多。在第二種情況下,X的標(biāo)準(zhǔn)差較第一種小了10000倍,即變化幅度小了,但是并不改變X和Y線性高度相關(guān)的事實。

        兩種情況的相關(guān)系數(shù)相等,X和Y具有相同的相關(guān)性,故而使用相關(guān)系數(shù)來衡量和比較相關(guān)性,要比協(xié)方差合適很多。


        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 凤庆县| 佛山市| 顺昌县| 黔西县| 乌什县| 东海县| 南宁市| 岐山县| 门头沟区| 莆田市| 唐河县| 象州县| 沅陵县| 通化县| 瓦房店市| 鄂托克前旗| 德钦县| 越西县| 淳化县| 开封市| 南京市| 文昌市| 马鞍山市| 隆化县| 盐亭县| 宝山区| 清苑县| 祁东县| 牡丹江市| 澳门| 梨树县| 武义县| 威宁| 宜丰县| 比如县| 贵南县| 抚松县| 徐汇区| 盐山县| 维西| 青铜峡市|