博客專欄

        EEPW首頁 > 博客 > 線性回歸:不能忽視的三個問題

        線性回歸:不能忽視的三個問題

        發布人:數據派THU 時間:2023-08-04 來源:工程師 發布文章

        前言


        線性回歸是比較簡單的機器學習算法,很多書籍介紹的第一種機器學習算法就是線性回歸算法,筆者查閱的中文書籍都是給出線性回歸的表達式,然后告訴你怎么求參數最優化,可能部分同學會忽視一些問題,至少筆者忽視了。因此,本文重點介紹了平常容易忽視的三類問題,(1)線性回歸的理論依據是什么(2)過擬合意味著什么(3)模型優化的方向。


        目錄


        1、線性回歸的理論依據是什么

        2、過擬合意味著什么

        3、模型優化的方向

        4、總結


        線性回歸的理論依據


        泰勒公式


        若函數f(x)在包含x0的某個閉區間[a,b]上具有n階導數,且在開區間(a,b)上具有(n+1)階導數,則對閉區間[a,b]上任意一點x,成立下式:


        圖片

        圖片


        結論:對于區間[a,b]上任意一點,函數值都可以用兩個向量內積的表達式近似,其中

        圖片是基函數(basis function),圖片是相應的系數。


        高階表達式圖片表示兩者值的誤差(請回想您學過的線性回歸表達式)。


        傅里葉級數


        圖片

        周期函數f(x)可以用向量內積近似,圖片表示基函數,圖片表示相應的系數,圖片表示誤差。


        線性回歸


        由泰勒公式和傅里葉級數可知,當基函數的數量足夠多時,向量內積無限接近于函數值。線性回歸的向量內積表達式如下:


        圖片

        過擬合問題


        過擬合定義


        構建模型的訓練誤差很小或為0,測試誤差很大,這一現象稱為過擬合。


        高斯噪聲數據模型


        我們采集的樣本數據其實包含了噪聲,假設該噪聲的高斯噪聲模型,均值為0,方差為圖片

        若樣本數據的標記為y1,理論標記為y,噪聲為η,則有:


        y1 = y + η,(其中,η是高斯分布的抽樣)


        上節的線性回歸表達式的方差圖片表示的意義是噪聲高斯分布的隨機抽樣,書本的線性回歸表達式把方差圖片也包含進去了。


        過擬合原因


        數學術語:當基函數的個數足夠大時,線性回歸表達式的方程恒相等。


        如下圖:


        圖片


        機器學習術語:模型太過復雜以致于把無關緊要的噪聲也學進去了。


        當線性回歸的系數向量間差異比較大時,則大概率設計的模型處于過擬合了。用數學角度去考慮,若某個系數很大,對于相差很近的x值,結果會有較大的差異,這是較明顯的過擬合現象。


        過擬合的解決辦法是降低復雜度,后期會有相應的公眾號文章,請繼續關注。


        模型的優化方向


        模型的不同主要是體現在參數個數,參數大小以及正則化參數λ,優化模型的方法是調節上面三個參數(但不僅限于此,如核函數),目的是找到最優模型。


        總結


        本文通過泰勒公式和傅里葉級數的例子說明線性回歸的合理性,線性回歸表達式包含了方差項,該方差是高斯噪聲模型的隨機采樣,若訓練數據在線性回歸的表達式恒相等,那么就要考慮過擬合問題了,回歸系數間差異比較大也是判斷過擬合的一種方式。模型優化的方法有很多種,比較常見的方法是調節參數個數,參數大小以及正則化參數λ。


        參考:Christopher M.Bishop <<Pattern Reconition and Machine Learning>>



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 中山市| 新郑市| 滦南县| 当雄县| 天津市| 乐清市| 安宁市| 桐梓县| 化州市| 信丰县| 搜索| 扶沟县| 饶河县| 山阴县| 汕头市| 兖州市| 普兰店市| 斗六市| 泉州市| 德阳市| 迁安市| 宁武县| 休宁县| 自治县| 宁强县| 靖边县| 通渭县| 永靖县| 青龙| 金昌市| 文昌市| 嘉祥县| 上饶市| 广德县| 鸡东县| 伽师县| 茶陵县| 拜泉县| 思南县| 浮梁县| 永善县|