博客專欄

        EEPW首頁 > 博客 > 獨家 | 機器學習模型的非泛化和泛化

        獨家 | 機器學習模型的非泛化和泛化

        發布人:數據派THU 時間:2022-12-23 來源:工程師 發布文章

        本文作為數據科學博客馬拉松(https://analyticsvidhya.com/blogathon)的一部分發表。

        介紹

        機器學習模型的泛化是指模型對新數據進行分類或預測的能力。當我們在數據集上訓練模型并為其提供訓練集中缺少的新數據時,它可能會表現良好。這樣的模型是可推廣的。它不需要在所有的數據類型上行動,而是在類似的領域或數據集上行動。

        圖片

        泛化學習

        兩個模型可能分別從兩個不同的問題領域學習,并在采用相同變量和約束行為時獨立學習。

        最初,泛化的結果是模型建立中的失誤或僅僅是巧合。而在現在的模型中,泛化反而成為一種優勢,應該被控制和最大化。一個泛化的模型可以通過從頭開始重新訓練新模型來節省生產成本。如果一個模型能夠進行預測,那么它的開發就是為了有效地進行預測;沒有人不想要一個能夠預測另一個問題的模型。每個工程師和研究人員都應該考慮如何能夠使一個模型具有可泛化性。

        什么是未見過的數據?

        了解什么是未見過的數據是很重要的。未見過的數據對模型來說就是新的數據,它們不是訓練的一部分。模型在它們以前見過的觀察上表現得更好。為了獲得更多的好處,我們應該嘗試建立即使在未見過的數據上也能表現的模型。

        泛化的好處

        有時候,泛化可以是一個提高性能的過程。在深度學習中,模型可以分析和理解數據集中存在的模式。他們也很容易出現過擬合。使用泛化技術,可以管理這種過擬合,使模型不會過于嚴格。它可以協助深度學習來預測一個以前沒有見過的模式。泛化代表了一個模型在訓練集上被訓練后,如何對新的數據做出正確的預測。

        深度學習清楚地顯示了使用泛化的好處。它成為一種復雜的能力,因為我們不希望通過塞滿圖像來訓練模型,這樣當模型遇到一個不在壓縮內存中的圖像時,它就會失敗。我們希望訓練好的模型在面對一個不在通用集里的圖像時表現良好。

        100%的準確率可能意味著所有的圖像都被壓縮得很好。遇到一張外面的圖片,模型就會失敗。一個好的模型將能夠更普遍地處理圖片。泛化技術應該確保在深度學習模型的訓練中不會出現過度擬合。

        各種方法可以分為以數據為中心和以模型為中心的泛化技術。它們確保模型被訓練成可以泛化驗證數據集,并從訓練數據中找到模式。

        模型泛化的要素

        由于泛化更具優勢,因此有必要在模型的設計周期中查看一些可能影響泛化的因素。

        以算法/模型為中心的方法的性質

        所有的模型都有不同的行為。它們處理數據以及優化性能的方法是不同的。決策樹是非參數化的,導致它們容易出現過擬合。為了解決模型的泛化問題,應該有意考慮算法的性質。有時,模型的表現伴隨著高復雜性。當它們很復雜時,過擬合就變得很容易。可以使用模型正則化來創造一個平衡,以實現泛化并避免過度擬合。對于深度網絡來說,通過減少權重數量或網絡參數(即權重值)來改變網絡結構,可以起到一定的作用。

        數據集的性質

        另一個方面是用于訓練的數據集。有時數據集過于統一。他們彼此之間的差異很小。自行車的數據集可能過于統一,不能被用來檢測摩托車。為了實現一個通用的機器學習模型,數據集應該包含多樣性。應該增加不同的可能樣本以拓展范圍。這有助于模型的訓練,以達到最佳的泛化效果。在訓練過程中,我們可以使用交叉驗證技術,例如K-fold。即使在以泛化為目標時,這對于了解我們模型的意義也是必要的。

        模型的非泛化

        可以看出,模型不需要泛化。模型應該只做它們被嚴格期望做的事情。這可能是也可能不是最好的。我可能希望我在摩托車圖像上訓練的模型能夠識別所有類似的車輛,包括自行車甚至是輪椅。這可能是非常強大的。在另一個應用中則相反,我們可能希望我們用摩托車訓練的模型能夠嚴格地識別摩托車。它不應該識別自行車。也許我們想計算停車場里的摩托車,而不是自行車。

        利用上述影響泛化的因素,我們可以決定并控制何時需要或不需要泛化。由于泛化可能包含風險,因此,如果手段可用,非泛化應該被高度優化。如果手段可用,應該為自行車開發一個新模型,為輪椅開發另一個模型。在時間和數據集等資源較少的情況下,可以利用泛化技術。

        非泛化/泛化和模型的過度擬合

        非泛化與過擬合條件最為密切相關。當一個模型是非泛化的,它可能與過擬合有關。如果過擬合能夠得到解決,泛化就更容易實現。我們不想要過擬合的模型--一個已經學會了訓練數據集的模型,但是對其他方面一無所知。它在訓練數據集上表現良好,但在新的輸入上卻表現不佳。另一種情況是欠擬合模型。這將是一個不了解問題的模型,在訓練數據集上表現不佳,在新的輸入上也沒有表現。我們也不希望這樣。另一種情況是良好擬合模型。這就像機器學習中的一個普通圖。該模型適當地學習了訓練數據集,并將其概括到新的輸入。

        當我們想要一個可以泛化的模型時,一個良好的擬合度是我們需要的目標。

        圖片

        欠擬合,最佳模型和過擬合

        偏差和方差對概括性的影響

        對模型的概括性有影響的其他因素是方差和偏差。模型分析數據,在數據中找到模式并進行預測。在訓練過程中,它學習數據集中的模式,并在測試過程中使用這些模式來進行預測,而預測的準確度是經過衡量的。在預測過程中,由于偏差,預測值和實際值之間的對比是錯誤的。一個高偏差的模型不能進行泛化。

        方差告訴我們一個變量與它的預期值有多大差別。我們做一個隨機變量,并將其與我們對它的預期進行比較。預計模型相對來說不會變化太大。模型應該能夠理解輸入和輸出之間的隱藏映射。低方差顯示預測中的小偏差,而高方差顯示目標函數的預測中的大偏差。

        一個顯示出高方差的模型在未見過的數據集上是不能泛化的。這意味著在開發能夠很好地泛化的模型時,必須將方差水平處理得很低。

        圖片

        錯誤 v 模型的復雜性

        結論

        我們已經深入了解了泛化的概念,它描述了一個模型對來自與模型初始數據集相同分布的新鮮的、從未見過的數據的反應。非泛化則是相反的情況。數據集和算法是影響泛化能力的因素。我們形成了對過度擬合的感覺,以及它與磁盤主題的關系。簡單地說,方差是模型預測的變化能力,或者 ML 函數可能根據輸入數據集發生變化的程度。具有許多特征和高度復雜性的模型是方差的來源。高偏差模型將具有最小方差。最后,具有低偏差的模型將具有不會泛化的高方差。

        要點:

        • 機器學習模型的泛化被定義為一個模型對新數據進行分類或預測的能力。
        • 最初,泛化是由于模型構建中的失誤或單純的巧合而產生的。在今天的模型中,它被認為是一種優勢,應該被最大化和控制。
        • 未見過的數據對模型來說是新的數據,不屬于訓練的一部分。模型在它們以前見過的觀察上表現得更好。為了獲得更多的好處,我們應該嘗試擁有即使在未見過的數據上也能表現的模型。
        • 使用泛化技術,如正則化,可以管理過度擬合,使模型不會過于嚴格。
        • 算法的性質/以模型為中心的方法和數據集的性質是泛化的兩個因素。


        原文標題:Non-Generalization and Generalization of Machine learning Models

        原文鏈接:https://www.analyticsvidhya.com/blog/2022/10/non-generalization-and-generalization-of-machine-learning-models/


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 韩城市| 西丰县| 铜川市| 保山市| 福泉市| 静乐县| 体育| 桂林市| 榆中县| 上林县| 镇康县| 磴口县| 新泰市| 长寿区| 潼关县| 陇南市| 博乐市| 顺义区| 泽州县| 广宗县| 镇原县| 凌云县| 平武县| 永泰县| 偏关县| 镇安县| 阜阳市| 枣强县| 临颍县| 武义县| 阿图什市| 四川省| 房产| 铁力市| 公安县| 通渭县| 塔城市| 霍城县| 额尔古纳市| 汉阴县| 乌什县|