博客專欄

        EEPW首頁 > 博客 > 總結機器學習3個時代的算力規律:大模型的出現改變了什么?

        總結機器學習3個時代的算力規律:大模型的出現改變了什么?

        發布人:CV研究院 時間:2022-04-14 來源:工程師 發布文章

        作者 | 劉媛媛

        來源丨數據實戰派


        圖片圖 1:1950 年至 2022 年間 118 個里程碑機器學習系統的趨勢。我們區分了三個時代。注意大約 2010 年的斜率變化,與深度學習的出現相匹配;2015年底出現了新的大規模趨勢。
        預測機器學習領域的進展是很困難,其與行業、政策和社會中的參與者有著重要的相關性。
        十年后計算機視覺會好多少?機器能否寫出比我們更好的小說嗎?我們將能夠自動化哪些工作?
        這些問題回答起來是很困難,因為它們取決于許多因素。然而,隨著時間的推移,所有這些因素的影響中有一個因素——算力,有著驚人地規律。
        已有數據顯示,2010年之前,訓練算力的增長率符合摩爾定律(Moore’s law),大約每20個月翻一番。
        從2010年之后深度學習開始來臨,訓練算力的增長率大幅度提升,大約每6個月翻一番。2015年末,隨著許多公司開始開發大規模的機器學習模型,對訓練算力的要求提高了10到100倍,于是,一種新的趨勢又出現了。
        基于上述發現,一支聯合團隊在其研究COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING一文中,將機器學習的算力趨勢分為三個時代:前深度學習時代,深度學習時代和大規模時代,很好地梳理出當前的算力演進脈絡。

        圖片圖丨里程碑式大模型信息一覽(https://docs.google.com/spreadsheets/d/1AAIebjNsnJj_uKALHbXNfn3_YsT6sHXtCU0q7OIPuc4/edit#gid=0):
        更具體的,這項研究共有以下三點貢獻:
        1)策劃了一個包含100多個具有里程碑意義的機器學習系統的數據集,并對訓練它們所需的算力進行了注釋。
        2)初步將算力趨勢劃分為三個不同的時代:深度學習前時代、深度學習時代和大規模時代。這項研究提供了每個時代的倍增時間的估計。
        3)在一系列附錄中展示了為驗證這項研究的結論所開展的一些替代實驗,討論了數據的替代解釋以及與以前工作的差異。
        另外,這項研究所采用的數據集、數據和交互式可視化均是公開的。
        一、深度學習的出現
        這項研究根據三個不同的時代和三個不同的趨勢來解釋這項研究整理的數據。
        簡而言之,在深度學習開始之前,有一個增長緩慢的時代。2010 年前后,這一趨勢加速發展,此后一直沒有放緩。另外,在 2015 年到 2016 年出現了大規模模型的新趨勢,以相似的速度增長,但超過了之前的一到兩個數量級(orders of magnitude,OOM)。
        圖片表1 主要結果總結。2010 年隨著深度學習的普及,趨勢加速,2015 年末出現了大規模模型的新趨勢。
        下面,這項研究將首先討論 2010年至2012年左右向深度學習的過渡時期。然后討論大約在 2015年至2016 年出現的大規模模型時代。
        深度學習出現前后存在兩種截然不同的趨勢機制。在此之前,訓練機器學習系統所需的計算量每 17 到 29 個月翻一番。隨后,整體趨勢加快,每 4 到 9 個月翻一番。
        前深度學習時代的趨勢大致符合摩爾定律,根據該定律,晶體管密度大約每兩年翻一番——通常簡化為計算性能每兩年翻一番。
        目前尚不清楚深度學習時代從何時開始——從前深度學習時代到深度學習時代的過渡沒有明顯的不連續性。此外,這項研究將深度學習時代的開始時間分別定在 2010 年和 2012 年,結果幾乎沒有變化,如表2所示。
        圖片圖2. 1952年至2022年間100多個里程碑機器學習系統的訓練算力趨勢。請注意 2010 年左右趨勢的斜率變化。
        圖片表2 1952 年至 2022 年 ML 模型的對數線性回歸結果
        二、大模型的出現
        2015-2016 年左右出現了大規模模型的新趨勢。
        這種新趨勢始于 2015 年底的 AlphaGo,并一直持續到今天。這些大規模模型是由大公司訓練的,其較大的訓練預算想必能夠打破之前的趨勢。

        另外,常規比例模型的趨勢仍不受干擾。這種趨勢在 2016 年前后是連續的,斜率相同,每5到6個月翻一番,見表3大規模模型中計算量增加的趨勢明顯變慢,每9到10個月翻一番。由于這項研究對這些模型的相關數據有限,所以明顯的放緩的趨勢也可能是噪聲的結果。這項研究發現的結果與2018年Amodei & Hernandez等人的發現形成鮮明的對比,后者發現 2012 年至 2018 年之間的倍增期更快,為3.4個月,而2021年Lyzhov發現2018年至2020年之間的倍增期更長,超過2年。
        由于他們的分析數據樣本有限且假設單一趨勢,因此與這項研究發現的結果存在巨大差異。而這項研究分別研究大規模模型和常規規模模型,且大規模模型的趨勢是最近幾年才出現,以前的分析無法區分這兩種不同的趨勢。
        圖片圖2. 2010~2022年100多個里程碑式機器學習系統的訓練計算趨勢。注意 2016 年左右可能出現的大規模模型新趨勢。其余模型的趨勢在 2016 年前后保持不變。

        圖片
        表3. 2010~2022年數據的對數線性回歸結果。2015 年之前的常規尺度模型的趨勢在之后繼續不間斷。
        三、結論與方向
        這項研究通過管理100 多個里程碑式機器學習系統的訓練計算數據集來研究算力趨勢,并使用這些數據分析趨勢如何隨著時間的推移而增長。
        團隊表示,希望這項研究的工作能夠幫助其他人更好地了解到機器學習系統的最新進展是由規模增加推動的,從而進一步改進對高級機器學習系統開發的預測。
        此外,訓練算力的增長趨勢,凸顯了硬件基礎設施和工程師的戰略重要性。
        機器學習的前沿研究已成為訪問大量算力預算或算力集群以及利用它們的專業知識的代名詞。
        這項研究未涉及的一個方面是用于訓練機器學習模型的另一個關鍵可量化因素——數據,未來可以嘗試研究數據集大小及其與算力趨勢的關系。
        論文鏈接:https://arxiv.org/pdf/2202.05924.pdf


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 田阳县| 九江市| 南投市| 张北县| 固原市| 渝中区| 闸北区| 蒲城县| 邵阳县| 田东县| 丰原市| 石台县| 绥芬河市| 黄平县| 江川县| 凤凰县| 确山县| 金湖县| 丽水市| 体育| 百色市| 松阳县| 凤山市| 湄潭县| 庐江县| 克拉玛依市| 称多县| 垫江县| 宁波市| 黔东| 淮北市| 晴隆县| 贵州省| 东海县| 昌都县| 富宁县| 靖江市| 泰兴市| 莱阳市| 商水县| 万年县|