博客專欄

        EEPW首頁 > 博客 > 經驗分享:如何在自己的創業中,用上GPT-3等AI大模型

        經驗分享:如何在自己的創業中,用上GPT-3等AI大模型

        發布人:數據派THU 時間:2022-03-13 來源:工程師 發布文章

        以下文章來源于數據實戰派 ,作者Elliot Turner

        隨著機器學習技術的逐漸成熟并從學術走向工業,支持大規模機器學習所需的方法和基礎設備也在不斷發展。利用這些進步對初創公司來說機遇與風險并存——幾乎所有初創公司,都以各種方式利用機器學習來競爭各自的市場。


        在這之前差不多經歷了 9 年多的時間,當時的深度學習革命起源于一個 2012 年起,一年一度的競賽,即 AlexNet 的 ImageNet LSVRC 競賽(由研究社群舉辦的計算機視覺競賽)。在一次比拼中,一個三人小組(Alex Krizhevsky、Illya Sutskever 和 Geoffrey Hinton)使用了一種稱為卷積神經網絡的技術來理解照片的內容。他們毫無懸念地贏得了比賽——以相當大的優勢擊敗了所有其他人——并且他們使用的系統僅僅是在 700 美元的游戲顯卡上訓練出來的。


        至此機器學習的世界永遠地改變了。


        一年之內,初創公司開始涌現以復制 AlexNet 的成功。我之前的公司 AlchemyAPI(2015 年被 IBM 收購)早在 2013 年就使用我們的 AlchemyVision 計算機視覺 API 發布了這項工作的第一個商業版本。大約在這個時候成立的其他初創公司還包括 DeepMind(被谷歌收購)、MetaMind(被 Salesforce 收購)和 Clarifai 等。學術界也發生了巨大變化,許多專家迅速從對人工智能的懷疑轉變為全心全意地擁抱深度學習。


        快進到 2022 年:神經網絡已經改變了我們日常使用的軟件系統中機器智能的方方面面,從識別我們的語音,到推薦我們的新聞摘要中的內容(且不論好壞)。
        現在的系統仍然使用神經網絡——但規模大不相同。最近用于理解和生成人類語言的系統,例如 OpenAI 的 GPT-3,在超級龐大的數據上進行了訓練:數千塊 GPU(每塊至少花費一千美元)被編織成一個由高速網絡互連的數據存儲基礎設施組成的復雜結構。雖然 2012 年最先進的系統可以在 700 美元的游戲顯卡上進行訓練,但今天的最先進系統——通常被稱為預訓練模型——可能需要用數千萬美元的計算設備來訓練。
        這些大規模、高成本的預訓練模型的出現為初創公司和其他希望在人工智能或機器學習方面進行創新的人帶來了機遇、風險和限制。盡管它們可能無法在研究的前沿與谷歌、Facebook 或 OpenAI 競爭,但小微企業可以利用這些巨頭的工作,當然包括預訓練模型,來啟動他們自己的基于機器學習的應用程序的開發。


        預訓練網絡為小型團隊提供支持
        AlexNet 等神經網絡最初是針對每項任務從頭開始訓練的——當網絡需要幾周時間在單塊游戲顯卡上進行訓練時,這是可行的,但隨著網絡規模、計算資源和訓練數據量開始按需求擴展時,難度要大得多。這導致了一種稱為預訓練的方法的普及,該方法首先使用大量計算資源在大型通用數據集上訓練神經網絡,然后使用更少量的資源,比如數據和計算資源,對手頭的任務進行微調。
        近年來,隨著機器學習在許多領域的工業化和落地(例如語言或語音處理),并且可用于訓練的數據量急劇增加,預訓練網絡的使用量也呈爆炸式增長。例如,使用預先訓練的網絡可以讓初創公司使用少得多的資源來(相比于從頭開始訓練所需的數據和計算資源)研發產品。這種方法在學術界也越來越流行,研究人員可以快速微調預訓練網絡以完成新任務,然后發表成果。
        對于某些任務領域——包括理解或生成書面文本、識別照片或視頻的內容以及音頻處理——隨著預訓練模型的出現而不斷發展,比如 BERT、GPT、DALL -E、CLIP 還有一些其他的模型。這些模型在大型通用數據集(通常是數十億個訓練示例的數量級)上進行了預訓練,并由資金充足的 AI 實驗室(例如谷歌、微軟和 OpenAI 的實驗室)以開源形式發布。
        商業化機器學習應用的創新速率與這些預訓練模型的公益化效果不容小覷。對于那些沒有配備超級計算機的現場工作人員來說,它們一直是靈丹妙****。它們使初創公司、研究人員和其他人能夠快速掌握最新的機器學習方法,而無需花費時間和資源從頭開始訓練這些模型。
        預訓練模型的風險:規模、成本和外包創新
        然而,在預訓練的基礎模型領域,并不是所有的模型都面對著一片坦途,而且隨著它們的應用越來越多,風險也接踵而來。
        與預訓練模型相關的風險之一便是其規模的不斷擴大。谷歌的 T5-11 b(于 2019 年開源)等神經網絡已經需要一組昂貴的 GPU 來簡單地加載和進行預測。而微調這些系統需要更多的資源。由谷歌、微軟、OpenAI 在 2021-2022 年間創建的最新模型通常非常龐大,以至于這些公司沒有將它們作為開源發布——它們現在需要數千萬美元來創建,并且越來越多地被視為重要的 IP 投資,即使對于這些巨頭來說也是如此。
        然而,即便這些最新模型是開源的,僅僅加載這些網絡以進行預測(機器學習用語中的“推理”)所涉及的資源需求量,也比許多初創公司和學術研究人員可以運用多。例如,OpenAI 的 GPT-3 需要大量 GPU 才能加載。即使使用 Amazon Web Services 等現代云端計算,也需要將數十臺 Amazon 最昂貴的 GPU 機器配置到高性能計算集群中。
        對于那些使用預訓練模型的人來說,數據集對齊也是一個挑戰。對大型通用數據集進行預訓練并不能保證網絡能夠對專有數據執行新任務。網絡可能缺乏上下文信息或存在基于其預訓練的偏見,以至于即使進行微調也可能無法輕易解決問題。
        例如,自然語言處理領域的流行預訓練模型 GPT-2 最初于 2019 年初宣布,因此模型是對在該日期或之前收集的數據進行了訓練。想想自 2019 年以來發生的一切——疫情,有任何涉及嗎?最初的 GPT-2 模型肯定會知道什么是流行病,但是缺乏圍繞 COVID-19 及其近年來出現的變異株的詳細信息。
        為了說明這一點,這里是 GPT-2 試圖完成句子“COVID-19 是……”:GPT-2 (2019):“COVID-19 是一種高容量 LED 屏幕,可顯示有關電池大小和狀態的信息。”


        相比之下,2021 年發布的開源語言模型 GPT-J 完成的句子如下:


        GPT-J (2021):“COVID-19 是一種新型冠狀病毒,主要影響呼吸系統,會導致一種具有多種臨床表現的疾病。”


        相當戲劇性的差異對吧?數據集對齊和訓練數據的時效性可能非常重要,具體取決于用例。任何在機器學習工作中利用預訓練模型的初創公司都應該密切關注這些類型的問題。


        云 API 更易得,但外包不是免費的


        OpenAI、微軟和英偉達等公司已經看到了計算資源需求規模增加所帶來的挑戰,并正在通過云 API 做出措施,這些 API 能夠在其托管的基礎設施上運行推理和微調大型模型。
        當然,每個主要的云提供商現在都提供一套機器學習服務,在某些情況下,還提供專為這些工作負載設計的定制處理器。這可以通過將計算和基礎設施挑戰轉移給更大的公司,為初創公司、研究人員甚至個人愛好者提供有限的應對措施。
        然而,這種方法有其自身的風險。無法托管您自己的模型意味著依賴集中式的計算集群進行訓練和推理。這可能會在構建預備投入生產的機器學習應用程序時產生外部風險:網絡中斷、API 的并發性故障或速率限制,或者托管公司的政策變化可能會導致的重大運營影響。此外,當敏感的標記數據集(其中一些可能被 HIPAA 等法規涵蓋)必須發送給云提供商進行微調或推理時, IP 泄漏的可能性可能會讓一些人感到不舒服。
        從底線的角度來看,調用這些 API 對 COGS(銷售成本)的影響,也可能是那些使用云計算來滿足其機器學習需求的人關注的問題。使用價格因供應商而異,更不用說 API 調用、數據存儲和云實例的成本將隨著您的使用而增加。如今,許多使用云 API 進行機器學習的公司最終可能會嘗試過渡到自托管或自訓練模型,以更好地控制其機器學習途徑并消除外部風險和成本。
        使用托管和預訓練模型的機會和風險導致許多公司在“試驗階段”利用云 API 來啟動產品開發。這正是一家公司試圖尋找適合其產品的市場的時候。利用云 API 可以讓公司快速啟動并大規模運行其產品,而無需投資于昂貴的基礎計算設施、模型訓練或數據收集。來自谷歌、IBM、微軟和 OpenAI 等提供商的云機器學習服務和托管的預訓練模型現在正為數千家初創公司和學術研究項目提供支持。
        一旦公司確認其產品與市場契合,它通常會過渡到自托管或自訓練模型,以獲得對數據、流程和知識產權的更多控制。這種轉變可能很困難,因為公司需要能夠擴展其基礎架構以滿足模型的需求,還要進行管理與數據收集,還伴隨著注釋和存儲相關的成本上升。為了實現這一轉變,公司正籌集越來越多的投資者資金。


        我最近的創業公司 Hyperia 最近就進行了這樣的轉變。早期,我們在努力了解業務會議和客戶語音對話的內容時嘗試了云 API。但最終我們決定從頭掌控我們自己的事務,啟動了大規模的數據收集和模型訓練工作,以構建我們自己的專有語音和語言引擎。對于許多商業模式來說,如果要實現積極的單位經濟化和市場差異化,這種演變是不可避免的。


        具備戰略性并密切關注大型人工智能實驗室


        預訓練模型是機器學習中最新的顛覆性趨勢之一,但不會是最后一個。


        在公司繼續建造更大的機器學習超級計算集群(Facebook 最新的計算集群包括超過 16,000 塊 GPU)的同時,研究人員正忙于開發新技術以降低訓練和托管最先進的神經網絡的計算成本。谷歌最新的 LaMDA 模型利用多項創新來比 GPT-3 更有效地訓練,學術界正在迅速研發模型蒸餾和嘈雜學生訓練等技術以減小模型大小。
        這樣或那樣的創新成果意味著初創公司可以繼續創新——但隨著環境的不斷變化,保持警惕是很重要的。值得警惕的事情包括:


        • 云 API 絕對可以加速公司的產品與市場契合之路,但往往會帶來長期的問題。制定戰略退出計劃非常重要,這樣這些 API 就不會控制您產品的命運。
        • 預訓練模型可以極大地加快您的機器學習工作并降低整體訓練和數據收集成本,但了解這些系統的局限性(例如,訓練數據的時效性)很重要。
        • 密切關注巨頭們的 AI 實驗室(谷歌、微軟、IBM、百度、Facebook、OpenAI 等)的最新成果。機器學習正在以極快的速度迭代更新,每個月都會發布新技術、模型和數據集。這些版本通常會在意想不到的時間發布,如果您能夠快速適應,這將對您公司的機器學習工作產生巨大影響。


        最終,機器學習的未來及其對初創公司和科技公司的影響是不確定的,但有一件事是明確的:了解可用資源并做出明智決策的公司將比那些只尋求 AI 輔助的公司更容易取得成功。




        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        pwm相關文章:pwm是什么


        pwm相關文章:pwm原理




        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 贡觉县| 房产| 伊川县| 石楼县| 固镇县| 屏东市| 东兰县| 石景山区| 汨罗市| 聊城市| 新龙县| 阿克陶县| 晋宁县| 腾冲县| 青河县| 德惠市| 九台市| 客服| 观塘区| 山东| 神池县| 舟曲县| 千阳县| 利津县| 车致| 犍为县| 渑池县| 翁牛特旗| 报价| 通许县| 久治县| 宿迁市| 西乡县| 汝阳县| 德钦县| 宜兴市| 饶平县| 长武县| 抚宁县| 巴林右旗| 仙居县|