博客專欄

        EEPW首頁 > 博客 > 吳恩達:AI的下一個發展方向,從大數據轉向小數據

        吳恩達:AI的下一個發展方向,從大數據轉向小數據

        發布人:機器之心 時間:2022-02-19 來源:工程師 發布文章
        AI 發展方向需要轉向「小數據」了。

        吳恩達(Andrew Ng)在 AI 領域有著很高的聲譽。在 2000 年代后期,他率先使用 GPU 與斯坦福大學的學生一起訓練深度學習模型,并于 2011 年創立了 Google Brain,以通過分布式集群計算機開發超大規模的人工神經網絡。2014 年 5 月,吳恩達加入百度,負責「百度大腦」計劃,并擔任百度公司首席科學家,2017 年 3 月,吳恩達宣布從百度辭職。2017 年 12 月,吳恩達宣布成立人工智能公司 Landing . AI,擔任公司的首席執行官。
        近日,吳恩達在接受 IEEE Spectrum 的采訪時,他表示已經確定了 AI 領域的下一個重大轉變方向,是時候從大數據轉向小數據、優質數據。
        目前,吳恩達的工作重心在其所創立的 Landing.AI 公司,該公司建立了一個名為 LandingLens 的平臺,以幫助制造商通過計算機視覺改進視覺檢測。此外,他還成為了「以數據為中心」的 AI 運動的擁護者,并表示小數據也能解決包括模型效率、準確率和偏見等問題在內的 AI 大問題。
        以下是采訪原文,機器之心做了不改變原意的編譯。
        吳恩達:以數據為中心的解決方案來解決 AI 大問題

        圖片


        在過去十年左右的時間里,深度學習的巨大進步是由越來越大的模型處理越來越多的數據推動的。有人認為這是一個不可持續的軌跡。你怎么看?
        吳恩達:這確實是個值得思考的問題。我們在 NLP 領域已經看到了的基礎模型的發展潛力。我對 NLP 模型變得更大以及在計算機視覺中構建基礎模型感到興奮。我認為在 CV 中仍有很多信息可以利用:但由于計算性能以及視頻處理成本的限制,還無法建立相關的基礎模型。大數據、大模型作為深度學習算法引擎已經成功的運行了大約 15 年,到目前為止,它仍然有動力。話雖如此,它只適用于某些問題,還有一系列其他問題需要小數據才能解決。
        你提到的計算機視覺基礎模型是指什么?
        吳恩達:這是我和斯坦福大學的一些朋友創造的一個術語,它指的是非常大的模型,并在非常大的數據集上進行訓練,使用時可以為特定的應用進行微調。例如,我們可以將 GPT-3 視為 NLP 領域的一個基礎模型。基礎模型為開發機器學習應用程序提供了新范式,應用前景很大,但同時也面臨著一些挑戰:如何確保合理公平且沒有偏見,特別是這些挑戰隨著越來越多的研究者在基礎模型上構建應用,會越來越明顯。
        為視頻建立一個基礎模型需要什么?
        吳恩達:我認為存在可擴展性問題。相比于 NLP,在 CV 領域處理大量視頻圖像需要巨大的計算,我認為這就是為什么在 NLP 中率先出現了基礎模型。許多研究者正在研究這個問題,我認為在 CV 領域開發此類模型已經有了早期跡象。但如果有比現在高 10 倍以上的處理器,我們就可以輕松構建包含 10 倍視頻數據的基礎視覺模型。
        話雖如此,過去十年深度學習的成功更多的發生在面向消費者的公司,這些公司擁有龐大的用戶群體,有時是數十億用戶,因此數據量巨大。雖然這種機器學習范式為消費軟件帶來了巨大的經濟價值,但我發現這種規模化方法不適用于其他行業。
        聽你這么說很有趣,因為你早期的工作是在一家面向消費者、擁有數百萬用戶的公司。
        吳恩達:十多年前,當我提議啟動 Google Brain 項目時,使用谷歌的計算基礎設施來構建大型神經網絡,這是一個有爭議的做法。一位非常資深的研究者曾告訴我,創辦 Google Brain 會對我的職業生涯不利。我不應該只關注擴大規模,而應該專注于架構創新。
        在數據行業中,我認為重點必須從大數據轉向優質數據。擁有 50 個精心設計的示例就足以向神經網絡解釋用戶希望它學習什么。
        我記得當我和我的學生發表第一篇 NeurIPS workshop 論文時,提倡使用 CUDA 進行深度學習——另一位 AI 領域的資深人士告訴我:CUDA 編程很復雜,作為一種編程范式,工作量太大了,但我沒有辦法說服他。 
        我想他們現在都相信了。
        吳恩達:我也這樣認為。在過去的一年里,當我與人們談論以數據為中心的 AI 運動時,我總是想到 10 或 15 年前與人們談論深度學習和可擴展性時的情景。在過去的一年里,我和 10 年前的評價一樣:這里沒有什么新東西以及這似乎是錯誤的方向。
        你如何定義以數據為中心的 AI,為什么你認為它是一種運動?
        吳恩達:以數據為中心的 AI 是一門學科,它的研究重點是構建 AI 系統所需的數據。對于 AI 系統,你必須用代碼實現一些算法,比如神經網絡,然后在你的數據集上訓練它。基于這種范式,在過去的十年中,深度學習網絡有了顯著的改進,以至于對于許多應用程序,代碼、神經網絡架構基本上是一個已經解決的問題。因此,在實際應用程序中,現在更有效率的做法是保持神經網絡體系架構不變,轉而尋找改進數據的方法。
        當我講到這件事時,很多研究者表示贊成,他們按照這個規律已經做了 20 年了。現在是時候把這些事做成一門系統的工程學科了。
        以數據為中心的 AI 運動要比一家公司或一組研究人員要大得多。我和其他合作者在 NeurIPS 上組織了一個以數據為中心的 AI 研討會,我對出席的作者和演講者的數量感到非常高興。
        你經常談論公司或機構可供使用的數據非常少,以數據為中心的 AI 如何幫助他們?
        吳恩達:我們曾聽說過很多用數百萬張圖像構建的視覺系統——我曾經用 3.5 億張圖像構建了一個人臉識別系統。用數億張圖像構建的系統,是用 50 張圖像構建的系統所遠不能達到的。但事實證明,如果你有 50 個非常好的示例,你就可以構建一些有價值的東西,比如缺陷檢查系統。在許多缺少巨型數據集的行業中,我認為重點必須從大數據轉向優質數據。擁有 50 個精心設計的示例足以向神經網絡解釋用戶希望它學習什么。
        僅使用 50 張圖像來訓練模型,你所講的是在非常大的數據集上訓練模型并對其進行微調?還是訓練一個全新的模型?
        吳恩達:讓我來描述一下 Landing.AI 的功能。在為制造商做視覺檢查時,我們經常使用預訓練模型 RetinaNet,其實預訓練只是一小部分難題,更大的難題是可供使用的工具,使制造商能夠選擇正確的圖像集并以相同的方式標注它們。我們在視覺、NLP 和語音方面都遇到過一個非常實際的問題,即使是人類標注也不能就標簽達成一致。對于大數據應用程序,常見的反應是:如果數據有噪聲,我們只需通過大量數據,相應的算法就會對其進行平均。但是,如果能夠開發出一些工具來標記數據不一致的地方,并提供具有針對性的方法改善數據的一致性,這將是一個獲得高性能系統的更有效的方法。
        收集更多的數據通常會有所幫助,但如果研究者嘗試為所有內容收集更多數據,那代價非常昂貴。
        例如,如果你有 10,000 張圖像,其中 30 張圖像屬于一類,而這 30 張圖像標簽有不一致的地方,我們要做的就是構建一種工具來對不一致的數據子集進行處理。因此,你可以非常快速地重新標記這些圖像以使其更加一致,從而提高性能。
        對高質量數據的關注是否會幫助消除數據偏見?如果你可以在訓練之前更多地整理數據?
        吳恩達:肯定是這樣。很多研究人員指出,有偏見的數據是導致有偏見系統的眾多因素之一。在數據工程方面我們已經有許多深思熟慮的工作。在 NeurIPS 的研討會上,Olga Russakovsky 對此進行了非常精彩的演講。在 NeurIPS 主會議上,我也非常喜歡 Mary Gray 的演講,其中談到了以數據為中心的 AI 如何成為解決方案的一部分(而不是整個解決方案)。像 Datasheets for Datasets 這樣的新工具似乎也是這個難題的重要組成部分。
        以數據為中心的 AI 為我們提供的強大工具之一是能夠設計數據子集。想象一下,訓練一個機器學習系統,發現它的性能對于大多數數據集都還可以,但它的性能只對數據的一個子集有偏見。如果你嘗試更改整個神經網絡架構以僅提高該子集的性能,那將非常困難。但是,如果你可以調整數據的子集,則可以更有針對性地解決問題。
        當說到數據工程,我們主要在討論的是什么?
        吳恩達:在 AI 領域里,數據清洗非常重要,但清洗數據的方式通常高度依賴手動的方式。在計算機視覺中,有人可能會通過 Jupyter Notebook 來可視化圖像,以發現問題并修復它。我對能夠讓自己擁有大規模數據集的工具感到興奮,這些工具可以快速有效地將你的注意力吸引到標簽嘈雜的數據子集上。或者快速將你的注意力吸引到 100 個類別中的一個,這將有利于收集更多數據。但如果你嘗試為所有內容收集更多數據,那可能是一項非常昂貴的工作。
        例如,我曾經發現當背景中有汽車噪音時,語音識別系統的性能會很差。知道這一點讓我能夠在后臺收集更多有汽車噪音的數據,而不是試圖為所有事情收集更多數據,后者將是昂貴且緩慢的。
        使用合成數據怎么樣,這通常是一個好的解決方案嗎?
        吳恩達:我認為合成數據是以數據為中心的 AI 工具箱中的重要工具。在 NeurIPS 研討會上,Anima Anandkumar 做了一個關于合成數據的精彩演講。我認為合成數據的重要用途不僅僅是作為增加學習算法數據集的預處理步驟。我希望看到更多工具讓開發人員使用合成數據生成作為迭代機器學習開發閉環的一部分。
        你的意思是,合成數據可以讓你在更多數據集上嘗試模型嗎?
        吳恩達:不,這是個例子。假如你試圖檢測智能手機外殼上的缺陷,手機上有很多不同類型的缺陷:如劃痕、凹痕、砂孔、涂料問題等等。如果你訓練了一個模型,然后通過錯誤分析發現它總體上表現良好,但在凹痕問題上表現不佳,那么合成數據生成可以讓你以更有針對性的方式解決問題。你可以僅為凹痕記類別生成更多數據。
        合成數據生成是一個非常強大的工具,我們也會率先嘗試很多其他工具。例如數據增強、提高標簽一致性,或者僅僅要求工廠收集更多數據。
        你能舉個例子嗎?有公司聯系 Landing.AI 并表示在視覺檢測方面有問題時,你如何說服他們部署自己的產品?
        吳恩達:當客戶找到我們時,我們首先就他們面臨的問題進行交流,并查看一些圖像以驗證該問題在計算機視覺方面是否可行。通常我們會要求他們將數據上傳到 LandingLens 平臺。我們經常就以數據為中心的 AI 方法論向他們提供建議,并幫助他們標注數據。
        Landing.AI 的一項重要業務就是幫助制造業公司應用機器學習。我們很多時候的工作是確保軟件足夠快速,易于使用。通過機器學習開發的迭代流程,我們為客戶提供諸如如何在平臺上訓練模型、何時以及如何改進數據標記以提高模型性能等方面的建議。最后,我們的培訓和軟件服務,及已訓練模型將部署到工廠的邊緣設備上,來為他們提供全程支持。
        如何應對不斷變化的需求?如果工廠的產品發生變化或照明條件發生變化,AI 模型能否跟上?
        吳恩達:每個工廠的情況都不一樣。很多情況下都會出現數據飄移現象,但是有一些制造商的生產線已經運行了 20 年幾乎沒有變化,他們也預計未來五年不發生變化。那些穩定的環境使事情變得更容易。
        對于其他生產商,我們提供了在出現重大數據漂移問題時進行標記的工具。我發現授權制造業客戶更正數據、重新訓練和更新模型是非常重要的事。因為如果發生問題并是在美國凌晨 3 點的情況下,我希望他們能夠立即調整他們的機器學習算法以維持工廠運轉。
        在消費互聯網軟件中,我們可以訓練一些機器學習模型來服務數十億用戶。在制造業中,你可能有一萬家制造商構建一萬個自定義 AI 模型。挑戰在于,Landing.AI 如何在不雇傭一萬名機器學習專家的條件下做到這一點?
        你是說要使其規模化,就必須在用戶側做大量訓練等工作?
        吳恩達:就是這樣。這是人工智能領域中的一個全行業問題,而不僅僅是制造業。看看醫療行業,每家醫院的電子健康記錄格式都略有不同。醫院如何在此之上訓練自己的 AI 模型?期望每家醫院的 IT 人員都發明新的神經網絡架構是不現實的。
        擺脫困境的唯一方法是構建工具,通過為客戶提供工具來構筑數據和表達他們的領域知識,從而使他們能夠構建自己的模型。這是 Landing.AI 在計算機視覺領域中所做的工作,而 AI 領域需要其他團隊在其他領域執行。
        你認為在以數據為中心的 AI 運動中,還有哪些是人們需要知道的重要事情?
        吳恩達:過去十年,人工智能最大的轉變是向深度學習的轉變。我認為在這十年中,最大的變化很可能是轉向以數據為中心的人工智能。隨著當今神經網絡架構的成熟,我認為在很多實際應用上,瓶頸將出在「能否有效獲取開發運行良好系統所需的數據」上。
        以數據為中心的 AI 運動在整個社區擁有巨大的能量和動力。我希望更多研究和開發人員能夠加入并持續推動它。
        原文鏈接:https://spectrum.ieee.org/andrew-ng-data-centric-ai


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 沭阳县| 剑河县| 宜春市| 宿松县| 滨州市| 舒兰市| 晋中市| 定襄县| 阿拉善盟| 西乌| 新疆| 连平县| 池州市| 伊春市| 定日县| 胶南市| 曲麻莱县| 屏山县| 东乌珠穆沁旗| 延吉市| 图片| 赤水市| 万全县| 高唐县| 喀什市| 吴桥县| 淅川县| 南宁市| 察雅县| 壤塘县| 祥云县| 乌什县| 永年县| 卫辉市| 新泰市| 界首市| 长垣县| 商都县| 玉树县| 柘荣县| 逊克县|