博客專欄

        EEPW首頁 > 博客 > 曠視張祥雨:從基礎科研的「大」和「統一」,看視覺AI研究新趨勢

        曠視張祥雨:從基礎科研的「大」和「統一」,看視覺AI研究新趨勢

        發布人:機器之心 時間:2022-07-21 來源:工程師 發布文章
        在 MegTech 2022 上,曠視研究院基礎科研負責人張祥雨表示:“大”和 “統一” 是視覺 AI 基礎研究的新趨勢。


        基礎模型科研是 AI 創新突破的基石,每一代基礎模型的突破都極大程度地促進了視覺 AI 的發展。7 月 15 日,2022 曠視技術開放日(MegTech 2022)在京舉行,曠視研究院基礎科研負責人張祥雨在會上分享了他對基礎模型科研的深入思考及基礎模型組的最新科研成果。
        張祥雨表示,「“大”和 “統一” 是當今視覺 AI 基礎研究的新趨勢。同時,“在致力于解決人工智能最本質難題的道路上,曠視將秉持原創、實用和本質的科研價值觀,重點深耕通用圖像大模型、視頻理解大模型等四個主要方向。」

        圖片

        曠視研究院基礎科研負責人張祥雨在曠視技術開放日上發表演講
        發揮 “大” 的威力,推進大模型、大算法與大應用協同發展
        “大”主要指 AI 大模型,即利用大數據、大算力和大參數量,提高模型的表達能力,使得 AI 模型能夠適用于多種任務、多種數據和多種應用場景。張祥雨指出,「“大”是提高 AI 系統性能的最重要捷徑之一。這主要是因為,AI 視覺系統通常要面對復雜的應用場景和多種任務,提高模型性能的最直接途徑就是提高模型本身的表達能力,也就是所謂的“大”。」
        但在做 “大” 的過程中,隨著模型參數量和數據量的增多,邊際效應遞減情形卻時有發生。如張祥雨所言,“大并不一定代表著好,更大的模型會帶來更大的計算開銷,我們的收益將會非常有限。” 換言之,片面追求大參數量、大計算量和大數據量,并不一定能夠得到性能更強的模型。視覺 AI 基礎研究不僅需往 “大” 的方向努力,更要讓 “大” 模型的優勢能發揮出來,這是當今 AI 視覺研究主要的趨勢和挑戰之一。

        圖片

        AI 視覺研究面對著如何讓 “大” 模型優勢發揮出來的挑戰
        為此,曠視以創新算法充分發揮大數據、大算力威力,持續拓展 AI 認知邊界,重新定義 “大” 的內涵:即大模型、大算法與大應用。

        • 大模型。要研究的不僅是如何實現“大”,更重要的是如何發揮大模型背后的威力;
        • 大算法。大模型需要大量基礎設施、算法、算力做支持,要成功地將這些大模型、大算法、大算力及大數據整合起來,就要求研究者提出創新算法以充分發揮大模型的作用;
        • 大應用。大模型做出來以后,究竟能干什么?如何提高 AI 模型的生產效率?提高模型性能?


        “統一”AI 系統設計,打造簡單、強大、通用系統
        近年來,包括基礎模型研發、視覺基礎應用、AI 算法演化等在內的研究領域都衍生出一系列算法,而這些算法正在底層走向統一。例如,在基礎模型方面,過去有各種各樣的 CNN 和 ViT 被提出來。但近年的研究表明,通過特定的優化算法能夠在訓練過程中增加先驗,使得 CNN、ViT、MLP 都取得相似的性能,這就為“統一”AI 系統設計奠定了基礎。
        “統一”的好處是顯而易見的。如果能用統一算法、統一模型來表示和建模各種數據、各種任務,研究界將可以得到簡單、強大且通用的系統。張祥雨解釋稱,「一旦模型統一,AI 加速器的設計就會非常簡單,一個模型可以適用于各種設備和各種任務,這可以極大地節省模型適配成本,且硬件計算平臺廠商只用支持少量算子就能把大部分任務跑起來。」
        但實現 “統一” 的挑戰亦是顯著的。比如,要實現在多個任務上共享一個模型、一個算法,就必須加深對系統及模型的認識以抽象出共性,才能使 “統一” 模型達到專為所有系統單獨設計的模型所具有的性能。
        為此,曠視認為“統一”AI 系統設計要從以下三方面著手:

        • 要統一架構。主要是指基礎模型架構,也包括基本的計算架構;
        • 要統一算法。用盡可能統一的算法來支持各種任務、數據和平臺,從紛繁的 AI 調參中解放出來;
        • 要統一認知。唯有從算法中抽取共性,理解本質,才能構建統一的、高性能的視覺 AI 系統。


        立足四大重點方向,曠視秉持原創、實用與本質科研價值觀
        基于 “大” 和“統一”是當今視覺 AI 基礎研究新趨勢的判斷,張祥雨在演講中指出,曠視基礎模型科研工作重點關注如下四個主要方向:
        通用圖像大模型。在這項研究中,曠視主要著眼于構建通用、統一、高性能的圖像視覺大模型,解決如何高效變 “大” 的問題。如上所述,“大”不意味著好,故需要研究讓 “大” 真正服務于 “性能提升、孵化應用” 的創新方法。
        視頻理解大模型。基于此方向,曠視期望在視頻理解與視頻建模問題上攻克困擾業界已久的長序列建模問題,并找到更高效的視頻模型訓練、監督和應用方法。
        計算攝影大模型。當前,計算攝影常通過圖像退化模式進行建模,實現高質量圖像生成。這種建模思路不能使用、整合大數據的威力,也無法實現多模組、多設備、多數據之間的通用。因此,曠視希望找到計算攝影大模型研究的新范式,從大數據中找到充分的真實圖像先驗信息,進而指導我們生成更加高清、高質量的圖像。

        圖片

        基礎模型科研需要堅持長期主義
        自動駕駛感知大模型。在這項研究中,曠視主要著眼于研究簡單、高效、統一且易于使用的自動駕駛模型的優化、訓練和部署方法。
        演講尾聲,張祥雨再次闡釋了曠視基礎模型科研始終秉持的科研價值觀,“堅持長期主義,堅持原創、實用和本質的價值觀。”他認為,只有立足原創,才能突破現有技術的認知邊界;只有做到實用,才能把科研成果真正轉化為產品,轉化為實際可以落地的價值;只有發現本質,才能從紛繁的表象中看到模型背后的創新點,更好地實現 “大” 且“統一”的基礎模型研發。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 桦南县| 客服| 沐川县| 阳曲县| 武定县| 武夷山市| 昌平区| 峨边| 四川省| 永寿县| 太原市| 报价| 湖北省| 茂名市| 石棉县| 广南县| 女性| 韶关市| 海丰县| 长泰县| 陈巴尔虎旗| 富蕴县| 阳山县| 偃师市| 博乐市| 津南区| 封开县| 东丽区| 永丰县| 治多县| 全椒县| 泽库县| 荆州市| 北安市| 新建县| 新郑市| 利辛县| 吉水县| 延安市| 巴东县| 康定县|