博客專欄

        EEPW首頁 > 博客 > 走向CV的通用人工智能:從GPT和大型語言模型中汲取的經(jīng)驗教訓(xùn) (上)

        走向CV的通用人工智能:從GPT和大型語言模型中汲取的經(jīng)驗教訓(xùn) (上)

        發(fā)布人:CV研究院 時間:2023-06-23 來源:工程師 發(fā)布文章

        01

        總  述


        最近,由大型語言模型(LLM)提供支持的聊天系統(tǒng)出現(xiàn)了,并迅速成為在自然語言處理(NLP)中實現(xiàn)AGI的一個有前途的方向,但在計算機(jī)視覺(CV)中實現(xiàn)AGI的道路仍不清楚。人們可能會將這種困境歸因于視覺信號比語言信號更復(fù)雜,但我們有興趣找到具體的原因,并從GPT和LLM中吸取經(jīng)驗來解決這個問題。

        圖片

        在今天分享中,從AGI的概念定義開始,簡要回顧了NLP如何通過聊天系統(tǒng)解決廣泛的任務(wù)。該分析啟發(fā)我們,統(tǒng)一是CV的下一個重要目標(biāo)。但是,盡管在這個方向上做出了各種努力,CV仍然遠(yuǎn)遠(yuǎn)不是一個像GPT這樣自然集成所有任務(wù)的系統(tǒng)。我們指出,CV的本質(zhì)弱點在于缺乏從環(huán)境中學(xué)習(xí)的范式,而NLP已經(jīng)完成了文本世界中的任務(wù)。然后,我們想象一個管道,將CV算法放在世界范圍的可交互環(huán)境中,對其進(jìn)行預(yù)訓(xùn)練,以預(yù)測其動作的未來幀,然后用指令對其進(jìn)行微調(diào),以完成各種任務(wù)。我們希望通過大量的研究和工程努力來推動這一想法并擴(kuò)大其規(guī)模,為此我們分享了我們對未來研究方向的看法。

        02

        背景


        世界正在見證一場邁向通用人工智能(AGI)的史詩之旅,我們按照慣例將AGI定義為一種可以復(fù)制人類或其他動物所能完成的任何智力任務(wù)的計算機(jī)算法。具體來說,在自然語言處理(NLP)中,計算機(jī)算法已經(jīng)發(fā)展到可以通過與人類聊天解決廣泛任務(wù)的程度。一些研究人員認(rèn)為,這些系統(tǒng)可以被視為AGI的早期火花。這些系統(tǒng)大多建立在大型語言模型(LLM)之上,并通過指令調(diào)優(yōu)進(jìn)行了增強(qiáng)。它們配備了外部知識庫和專門設(shè)計的模塊,可以完成解決數(shù)學(xué)問題、生成可視化內(nèi)容等復(fù)雜任務(wù),體現(xiàn)了其理解用戶意圖和執(zhí)行初步思想鏈的強(qiáng)大能力。盡管在某些方面存在已知的弱點(例如,講述科學(xué)事實和被點名的人之間的關(guān)系),但這些開創(chuàng)性的研究已經(jīng)顯示出一種明顯的趨勢,即將NLP中的大多數(shù)任務(wù)統(tǒng)一為一個系統(tǒng),這反映了對AGI的追求。

        圖片

        與NLP中統(tǒng)一的快速進(jìn)展相比,計算機(jī)視覺社區(qū)還遠(yuǎn)遠(yuǎn)不是統(tǒng)一所有任務(wù)的目標(biāo)。常規(guī)的CV任務(wù),如視覺識別、跟蹤、生成等,大多使用不同的網(wǎng)絡(luò)架構(gòu)/或?qū)iT設(shè)計的通道進(jìn)行處理。研究人員期待著像GPT這樣的系統(tǒng),它可以通過統(tǒng)一的提示機(jī)制處理廣泛的CV任務(wù),但在實現(xiàn)單個任務(wù)的良好實踐和在廣泛的任務(wù)中推廣之間存在權(quán)衡。例如,為了報告目標(biāo)檢測和語義分割中的高識別精度,最好的策略是在用于圖像分類的強(qiáng)大主干上設(shè)計特定的頭部模塊,并且這種設(shè)計通常不會轉(zhuǎn)移到其他問題。

        因此,出現(xiàn)了兩個問題:(1)為什么CV的統(tǒng)一如此困難?(2) 為了實現(xiàn)這一目標(biāo),可以從GPT和LLM中學(xué)到什么?

        為了回答這些問題,重新審視GPT,并將其理解為在文本世界中建立一個環(huán)境,并允許算法從交互中學(xué)習(xí)。CV研究缺乏這樣的環(huán)境。因此,算法無法模擬世界,因此它們對世界進(jìn)行采樣,并學(xué)會在所謂的代理任務(wù)中獲得良好的性能。在經(jīng)歷了史詩般的十年深度學(xué)習(xí)之后,代理任務(wù)不再有意義地表明CV算法的能力;越來越明顯的是,繼續(xù)追求對它們的高精度可以使我們遠(yuǎn)離AGI。

        03

        通用人工智能


        人工智能是一場用機(jī)器或一套數(shù)學(xué)算法復(fù)制人類智能的持久戰(zhàn)。現(xiàn)代人工智能于1956年在Dartmouth研討會上正式提出,社區(qū)為此開發(fā)了大量方法。實現(xiàn)人工智能至少有兩種不同的途徑:(i)符號人工智能,它試圖將世界形成一個符號系統(tǒng),并使用邏輯算法對其進(jìn)行推理;(ii)統(tǒng)計人工智能,它試圖建立一個數(shù)學(xué)函數(shù)來表述輸入和輸出之間的關(guān)系,但該函數(shù)可能是近似的,甚至是無法解釋的。在過去的十年里,第二條道路占據(jù)了主導(dǎo)地位,特別是深度學(xué)習(xí)理論,這是連接主義方法思想的一部分。

        簡而言之,AGI就是學(xué)習(xí)一個廣義函數(shù)a=π(s)。盡管形式很簡單,但老式的人工智能算法很難使用相同的方法、算法甚至模型來處理所有這些問題。在過去的十年里,深度學(xué)習(xí)提供了一種有效而統(tǒng)一的方法:人們可以訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來近似函數(shù)a=π(s),而不知道它們之間的實際關(guān)系。強(qiáng)大的神經(jīng)網(wǎng)絡(luò)架構(gòu)(如transformer)的出現(xiàn)甚至使研究人員能夠為不同的數(shù)據(jù)模式訓(xùn)練一個模型。

        實現(xiàn)AGI存在巨大困難,包括但不限于以下問題。


        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 宿松县| 简阳市| 赞皇县| 安阳市| 锦州市| 临高县| 稻城县| 禄丰县| 汉沽区| 山西省| 浦江县| 南宁市| 肥城市| 焦作市| 石狮市| 尚志市| 子长县| 措美县| 长兴县| 浦城县| 曲阳县| 和硕县| 平潭县| 天镇县| 桂阳县| 旅游| 赤壁市| 射阳县| 桐梓县| 平原县| 镇远县| 东光县| 哈尔滨市| 镇原县| 昆山市| 砀山县| 城口县| 萨迦县| 富宁县| 江达县| 白河县|