JARVIS項目原作解讀:連接ChatGPT和HuggingFace解決AI問題
機器之心最新一期線上分享邀請到了微軟亞洲研究院研究員宋愷濤,為大家分享他們近期的開源項目 JARVIS。
在最近一段時間內,以 ChatGPT 為代表的大語言模型(Large Language Models,LLMs)在工業界和學術界掀起了巨大的關注。然而,以處理文本為主的 LLMs,在解決許多復雜并且具有挑戰的 AI 任務上,依然存在著許多瓶頸:
1、受限于語言模型的輸入輸出形式,當下的 LLMs(如 ChatGPT)缺少能夠處理復雜模態信息的能力(如圖像、語音、視頻等)。
2、一些復雜的 AI 任務需要先進行規劃,分解多個子任務,并協調不同模型的調度和協作執行。而這些要求也超出了 LLMs 本身的能力。
3、在針對一些特定任務上,LLMs 盡管在零資源或者低資源下展現非常好的效果,但依然要弱于一些專家模型(例如微調模型)。
因此,如何解決問題也成為 LLMs 走向通用人工智能的關鍵一步。為此,JARVIS 項目團隊指出如果 LLMs 要實現這一目的,它們應當能夠利用外部模型的力量。而關鍵點就在于如何尋找一個合適的關鍵件來連接大語言模型和 AI 模型。
JARVIS 項目團隊注意到任何 AI 模型都可以通過總結其模型功能來獲取一種文本表示,并因此提出一個概念:語言是 LLMs 用于連接 AI 模型的通用接口。基于這一理念推出 JARVIS,一種模型協作系統用于連接 LLMs(例如 ChatGPT)以及機器學習庫(例如 Hugging Face)等。該系統將 LLMs 作為大腦,并利用語言的能力來管理不同 AI 社區中的不同模型,具體流程分為 4 步:任務規劃、模型選擇、任務執行、生成反饋。
在這一框架下,模型具備了分解和管理不同任務的能力,并且能夠處理包括文本、語音、圖像、視頻等不同模態的復雜信息。這一框架也吸引了越來越多的人來探索 LLMs 與外部模型或者工具進行協作調度的應用前景。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。