博客專欄

        EEPW首頁 > 博客 > Visual ChatGPT:Microsoft ChatGPT 和 VFM 相結合

        Visual ChatGPT:Microsoft ChatGPT 和 VFM 相結合

        發布人:ygtu 時間:2023-08-06 來源:工程師 發布文章
        推薦:使用NSDT場景編輯器助你快速搭建可二次編輯的3D應用場景
        什么是Visual ChatGPT?

        Visual ChatGPT 是一個包含 Visual Foundation 模型 (VFM) 的系統,可幫助 ChatGPT 更好地理解、生成和編輯視覺信息。VFM 能夠指定輸入輸出格式,將視覺信息轉換為語言格式,并處理 VFM 歷史記錄、優先級和沖突。

        因此,Visual ChatGPT 是一種 AI 模型,它充當了 ChatGPT 限制與允許用戶通過聊天進行交流并生成視覺效果之間的橋梁。

        ChatGPT 的局限性

        在過去的幾周和幾個月里,ChatGPT 一直是大多數人的對話。但是,由于其語言訓練功能,它不允許處理和生成圖像。

        而你有視覺基礎模型,如視覺變壓器和穩定擴散,它們具有驚人的視覺功能。這就是語言和圖像模型的組合創造了Visual ChatGPT的地方。

        什么是可視化基礎模型?

        視覺基礎模型用于對計算機視覺中使用的基本算法進行分組。他們采用標準的計算機視覺技能并將其轉移到AI應用程序上,以處理更復雜的任務。

        Visual ChatGPT 中的提示管理器由 22 個 VFM 組成,其中包括文本到圖像、控制網、邊緣到圖像等。這有助于 ChatGPT 將圖像的所有視覺信號轉換為語言,以便 ChatGPT 更好地理解。那么Visual ChatGPT是如何工作的呢?

        Visual ChatGPT 如何工作?

        Visual ChatGPT 由不同的組件組成,以幫助大型語言模型 ChatGPT 理解視覺對象。

        Visual ChatGPT 的架構組件
        • 用戶查詢:這是用戶提交查詢的位置

        • 提示管理器:這會將用戶的視覺查詢轉換為語言格式,以便 ChatGPT 模型可以理解。

        • Visual Foundation Models:它結合了各種VFM,例如BLIP(Bootstrapping Language-Image Pre-training),Stable Diffusion,ControlNet,Pix2Pix等。

        • 系統原理:這提供了可視化聊天GPT的基本規則和要求。

        • 對話歷史:這是系統與用戶進行交互和對話的第一個點。

        • 推理的歷史:這使用不同VFM過去具有的先前推理來解決復雜的查詢。

        • 中間答案:通過使用 VFM,模型將嘗試輸出幾個邏輯上低估的中間答案

        Microsoft GitHub

        有關提示管理器的更多信息

        你們中的一些人可能認為這是 ChatGPT 處理視覺效果的強制解決方法,因為它仍然將圖像的所有視覺信號轉換為語言。上傳圖像時,提示管理器會合成包含文件名等信息的內部聊天歷史記錄,以便 ChatGPT 可以更好地了解查詢所指的內容。

        例如,用戶輸入的圖像的名稱將充當操作歷史記錄,然后提示管理器將協助模型通過“推理格式”來確定需要對圖像執行的操作。在 ChatGPT 選擇正確的 VFM 操作之前,您可以將此視為模型的內部想法。

        在下圖中,您可以看到提示管理器如何啟動可視 ChatGPT 的規則:

        Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

        開始使用可視化聊天GPT

        要開始您的 Visual ChatGPT 之旅,您需要先運行 Visual ChatGPT 演示:

        # create a new environment
        conda create -n visgpt python=3.8
        
        # activate the new environment
        conda activate visgpt
        
        #  prepare the basic environments
        pip install -r requirement.txt
        
        # download the visual foundation models
        bash download.sh
        
        # prepare your private openAI private key
        export OPENAI_API_KEY={Your_Private_Openai_Key}
        
        # create a folder to save images
        mkdir ./image
        
        # Start Visual ChatGPT !
        python visual_chatgpt.py

        您還可以在Microsoft的Visual ChatGPT GitHub上了解更多信息。確保查看每個視覺基礎模型上的 GPU 內存使用情況。

        可視化聊天GPT的用例

        那么Visual ChatGPT能做什么呢?

        圖像生成

        您可以要求Visual ChatGPT從頭開始創建圖像,并提供描述。您的圖像將在幾秒鐘內生成,具體取決于可用的計算能力。其使用文本數據的合成圖像生成基于穩定擴散。

        更改圖像背景

        同樣,使用穩定的擴散,Visual ChatGPT可以改變您輸入的圖像的背景。用戶可以向助手提供他們希望將背景更改為什么的任何描述,穩定的擴散模型將繪制圖像的背景。

        更改彩色圖像和其他效果

        您還可以根據為應用程序提供描述來更改圖像的顏色并應用效果。Visual ChatGPT將使用各種預訓練模型和OpenCV來更改圖像顏色,突出顯示圖像邊緣等。

        對圖像進行更改

        Visual ChatGPT 允許您通過編輯和修改圖像中的對象來刪除或替換圖像的各個方面,并向應用程序提供定向文本描述。但是,需要注意的是,此功能需要更多的計算能力。

        Visual ChatGPT 的局限性

        眾所周知,組織總需要努力解決某種形式的缺陷來改善其服務。

        計算機視覺和大型語言模型的結合

        Visual ChatGPT 嚴重依賴 ChatGPT 和 VFM,因此,這些各個方面的準確性和可靠性會影響 Visual ChatGPT 的性能。使用大型語言模型和計算機視覺的組合需要大量的提示工程,并且可能難以實現熟練的性能。

        隱私和安全

        Visual ChatGPT能夠輕松插入和拔出VFM,這可能是一些用戶對安全和隱私問題的擔憂。Microsoft需要更多地研究敏感數據如何不被泄露。

        自我校正模塊

        Visual ChatGPT的研究人員遇到的限制之一是由于VFM的失敗和提示的多樣性而導致的生成結果不一致。因此,他們得出結論,他們需要研究一個自我更正模塊,以確保生成的輸出符合用戶的要求,并能夠進行必要的更正。

        需要大量 GPU

        為了從Visual ChatGPT中受益并利用22個VFM,您將需要大量的GPU RAM,例如A100。根據手頭的任務,確保您了解有效完成任務所需的 GPU 量。

        總結

        Visual ChatGPT仍有其局限性,但這是同時使用大語言模型和計算機視覺的重大突破。如果您想了解有關Visual ChatGPT的更多信息,請閱讀本文:Visual ChatGPT:使用Visual Foundation Models進行對話,繪圖和編輯

        Visual ChatGPT 與 ChatGPT4 相似嗎?如果你嘗試過這兩種方法,你有什么看法?在下面發表評論!

        原文鏈接:Visual ChatGPT:Microsoft ChatGPT 和 VFM 相結合 (mvrlink.com)


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI 人工智能 chatgpt

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 巫溪县| 柏乡县| 武清区| 从江县| 师宗县| 松原市| 民丰县| 河曲县| 邹平县| 从江县| 黄骅市| 池州市| 荔浦县| 南澳县| 剑川县| 乐至县| 布拖县| 灵宝市| 微山县| 宝丰县| 庆云县| 闽清县| 舒兰市| 彩票| 文山县| 资中县| 松阳县| 观塘区| 犍为县| 瑞安市| 周至县| 赣榆县| 栾城县| 鹤峰县| 紫阳县| 安平县| 昌邑市| 云南省| 韩城市| 凉山| 安泽县|