GPT-4刷屏,這家中國AI企業(yè)多模態(tài)大模型已落地應用多年,新版本內測了
OmModel V3 將于近期發(fā)布,新版本將提供一句話生成算法、自由定義需求、中英雙語互動、智能報告等多個特色功能,用戶可以通過語音或者文字等形式,自由提交任何需求任務,系統(tǒng)將根據(jù)任務給出相關反饋,包括音視圖文等多個模態(tài)的結果呈現(xiàn)(附內測名額)。
人類如何認知世界?
人類 80% 的信息來自于視覺,同時人類也是地球上唯一擁有完整語言體系的生物。當我們通過雙眼看到這個世界,不論是閱讀書籍、網上沖浪還是欣賞自然景觀,我們的大腦都在進行著復雜的信息處理。我們不僅能夠感知周圍環(huán)境中的物體和形狀,還能夠理解它們的意義和內涵。這得益于我們獨特的語言能力,它使我們能夠表達和交流抽象的概念和想法。
通過語言,我們可以共享知識、傳遞經驗、探討問題,這也是人類文明發(fā)展的重要基石之一。盡管視覺是我們獲取信息的主要途徑之一,但是缺乏語言能力的動物只能憑借本能行動和簡單的聲音表達與其他個體進行交流,無法像人類一樣進行高級的社交互動和智力活動。因此,語言的重要性不容忽視,它是我們作為人類的獨特標志之一,也是我們與自然界其他物種之間的重要區(qū)別。
與此同時,如何賦予機器人類般的智能一直是計算機科學的終極難題,近期隨著 GPT-4 等多模態(tài)大型語言模型的出現(xiàn),語言成為了打開人工智能寶盒的關鍵鑰匙。
讓機器用語言理解世界
“人類的認知和理解需要依賴語言。語言使我們能夠表達和共享常識知識。例如,“水是液體,可以流動”,這是一條常識知識,我們可以用準確的詞匯和語法結構來描述這一現(xiàn)象,讓更多人了解和掌握這一知識。此外,語言也是人類邏輯推理的重要載體。在邏輯推理中,人們通過識別和分析命題的真假和關系,通過語言的抽象和形式化表達,可以更好地理解和應用邏輯規(guī)則。有了文字、有了語言,它們成為人類與世界交流的最基本、最便捷、最核心的介質。” 對于語言之于認知的價值,聯(lián)匯科技首席科學家趙天成博士的見解明確。
前日剛發(fā)布的多模態(tài)大模型 GPT-4 就是科學家通過大模型的技術方式拓展認知邊界的積極嘗試。
GPT-4 通過圖像或文本輸入,完成識別、解析,輸出文本結果。對于 GPT-4 的這次升級,人們驚訝于它的 “讀圖能力” 和 “幽默感”,不論是各類統(tǒng)計表格,還是網絡梗圖,GPT-4 的表現(xiàn)可圈可點。
盡管 GPT-4 在許多現(xiàn)實世界場景中能力還不如人類,但它在多種不同領域的專業(yè)應試中,已經夠排到前段位置,程序編寫、開放問答、標準化測試等眾多方面,“超過人類的平均水平” 已經是事實。
對此,趙天成博士進行了更多的解釋:這次的 GPT-4 是 GPT 大模型的新一次迭代,加入了新的模態(tài),即對圖片的理解,同時大模型對語言生成和理解能力也有所提升。不論大模型的模態(tài)和規(guī)模如何增加、擴大,它的底層邏輯一定以語言模型為認知內核,將更多的模態(tài)融入進來,實現(xiàn)以自然語言為核心的數(shù)據(jù)理解、信息認知與決策判斷。
語言曾經是人類的特有能力,現(xiàn)在也成了快速逼近的強人工智能的核心載體。
再次進化的認知能力
趙天成博士表示,在文本語言理解的基礎上,如果疊加視頻、音頻等更多模態(tài),實現(xiàn)更大范圍、更多行業(yè)數(shù)據(jù)的學習,則意味著大模型的認知能力將得到更智能的進化升級。
除了 OpenAI 有卓越的表現(xiàn)外,國內外瞄準大模型的人工智能企業(yè)并不少,其中,趙天成博士和他的團隊在多模態(tài)大模型領域技術及應用已經提前交卷。
趙天成博士的技術團隊由來自卡耐基梅隆大學(CMU)、加州大學(UCLA)、微軟與阿里巴巴等國際頂尖院校和機構的碩士與博士組成,多年深耕且引領國際多模態(tài)機器學習、人機交互領域的科研工作,是一支擁有多項核心技術的國際頂尖領軍團隊。
趙天成博士(右 4)及其核心團隊
趙天成博士畢業(yè)于卡耐基梅隆大學計算機科學專業(yè),長期從事多模態(tài)機器學習與人機交互技術領域的理論與技術研究,帶領團隊率先突破非結構化數(shù)據(jù)直接使用、跨模態(tài)數(shù)據(jù)融合分析等行業(yè)難題,多次獲得國際頂會最佳論文,微軟研究院 best & brightest phd,主持、參與多個國家、省、市重大項目研究,是國際多模態(tài)交互 AI 領域領軍人物。
他們在 2019 年就開始深入研究多模態(tài)大模型技術,是業(yè)界率先從事預訓練大模型研究的團隊之一,并于 2021 年發(fā)布了自研的 OmModel V1 多模態(tài)預訓練大模型,作為業(yè)界最早的語言增強視覺識別模型(Langauge Augumented Visual Models),OmModel 在 V1、V2 版本迭代的基礎上,已經實現(xiàn)對視頻、圖片、文本等不同模態(tài)的融合分析和認知理解,尤其強調通過自然語言增強 AI 模型的視覺識別能力和跨模態(tài)理解能力,幫助用戶達成認知智能。通過將視覺和語言的有機結合,將使得機器智能向人類智能更靠近了一步。
OmModel 提出的多項原創(chuàng)核心關鍵技術實現(xiàn)了技術和應用的創(chuàng)新,包括:
1. 實現(xiàn)更高數(shù)據(jù)與模型參數(shù)效率的無止境多任務新型預訓練算法
突破現(xiàn)有多模態(tài)大模型預訓練耗費超大規(guī)模預訓練數(shù)據(jù)和算力的局限,提出基于復雜異構訓練數(shù)據(jù)的無止境多任務與訓練算法,融合圖片描述、圖片分類、區(qū)域描述等多種視覺語言數(shù)據(jù)類型,從多角度進行多層級的大模型預訓練,實現(xiàn)用更高的數(shù)據(jù)效率與模型參數(shù)效率,增強在同等數(shù)據(jù)情況下的預訓練效果,提高模型綜合識別能力,實現(xiàn)一個多模態(tài)大模型網絡結構支撐 N 種任務、N 種場景的持續(xù)學習機制。
2. 通過自然語言增強實現(xiàn)的多場景零樣本新型視覺識別模型
針對傳統(tǒng)視覺識別模型依賴海量人工標注數(shù)據(jù)與煙囪式訓練的瓶頸,提出基于自然語言增強的多模態(tài)視覺識別模型,通過自然語言作為知識橋梁,讓視覺識別模型可以基于大規(guī)模多模態(tài)預訓練泛化到任何全新場景當中,實現(xiàn)高精度的零樣本新領域識別,突破了傳統(tǒng)視覺識別系統(tǒng)必須按照場景進行定制的魔咒,讓用戶可以通過自然語言定義任意視覺目標,實現(xiàn)了視覺識別的冷啟動,大幅度降低了視覺識別應用開發(fā)的門檻。
3.“人在環(huán)路” 多輪人機意圖對齊的新型大模型微調機制
針對視覺語言模型現(xiàn)有領域微調方法對硬件要求高、微調過程可控性有限等迫切挑戰(zhàn),提出基于 “人在環(huán)路” 多輪人機交互式新型微調方式,通過結合人類專家的業(yè)務知識和迭代式的大模型微調方式,實現(xiàn)更加方便有效的大模型領域微調,將人類專家的業(yè)務目標和領域知識更好地融入到大模型的訓練當中;通過非參數(shù)學習和提示學習,減少大模型微調所需要的 GPU 算力需求,實現(xiàn)更加低代價的大模型行業(yè)落地。
4. 實現(xiàn)在低成本推理硬件環(huán)境下的新型大模型推理機制
針對現(xiàn)有多模態(tài)大模型僅強調識別精度,忽略推理速度,難以在大規(guī)模多模態(tài)數(shù)據(jù)匹配查詢中應用的短板,提出基于稀疏向量匹配的視覺語言推理算法。基于端到端稀疏向量學習與倒排索引大數(shù)據(jù)結構,實現(xiàn)億級多模態(tài)數(shù)據(jù)秒級匹配,匹配速度相較于傳統(tǒng) GPU 向量比對算法提高 5 倍以上,在 CPU 環(huán)境提高匹配速度 300 倍以上;通過多專家蒸餾算法,提高多模態(tài)大模型編碼推理速度 5 倍以上,大幅度降低多模態(tài)大模型的部署成本。
一手技術,一手應用
趙天成博士表示,為了更好地服務行業(yè)和應用,OmModel 突破了大多數(shù)視覺語言大模型僅僅局限于學術研究和開源數(shù)據(jù)訓練的瓶頸,通過上述無止境預訓練機制,在通識數(shù)據(jù)的基礎上持續(xù)吸納行業(yè)預訓練數(shù)據(jù)。
目前已經針對視頻云、智慧城市、融合媒體等行業(yè),在通用預訓練數(shù)據(jù)的基礎上,構建超過千萬的多模態(tài)圖文預訓練數(shù)據(jù)集,大幅提高多模態(tài)大模型在垂直行業(yè)領域的零樣本識別性能和小樣本調優(yōu)性能,實現(xiàn)從 “通用大模型” 向著 “行業(yè)大模型” 的重要升級和進化。
“技術創(chuàng)新 + 場景應用” 的雙核內驅使聯(lián)匯科技成為業(yè)內最早實現(xiàn)多模態(tài)大模型技術服務落地的企業(yè)。
比如,在電力行業(yè)中,針對基層無人機電路巡檢的業(yè)務需求,傳統(tǒng)模式存在輸電線路小部件典型缺陷識別準確率不高、識別系統(tǒng)運行速度慢、識別結果依賴人工復核等棘手問題,通過 OmModel 行業(yè)大模型生成針對輸電線路多模態(tài)數(shù)據(jù)的人工智能預訓練算法,以及針對小部件缺陷的圖像分析模型,提升輸電線路小部件典型缺陷檢出率和識別精度,并通過蒸餾算法,實現(xiàn)缺陷檢測模型的參數(shù)壓縮,提高模型的運行速度,提升輸電線路缺陷檢測的整體效率,為電網公司在輸電線路無人機巡檢缺陷精準識別領域提供應用示范。
OmModel V3 來了!
OmModel 已經實現(xiàn)在智慧電力、視覺監(jiān)管、智慧城市、機器人、數(shù)字資產等領域的落地應用,后續(xù)還會有哪些動作方向呢?
對于 OmModel 的迭代規(guī)劃,趙天成博士非常明確:“我們始終秉著‘用視覺感知世界,用語言理解世界’的觀點,產品和技術方向一定是如何讓 AI 更貼心、更懂人類,通過視覺和語言的融合理解,讓用戶和機器之間可以有便捷的交互、更自由地表達以及更智慧的反饋,使大模型的能力成為用戶的能力,讓人工智能真正地為更多人所有、所用。”
據(jù)悉,OmModel V3 將于近期發(fā)布,新版本將提供一句話生成算法、自由定義需求、中英雙語互動、智能報告等多個特色功能,用戶可以通過語音或者文字等形式,自由提交任何需求任務,系統(tǒng)將根據(jù)任務給出相關反饋,包括音視圖文等多個模態(tài)的結果呈現(xiàn)。
OmModel V3 正在帶來更多關于智慧未來的想象 ——
比如,現(xiàn)有的家庭攝像頭和平臺,作用非常有限,提醒和記錄是其用戶頻繁使用的功能,甚至這類簡單需求在使用中也 bug 頻出,比如大量誤報,讓系統(tǒng)提醒變成了騷擾,無法定義的監(jiān)控任務讓本該智慧化的體驗變得非常呆板、有限。
年輕的鏟屎官無法時時刻刻地陪在 “主子” 身邊,家里的主子有沒有悄悄溜出門,家具拆的還剩多少,對新玩具還滿意嗎,有沒有從未出現(xiàn)的異常行為需要留意,這些需求稀碎但也重要,傳統(tǒng)攝像頭及平臺根本無法滿足,通過 OmModel V3,鏟屎官將可以通過自然對話定義屬于你自己的任務需求,同時選擇不同的反饋方式,可以是一份系統(tǒng)化的智能報告,可以是 AIGC 的視頻合輯,反正結果也是由你用語言定義。
作為多模態(tài)大模型,OmModel 的價值遠不止于此,不論是智慧家居的小場景,還是智慧電力等行業(yè)級應用,OmModel 的通識能力正在加速釋放,通過與硬件、平臺等多樣的融合應用,它將以智能助手、智慧數(shù)字人等不同的形態(tài)出現(xiàn)、賦能,提升工作、生活的效率與質量。
隨著通用泛化能力的不斷釋放,關于 OmModel 還能夠做什么的問題,趙天成博士的回答很有意思 ——
“這個問題我們已經在各個行業(yè)、領域、場景給出了很多答案,但是我們還在不斷努力,給出更多、更新、更有意思的回答。當然,這個過程中,我們也希望看到大家的答案,希望有更多的開發(fā)者加入我們,通過 OmModel 開啟更未來的場景與應用。”
OmModel 的先發(fā)優(yōu)勢為技術創(chuàng)新與應用的開啟提供了更多可能,如果你也想一起搞點事情,歡迎自薦加入該團隊,郵箱:marketing@hzlh.com
最后,讀者福利,聯(lián)匯科技將提供 10 個內測名額讓大家搶先體驗OmModel V3,可通過微信后臺留言申請。參與方式:留言并備注郵箱,聯(lián)匯科技會給申請的用戶發(fā)邀請郵件,先到先得。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。