新聞中心

        EEPW首頁 > 新聞縱覽 > 阿丘科技李嘉悅:大模型驅動的AI檢測范式變革——大模型、小模型、智能體的協同進化

        阿丘科技李嘉悅:大模型驅動的AI檢測范式變革——大模型、小模型、智能體的協同進化

        作者: 時間:2025-04-08 來源: 收藏

        3月28日,由機器視覺產業聯盟(CMVU)主辦、慕尼黑展覽(上海)有限公司承辦的VisionChina2025(上海)機器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產品總監李嘉悅在機器視覺及工業應用研討會現場,圍繞“大模型驅動的AI檢測范式變革:大模型、小模型與智能體的協同進化”的主題,發表了精彩演講。

        本文引用地址:http://www.104case.com/article/202504/469156.htm

        尊敬的各位來賓,我是嘉悅,來自北京阿丘科技。今天,我將與大家分享《大模型驅動的AI檢測范式變革:大模型、小模型與智能體的協同進化》。

        在探討大模型之前,讓我們簡單回顧一下工業AI視覺的發展歷程。2019年被視為工業AI視覺的元年,當時以CNN為主流的小模型路線開始在早期客戶中落地。后續一直到2024年,工業AI視覺處于一個跨越鴻溝的階段,AI開始逐漸在各個細分領域和市場中普及,從頭部客戶到腰部客戶,甚至在某些細分行業已經成為標配。到了2025年可以說,我們已經基本跨越了這個鴻溝,表現為大部分客戶已經認可AI在工業領域的實用性,認可AI在工業檢測中的落地能力。

        然而這幾年雖然認知是變化了,但AI檢測應用的增長速度并不算快,呈現出較為線性的增長趨勢,遠未達到爆發狀態,沒有形成質變。原因在于小模型技術路線存在一些長期困擾行業的問題:樣本收集周期長、模型迭代周期長以及模型泛化能力差。

        樣本收集方面,工業缺陷樣本稀缺,收集周期漫長。模型迭代過程中,非專業工程師在調優模型時常常面臨不收斂的問題,導致AI落地周期延長。此外,小模型的泛化能力不足,對于未見過的樣本,模型往往無法準確識別,這又回到了樣本收集的難題上。這些問題成為了制約AI檢測落地和增長的關鍵因素。

        為了解決這些問題,阿丘科技這幾年一直在探索和嘗試。令人興奮的是,在去年AI領域出現了一個非常大的技術變量,通用大模型爆發式涌現了。從大家熟悉的OpenAI的ChatGPT,到后來的豆包、Kimi,再到春節期間爆火的DeepSeek,3月出現的Manus智能體,這些大模型引發了廣泛討論。我們可以看到,通用AI智能的能力水平正在以驚人的速度提升,可能已經超越了許多普通人的智力和知識水平。雖然通用大模型不直接影響AI檢測,但它標志著AI技術已經來到了一個突破點,預示著即將迎來突破性的影響。

        回歸到工業檢測本身,大模型技術的變遷會產生哪些影響呢?對于大模型在工業檢測中的應用,存在兩種不同的聲音。一種較為保守的觀點認為,大模型與工業檢測無關,它更像一個聊天機器人,可以輔助一些文書類工作,無法適應工業場景的嚴格的準確性要求。在工業檢測中無法發揮作用。另一種較為激進的觀點則認為,大模型的能力極其強大,很快就可以直接接入工廠,一步到位實現自動化質檢。

        而阿丘科技,一直對大模型技術發展進行了長期關注,我們的觀點是,大模型確實會加速AI檢測范式的轉變,但它并不是一個非此即彼的替代關系,我們認為,大模型將進入工業檢測領域,并與小模型形成協同關系。


        一、什么是大模型、小模型、智能體

        接下來,我想簡單科普一下什么是大模型、小模型、智能體。

        小模型通常指的是傳統的深度學習網絡,如CNN等,其參數規模較小,通常在百萬級。小模型在數據處理能力上存在一定限制,對數據量和數據多樣性要求較高,對數據質量和一致性的要求也較為嚴格。這也就是為什么在工業檢測中,我們要求標注必須準確無誤,否則模型會產生混淆。小模型的知識模態通常是單模態,要么是文本,要么是圖像、視頻等。其泛化性能相對較差,因為它們只學習了特定的、局部的知識。例如,一個用于車牌識別的小模型,只能進行車牌識別,無法識別其他物體。

        相比之下,大模型采用了Transformer等架構,解決了小模型在長時間和遠距離依賴問題上的不足。這種架構允許我們通過堆疊海量數據和參數來提升模型能力,參數規模通常達到數十億甚至上百億。大模型能夠接收批量規模的文本、圖像、音頻等多模態數據,并對其進行處理。它對數據中的噪聲和不一致性具有較強的魯棒性,即使數據中存在一些錯誤,也不會對模型產生太大影響。大模型通常是多模態的,如視覺語言模型、聽覺語言模型等,具有出色的泛化性能,能夠在未見過的數據和新任務上表現出較好的適應性和舉一反三的能力。

        智能體可以簡單理解為大模型應用的一種包裝形式,它可以自主完成一系列動作以達成目標,類似于一個輔助人類的小助理。智能體并不是一個單獨的模型分類,而是大模型在特定應用方式下的體現。

        接下來,我們簡單了解一下這些模型是如何訓練出來的,這有助于我們理解模型為何具有這樣的能力。

        首先,無論是小模型還是大模型,都需要經過預處理階段。在這個階段,所有的非數字類信息都會被轉化為數字信息,以便計算機進行處理。

        其次是訓練過程。對于小模型來說,訓練過程主要是對專業知識的學習,可以采用監督學習或非監督學習的方式,在工業檢測領域,監督學習的應用較為廣泛。

        而對于大模型,其訓練過程則有所不同,通常分為兩個階段。首先是預訓練階段。在這個階段,模型通過大量的互聯網信息,以自監督的方式學習通用知識。這個過程通常需要消耗大量資金、算力和時間,因此,當人們提到做大模型燒錢時,通常指的是這個預訓練階段。預訓練之后,還有一個關鍵步驟叫做微調。由于互聯網數據可能存在信息不全或不準確,需要通過微調來提升模型的專業度。微調的其中一種方式是人工標注,類似于我們在工業檢測中對缺陷進行標注一樣,人工標注會告訴模型正確答案,然后模型會根據這些標注數據進行學習。此外,還有一種新興的方式是強化學習,即通過給模型的答案打分,讓模型不斷嘗試,直到達到較高的分數,從而確定最終答案。這兩種方法在實際應用中都有所采用。

        前面我們所討論的大模型概念,通常指的是我們日常接觸的一些應用場景,然而,當大模型真正應用于企業時,它可以細分為多個層次。

        除了通用大模型,適用于多種任務和生活場景的模型之外,還有行業大模型,這類模型是為特定行業量身定制的,具備該行業的專業性。例如,在煤礦領域的大模型需要了解煤礦行業的各種專業知識;在醫療領域,大模型可以作為醫生的助理,具備一定的專業輔助能力。

        再往下細分,還有場景大模型,這類模型針對特定的應用場景進行設計,具有更強的專業性。例如,用于磁材檢測的大模型、煙草檢測的大模型,或者針對某種工藝缺陷檢測的大模型等。

        最后是場景小模型,這是我們目前應用的主流。它專注于特定場景中的特定任務,在該任務上具有很強的專業性。例如,專門用于檢測某一產品某一缺陷項的模型,它可能無法檢測其他產品或其他缺陷項,這種場景小模型在日常應用中非常普遍。另外,按技術類型劃分,還可以分為單模態和多模態模型。多模態模型結合了多種不同類型的數據,如文本、圖像、視頻等,具有更強大的理解和生成能力。

        在企業應用大模型時,一個關鍵點是要準確匹配企業自己的實際問題和需求,然后選擇合適的模型。我們不能僅僅憑借感覺或偏好來選擇模型,不同模型的效果和訓練開銷存在很大差異,我們要避免“殺雞用牛刀”或“殺牛用雞刀”的情況。


        二、工業視覺如何運用大小模型?

        回到工業視覺領域,要探討如何合理運用大小模型,我們可以來列舉和分析一下它們與工業檢測的匹配度。

        首先,通用AI大模型是通過大量互聯網數據訓練出來的,然而,工業數據在互聯網上相對較少,尤其是工業質量數據。因此,這類通用大模型在工業檢測中的準確度通常較差,直接應用于工業檢測的效果并不理想。

        相比之下,我們有機會構建專門的工業檢測大模型,這類模型類似于行業大模型的層次。通過大量工業數據、文本和圖像進行訓練,能夠學習到各行各業、各種制造領域中不同產品的各種缺陷知識,因此在工業檢測領域具有很強的泛化能力。然而,它的準確度和精確度存在一定的上限,推理速度也相對較慢。工業檢測大模型類似于企業中的綜合性人才,對于常見的任務和稍微專業一些的工作,它可以勝任。例如,今天檢測一種產品,明天換到另一個車間檢測另一種產品,它都能很快適應。這種模型適合于工業場景中典型的工藝,以及對檢測指標和速度要求不是特別嚴格的場景,能夠實現即插即用的效果。

        接下來是場景大模型,這類模型學習了一定規模的特定范圍內的知識,因此在準確度、處理速度和泛化能力方面表現出色。在特定場景內,它可以實現即插即用,應用性非常好。就像直接聘請一位本領域的資深專家,他來了就能直接上手工作。這種模型適用于工藝具有一定代表性、積累了大量同場景不同產品數據的情況,同時待檢產品型號較多,需要一定的泛化能力。

        然后是小模型,它專注于學習特定的知識,優勢在于準確度高和推理速度快。由于它只專注于一個任務,延展能力有限,類似于聘請了一位小學生,專門訓練他完成一項任務,他可以將這項任務完成得非常好,而且成本較低。小模型適用于工藝獨特、數據較少的場景,或者對檢測指標要求較高的情況,以及產品品類有限、不追求泛化能力的場景。

        最后是智能體,智能體在工業檢測領域可以作為一個自主模型訓練的小助手。目前,許多員工在重復性的工作中投入了大量時間,而引入智能體可以大幅降低模型迭代的難度和時間成本。

        綜合來看,工業市場是一個高度碎片化的市場,各種場景、缺陷類型和指標要求都存在。這意味著在工業檢測中,大小模型的協同是一個必然趨勢,沒有哪一種模型能夠完全取代其他模型覆蓋所有場景。

        同時,協同并不意味著是一種固定的模式,相反,隨著技術的快速進步,這一過程一定是動態的。例如,在2024年,可能95%以上的應用都是小模型,只有少數企業開始落地場景大模型,并取得了不錯的效果。到了今年,大模型的應用正在快速增長,工業檢測大模型可能迎來其首個落地場景。預計在未來的2026、2027、2028年,大模型系統將處于快速增加的狀態,但五年后可能會趨于平穩,三種模型的應用場景分工將逐漸明確和固定下來。此外,模型訓練智能體有望在未來一年左右時間內出現在市場上。


        三、阿丘科技AI模型產品布局

        沿著這些思路,阿丘科技正在布局自己的AI產品序列。首先,我們仍然保留小模型方向的產品,因為在未來幾年內,小模型仍將在應用中占據較大比重。我們為這一領域的場景提供開發工具套件,如大家熟悉的AIDI等軟件工具型產品,它們追求高精度、高準確度和高速性能。

        對于場景大模型類產品,我們直接提供面向特定場景的端到端即插即用模型。除了去年分享過的PCB領域的大模型應用,今年我們還嘗試了在磁材、煙草、金屬和塑料表面等場景的模型落地,并取得了良好的效果,將落地周期從幾個月縮短到了一周左右。

        工業檢測大模型產品也是我們今年研發的重點。我們稱之為AQ-VLM,即阿丘的視覺語言模型,它是基于我們之前積累的所有工業圖像數據資產構建的一個智能的基座模型。這個大模型分為兩個部分,一個是用于缺陷檢測的工業視覺大模型,這個大模型能夠在一些常見的通用工業檢測場景中實現即插即用。同時,我們還開放了模型微調窗口,只需原來小模型所需數據量的1%左右,就可以快速微調模型,以適應新的領域。

        另一個分支是通用缺陷生成模型,同樣基于我們積累的高質量工業數據進行訓練,并支持提示和參考圖結合的方式進行生成。由于工業圖像數據對質量要求較高,我們通過文本編碼器和圖像編碼器相結合的方式進行生成,以確保生成的數據能夠滿足模型訓練的要求。

        這是一個正在研發中的產品,我們制作了一個小型demo在展臺供大家分享。例如您可以導入任意一張圖片,然后給它一個指令,比如“請幫我檢測這張圖像中的臟污”,它能夠理解您的意思并框出缺陷的位置。同樣,對于缺陷生成模型,您可以輸入產品圖樣,并要求生成某種特定的缺陷,如“請幫我這張圖像的右下角生成一個凹陷”。

        接下來是智能體的部分。智能體不會作為我們的一個單獨的產品品類存在,而是更多地集成到我們的模型訓練開發平臺中。它的使用模式是將原本許多人工重復性的工作,包括一些需要專業知識的重復性工作,轉變為由智能體完成。我們的目標是讓人工只需負責保障標準的正確性,其余工作都交由智能體處理。所以智能體可能嵌入在AIDI或阿丘的其他訓練平臺中。我們相信,未來智能體將成為小模型和大模型訓練過程中的核心“人員”。


        四、實踐案例

        最后,我想分享一個實踐案例,以幫助大家更好地理解大小模型協同的概念。

        我們最近在幾個不同的客戶中在嘗試金屬結構件檢測的場景。這些客戶都已經非常認可AI技術,但仍被一些問題所困擾,如周期過長、模型不收斂等。于是,我們嘗試通過VLM和小模型協同的方案,看看是否能夠實現模型的復用,從而解決這些問題。

        具體來說,我們針對不同的缺陷類型采取了不同的策略。對于明顯的缺陷,我們可以直接使用大模型進行檢測。例如,金屬表面上的壓傷是一種非常典型的缺陷類型,大模型此前已經經過充分學習,我們可以直接輸入指令,如“幫我檢測一下壓傷”,模型就能直接識別出壓傷,無需額外訓練。

        對于不那么明顯但相對常見的缺陷,如果我有一些樣本數據,我們可以采用VLM加上微調的方法來實現檢測。例如,劃傷也是一種常見缺陷,但在某些場景中,劃傷可能很輕,看起來對比度很低,模型之前沒有學習過如此輕微的劃傷。我們可以通過微調,將這些對比度很低的劃傷樣本數據額外輸入模型,使其能夠順利識別出這種劃傷。

        第三種情況是缺陷既不明顯又較為罕見,幾乎沒有通用性。針對這種情況,我們采用生成式AI結合小模型和智能體的方法來解決。我們可以給生成模型輸入一張良品圖,再結合真實的缺陷參考圖,然后輸入一個指令,如“幫我生成一個類似的缺陷”,模型會理解您的意思,并生成一個形態不同但看起來較為真實的缺陷圖像。然后,我們將這些真實圖和生成圖作為訓練數據集輸入到AIDI中進行訓練,這個過程可以利用智能體來輔助。最終,我們可以在場景中實現實現對缺陷的良好識別。

        總結來說,對于明顯的缺陷,我們全部使用大模型VLM解決;對于不明顯但常見的缺陷,我們使用VLM加微調的方法;對于不明顯且罕見的缺陷,我們采用生成大模型+小模型+智能體的方式。當然,這些模型的能力邊界是動態變化的,因此,我們的方案也保持一定的開放性,例如也許對明顯且長尾的缺陷可以采用非監督小模型,這些都有很多可能性,這些也是我們會持續關注的方向。

        最后總結一下,去年展會演講時,我們老板說過一句話:“不會用AI的將會被用AI的淘汰。”今年,在這個快速變化的時代,我要補充一句:“AI工業視覺的格局正在加速變革,不會用大模型的將會被善用大模型的人淘汰。”




        關鍵詞:

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 类乌齐县| 新源县| 辛集市| 合肥市| 思南县| 洮南市| 阿拉尔市| 晋江市| 日照市| 连州市| 隆安县| 宜宾市| 沙雅县| 黑河市| 龙游县| 榆树市| 建平县| 塔城市| 康乐县| 遂溪县| 阜阳市| 宁晋县| 洛浦县| 浦县| 甘洛县| 抚远县| 平度市| 溧阳市| 丰原市| 息烽县| 崇明县| 富源县| 喀喇沁旗| 宜宾市| 宽城| 丰县| 光泽县| 中宁县| 西贡区| 乌拉特中旗| 赤水市|