博客專欄

        EEPW首頁 > 博客 > 百度CTO王海峰:飛槳及文心大模型構建智能時代新基礎設施,助力AI普惠

        百度CTO王海峰:飛槳及文心大模型構建智能時代新基礎設施,助力AI普惠

        發布人:CV研究院 時間:2022-06-17 來源:工程師 發布文章

        作為AI工業大生產的基礎平臺,深度學習平臺下接芯片,上承應用,被視為“智能時代的操作系統”。作為我國首個自主研發的產業級深度學習開源開放平臺,飛槳致力于解決深度學習技術發展和大規模產業化中的諸多難題,降低AI開發和應用的門檻,助力AI普惠。

        6月9日晚,北京信息科學與技術國家研究中心系列交叉論壇(第45期)線上舉行,論壇由中國工程院院士、清華大學信息學院院長、信息國家研究中心主任戴瓊海主持,百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰博士作了以“飛槳產業級深度學習開源開發平臺”為主題的報告。

        飛槳多年來堅持研發核心技術、打造功能豐富的平臺、建設兼容并包的生態等,已凝聚477萬開發者,服務18萬企事業單位,得到社會各界廣泛認可。王海峰在報告中闡釋了深度學習平臺對人工智能技術發展和大規模產業化的意義,分享了飛槳產業級深度學習開源開放平臺最新進展,包括技術與平臺的創新成果、文心產業級知識增強大模型、飛槳生態建設,以及飛槳平臺在各行各業的應用等,并與院士專家共同探討了中國深度學習平臺在產業、科研、教育中的落地實踐。王海峰表示,基于飛槳平臺,AI開發和應用門檻不斷降低,人人都可以成為智能應用的開發者。飛槳平臺及文心大模型正在賦能千行百業,惠及千家萬戶。

        以下根據王海峰博士報告整理:

        報告的題目是《飛槳產業級深度學習開源開放平臺》,分為五個部分:引言;飛槳產業級深度學習開源開放平臺;飛槳模型庫中的文心大模型;飛槳生態;飛槳助力AI普惠。

        深度學習平臺相當于智能時代的操作系統

        人工智能已經成為新一輪科技革命和產業變革的重要驅動力量。人類歷史上過去200多年已經歷三次工業革命,每一次工業革命的核心驅動科技,無論是機械技術、電氣技術還是信息技術,都具有很強的通用性,而且進入工業大生產階段以后,也體現出標準化、自動化和模塊化的工業大生產特征,可以應用于各行各業,為人類帶來了非常大的產業變革。

        以深度學習為關鍵核心技術的新一代人工智能如同前三次工業革命的核心驅動科技一樣,已經具備了非常強的通用性,并呈現出標準化、自動化、模塊化的工業大生產特征。

        深度學習技術研發周期很長,應用落地的流程也非常復雜,例如,在開發階段,模型的實現復雜,要同時兼顧靈活和高效難度很大;模型訓練階段,隨著模型越來越大,效率如何提升、模型結構如何與硬件匹配降低訓練成本等;推理部署階段,應用環境復雜多樣,如何高效適配多端、多平臺、多硬件,如何實現高性能推理,等等。深度學習技術的發展和大規模產業化面臨諸多難題。

        典型的深度學習平臺具備基礎的深度學習框架,包括開發、訓練、推理等等,同時也包括各種模型庫和輔助工具,形成一個完整的平臺,能夠有效解決上述問題。深度學習平臺下接芯片,上承應用,相當于智能時代的“操作系統”。

        飛槳產業級深度學習開源開放平臺,大幅降低應用門檻

        飛槳平臺是我國首個自主研發、開源開放的產業級深度學習平臺,具備顯著的標準化、自動化和模塊化特征,是人工智能工業大生產的基礎平臺,促進我國人工智能技術發展和大規模產業應用。

        飛槳產業級深度學習開源開放平臺集核心框架、基礎模型庫、開發套件和工具組件于一體。核心框架包括既有動態圖,也有靜態圖的便捷開發、具備大規模分布式訓練技術及產業級數據處理等訓練,以及端邊云深度優化的高性能推理;基礎模型庫包含經典的自然語言PaddleNLP、計算機視覺PaddleCV、語音技術PaddleSpeech和推薦技術PaddleRec等,也包含文心大模型;端到端開發套件,如語義理解、圖像分類、目標檢測等開發套件,以及包含強化學習、聯邦學習、圖神經網絡,和很受關注的科學計算、量子機器學習、生物計算的工具組件,同時也有預訓練模型應用工具、全流程開發工具、可視化分析工具以及安全隱私工具、資源管理與調度等等,能夠讓科技工作者和開發者簡潔快速地進行技術創新和應用實踐。此外,飛槳也建設了AI Studio學習與實訓社區,支撐AI人才的學習和實踐訓練。

        圖片

        飛槳平臺從以下四個方面持續積累和突破,成為大幅降低AI應用門檻的全棧平臺,包括開發便捷的深度學習框架、超大規模訓練技術、多端多平臺高性能推理和產業級模型庫。

        圖片

        在開發環節,需兼顧靈活和高效。動態圖更靈活,靜態圖更高效。飛槳實現了動靜統一的開發體驗,用動態圖進行開發,自動轉成靜態圖部署。利用飛槳簡潔易用的API,10行代碼即可實現模型訓練。動靜統一、高低融合的API體系可以大幅降低模型的開發成本。

        在核心的訓練環節,飛槳研制了通用異構參數服務器技術,可以進行高效混布異構計算、存儲、通信,突破單一硬件制約;以及端到端自適應分布式訓練技術,能夠自動感知硬件環境、實行多維混合的并行策略,以及做異步流水線的執行等等,支持大規模高效訓練,降低訓練成本。

        圖片

        在推理部署環節,飛槳研制了訓推一體工具鏈,支持從模型訓練到模型優化,再到推理部署的全流程效率提升。在模型壓縮中,實現了自動化壓縮技術,在精度和性能無損情況下,開發代碼量大幅降低。對于端、邊、云全場景的推理引擎,通過數據處理加速、計算圖優化、執行調度開銷降低等方式,深度優化性能,大幅降低推理時延,實現了多端多平臺的高性能推理。

        壓縮完成之后,硬件會統一接入,全面降低硬件適配成本。飛槳硬件適配統一方案,最底層是芯片,然后是飛槳框架硬件適配層,可在算子、子圖、整圖、深度學習編譯器、神經網絡交換格式等進行不同的適配。飛槳已經適配了國內外的各類主流芯片/IP超過30種。

        面對AI模型開發、訓練和推理部署的復雜流程,飛槳提供訓推一體導航圖,可以讓開發者基于導航圖,找到最適合自己應用的訓練模式、推理部署的工具等等,進而可以非常便捷快速地開發自己的應用。

        圖片

        產業級模型庫方面,如今飛槳開源的模型數量已超過500個,涵蓋不同層面,既有基礎的自然語言處理、計算機視覺、推薦、語音等,也包括各種工具組件,可以讓開發者便捷調用。此外,飛槳還提供了產業模型的選型工具,為應用場景自動選擇最佳模型,更好地匹配產業落地的訴求,提供全流程的選型建議以及配套范例的教程。

        飛槳模型庫:知識增強的產業級文心大模型

        文心大模型是飛槳模型庫的重要組成部分,包含基礎大模型、任務大模型、行業大模型等產業級知識增強大模型體系,以及工具平臺、API和創意社區助力大模型的高效應用。

        圖片

        文心知識增強大模型從海量數據和大規模知識中融合學習,效率更高,效果更好,理解和生成能力顯著提升。

        2022年高考期間,文心大模型加持的AI數字人度曉曉挑戰高考作文,圍繞“本手、妙手、俗手”, 秒級成文,寫出了題為《苦練本手,方能妙手隨成》的作文。根據歷年情況,度曉曉的作文得分超過75%的高考考生。

        圖片

        文心知識增強大模型在國際排行榜SuperGLUE上奪冠,以相對更小的參數規模取得更好的效果。傳統方法針對不同的自然語言處理任務,比如信息抽取、情感分析、問答等等,需要訓練不同的模型,是一種分散化的模型開發模式;知識增強大模型可以同時實現多任務的訓練,是集約化的模型開發模式。在基礎大模型的基礎上,面向不同任務、不同場景做精調,可以得到非常好的效果。因此,知識增強大模型具有很好的通用性和泛化性,配置相應的工具平臺,可以大幅降低AI開發與應用門檻。

        在文心的基礎大模型中,鵬城-百度·文心是百度和鵬城實驗室聯合研發的全球首個知識增強千億大模型,在60多項任務取得了最好效果。

        圖片

        任務知識增強大模型ERNIE 3.0 Zeus,從海量文本數據、大規模知識圖譜和不同任務中融合學習,針對不同的任務做知識增強,效果大幅提升。

        計算機視覺領域,多任務統一的視覺大模型,在分類、檢索、分割、檢測等20多項視覺任務上取得了很好的效果。

        知識增強的跨模態大模型,實現了跨模態語義的統一表示與關聯,進行跨模態語義的理解與生成,如ERNIE-VilG能夠進行圖文雙向生成,ERNIE-GeoL融合“地理-語言”關聯知識,大幅提升地理位置相關任務效果等。

        除了跨模態,還有跨領域大模型,如生物計算大模型,化合物表征學習HELIX-GEM,是首個幾何構象增強的化合物表征模型,在14項****物相關的任務上取得良好效果;蛋白質結構分析 HELIX-Fold模型,全面適配國產軟硬件環境,在國產硬件上訓練千萬級別蛋白效率更高。

        文心大模型也積極與產業合作,促進大模型在行業中的應用。在能源電力行業,百度和國網聯合研發了國網-百度·文心大模型。基于通用文心大模型,在海量數據中挖掘電力行業數據,與國網專家們一起,引入電力業務積累的樣本數據和特有知識。訓練中,結合雙方在預訓練算法和電力領域業務與算法的經驗,設計電力領域實體判別、電力領域文檔判別等算法作為預訓練任務,讓文心大模型深入學習電力專業知識,在國網場景任務應用效果提升。相似的思路,在金融領域,百度和浦發也聯合研發了浦發-百度·文心大模型,效果顯著。

        協同共建生態,飛槳平臺已凝聚477萬開發者

        飛槳多年來堅持研發核心技術、打造功能豐富的平臺、建設兼容并包的生態等,已凝聚477萬開發者,服務了18萬企事業單位,創建了56萬個模型,得到社會各界廣泛認可。

        圖片

        人才培養方面,飛槳與高校、科研院所等合作,助力復合型的AI人才培養。飛槳已經為700多所高校培養了3000多名教師,合作出版了系列基于產業實踐的AI教輔書,組織國內外系列AI技術競賽等。

        硬件生態方面,飛槳與硬件伙伴的合作不斷深化。2020年,與硬件伙伴聯合發起飛槳硬件生態圈,促進AI產業鏈的適配升級;2021年,飛槳與硬件伙伴軟硬一體聯合優化,適配飛槳的芯片/IP超過30種;2022年,合作進一步深化,全面共創,協同推出廠商版飛槳框架、建設模型庫、開發課程,更好地服務開發者,促進生態繁榮共贏。

        飛槳及文心大模型賦能千行百業,助力AI普惠

        飛槳平臺及文心大模型的創新發展,不斷降低AI開發和應用的門檻,越來越多的人都可以成為智能應用的開發者。如10歲小學生開發了檢測水果新鮮度的應用;鐵路鉗工開發了火車車身字符及標識檢測的應用;大學老師開發了花樣滑冰的人體動作分析的應用等等。

        圖片

        基于飛槳平臺,人工智能技術已在制造、城市、能源、金融、媒體等行業廣泛應用,并催生了AI訓練師、5G云代駕等新業態、新模式。

        飛槳平臺及文心大模型正在賦能千行百業,惠及千家萬戶。

        轉自《新聞助手》


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 唐海县| 吉林省| 房山区| 晋州市| 宜州市| 嵊州市| 东城区| 石首市| 邯郸市| 星子县| 水富县| 太保市| 武平县| 甘孜县| 邯郸市| 大厂| 乌审旗| 大冶市| 万安县| 方城县| 长武县| 德保县| 石门县| 安阳市| 泰顺县| 丰镇市| 大理市| 丹巴县| 辽宁省| 枣强县| 万源市| 霍林郭勒市| 凌源市| 沐川县| 方正县| 凤冈县| 大化| 芮城县| 宣恩县| 铜梁县| 阜新市|