博客專欄

        EEPW首頁 > 博客 > 講堂 | 劉鐵巖:跨界共創AI的產業價值和科學價值

        講堂 | 劉鐵巖:跨界共創AI的產業價值和科學價值

        發布人:MSRAsia 時間:2021-07-04 來源:工程師 發布文章

        編者按:第四屆微軟亞洲研究院創新論壇近日成功舉辦,大會以“跨界共創”為主題,就跨領域融合創新、共創精神推進數字化轉型、如何讓技術創新成果成功落地等話題進行了探討。 

        在論壇上,微軟亞洲研究院副院長劉鐵巖從技術的角度分享了 AI 跨界共創的產業價值與科學價值。他認為雖然 AI 已經取得了突飛猛進的發展,但仍然有非常長的路要走,尤其是在產業價值和科學價值方面。究其原因,今天的 AI 只是在一些相對淺層次的領域發揮著作用。如果想真正實現人工智能的價值,就需要各領域的合作伙伴一起頂天立地、跨界共創。

        1.jpg

        微軟亞洲研究院副院長劉鐵巖

        人工智能方興未艾,世界上幾乎所有的頭部企業如今都在人工智能方面有巨大的投入。展望全球人工智能市場,未來5年還會有非常高速的發展。人們不禁會問:人工智能技術是否已經足夠成熟?是否有一些方向和領域需要我們特別重視?作為人工智能的學者,我們認為人工智能仍然有非常長的路要走,尤其是在它的產業價值和科學價值方面。

        人工智能的價值現狀

        從某種意義上講,目前,人工智能還是在一些相對淺層次的領域發揮著作用。例如人工智能中的深度學習在人臉識別、語音識別、自然語言處理這些人機交互界面上應用非常廣泛;強化學習在虛擬的或者封閉的問題上表現良好,比如游戲、機器臂控制等相對環境簡單、規則清晰的問題。雖然人工智能在工業界核心的決策問題上應用前景廣泛,但其今天的作用仍然十分有限。在很多重要的環節中,人工智能與人的能力相比還是有所差異,傳統運籌學仍是很多行業的標準解決方案。

        人工智能在科學領域有何價值?目前人工智能主要在一些輔助問題上發揮作用,例如對噪聲數據進行預處理,對光譜數據、天文圖片進行模式識別,或者是對一些已有的數值仿真算法進行加速和拓展。盡管近期出現了一些利用人工智能和大規模算力改變科學發展現狀的工作,如 AlphaFold2 破解蛋白質折疊、Deep Potential 進行分子動力學模擬等,但是所有這些工作目前還只是星星之火,尚未形成燎原之勢。

        在這樣的大背景下,作為人工智能學者,我們認為,要讓人工智能對滾滾的歷史車輪產生更大的推動作用,除了在“自我的世界”里關注算法和理論的研究以外,還需要能夠“頂天”、“立地”,跨界共創,真正讓人工智能創造更多的產業價值和科學價值。

        人工智能的產業價值生成路徑

        如何才能讓人工智能實現更多的產業價值呢?為了尋求這個問題的答案,微軟亞洲研究院于2017年成立了“創新匯”,與近50家各領域企業開展合作,進行了數百次的交流,完成了十余個聯合研究項目。這些項目橫跨金融、物流、醫****、電信、教育、政務等多個行業。在開展這些聯合研究的過程中,我們秉承著初心,不僅要幫助各個企業解決現實中的技術挑戰,實現數字化、智能化轉型;更重要的是從這些項目中抽象出行業的核心痛點,設計解決這些痛點的人工智能共性技術,為人工智能真正創造產業價值奠定基礎。

        2.png

        以金融投資為例,微軟亞洲研究院已經和資管行業的領頭企業華夏基金合作超過四年的時間了,我們共同耕耘、共同分享、共同探討,形成了一系列對于金融資管和智能投資領域核心痛點的認知。首先,我們發現盡管金融數據很豐富,但信噪比非常低,所以很難挖掘出有效的信號。其次,金融市場動態變化,異常迭起,這對基于統計學習的方法提出了巨大的挑戰,因為面對復雜的金融市場,我們很難假設數據是獨立同分布的。第三,金融領域中,風險和收益是一對雙生子,“投資有風險,入市需謹慎”,一個高手之所以成為高手,不僅在于他能夠發現一般人所不知的投資信號,更在于他善于管理風險,能夠避免收益的“曇花一現”,成為一個常勝將軍。最后,從識別出有效的信號,到構建投資組合,再到真正執行訂單,投資鏈條非常長,而且只有有效實現預期訂單的買賣,才真正完善整個投資鏈條,也才能得到想要的投資回報。

        針對這些痛點,在過去一段時間里,微軟亞洲研究院和合作伙伴一起研發了大量的人工智能技術。在數據端,高頻交易數據蘊含豐富的信息,但又含有大量的噪聲,所以很多做中低頻投資的機構或個人很少利用高頻交易數據,而對高頻數據非常感興趣的人則在研究日內的算法交易。于是,我們想問:高頻的交易數據是否可以對中低頻的投資,例如日頻、周頻、月頻的投資產生本質的影響?

        人工智能的優勢在于能夠以人所不能及的細粒度和高通量分析數據。當我們面臨的數據是高頻數據時,需要處理的就是抑制噪聲,并從海量數據里抽取有用信息。以此為目的,我們研發了一套自監督對比學習技術,它將時空的依賴關系作為約束,去其糟粕,取其精華,希望能夠從高頻數據中抽取有效信號。當我們使用這種自監督對比學習的方法后,與只使用日頻數據或者使用高頻和日頻結合的數據相比,新方法都有更好的表現,能夠獲得穩定的信號。

        3.png

        針對市場動態性方面的挑戰,微軟亞洲研究院開發了一套基于注意力機制的神經網絡,它可以自動判斷當前市場是否處于異常狀態。如果異常,我們就會建議投資機構采取一些被動的投資手段。如果這個市場在歷史上似曾相識,我們就會利用注意力機制,從歷史數據里尋找到最適用于當前市場的信息,通過數據或規律,讓投資機構能夠在金融市場的風云變幻之下,總是立于風口浪尖上,獲得穩定的投資回報。

        4.png

        同樣,關于風險控制,這是一個非常持久且重要的話題,只有我們對風險有了非常好的控制,才能實現穩定的投資。雖然這個話題很重要,但是在歷史上人們對風險因子的研究道路崎嶇、發展緩慢。歷史的做法通常是,由專家定義出少量用來解釋當前市場的因子,然后考察特定投資組合在這些因子上的暴露情況。從經典的 CAPM 模型發展到 Fama TFM 模型歷時31年,僅增加了 Value、Size 幾個少量的因子。而從 Fama 模型進化到當前大多數投資機構都在使用的 BARRA 模型,又經歷了20年,也不過只增加了成長、動量等少數因子。而人工智能則可以通過優化的手段,自動找到對市場有最佳解釋能力并且彼此相互獨立的非線性風險因子,同時還可以對預測模型自身帶來的風險進行刻畫和消減。這樣一來,我們用人工智能的手段去做風控,就可以比人類專家更周全、更系統、更及時。

        5.png

        最后,訂單的執行同樣非常重要,但非常困難,因為在日內的整個市場波動更加劇烈,基于簡單的規則去做訂單交易,通常很難實現非常理想的平均交易價格。我們和合作伙伴一起探索了用強化學習的方法來做自動訂單交易,這種方法可以在非常細的粒度下明察秋毫,找到執行訂單的最佳時機和最佳執行速率,從而大幅度降低交易成本,獲得良好的預期平均交易價格。一旦投資機構可以非常好地控制交易成本,那么久可以為尋找最佳投資組合創造更大空間,從而有更加亮眼的表現。

        6.png

        上述研究不是紙上談兵,我們和合作伙伴一起在實盤上進行了大規模的測試。測試結果與中證500指數相比,獲得了非常明顯的超額收益。尤其在今年年初,市場有些動蕩,很多基金“崩盤”的情況下,我們的技術更是表現非常穩健。

        基于這些研究和探索,我們希望把我們的所思所得和技術積累與更多企業、客戶進行分享,所以我們構建了一個智能量化投資的共性技術平臺,希望通過這個平臺能夠打通智能投資的研究和實戰,降低技術投資的門檻,規避潛在的技術陷阱,為從業者和研究者提供一個非常接近實盤的回測環境。2020年下半年,我們將這樣一個平臺進行了開源——AI 量化投資開源平臺 Qlib。目前 Qlib 獲得了業界廣泛的關注,在 GitHub 上收獲了超過5000顆星,并且也正是因為開源項目 Qlib,有很多國際知名的投資機構正在和我們進行交流與合作。

        除了金融投資以外,微軟亞洲研究院也與其他行業的合作伙伴進行了非常深入的互動,獲得了很多有價值的洞見。舉個例子,資源優化、時空預測是非常多的領域所共同面臨的問題,絕大部分資源優化的場景都會有如下痛點:優化鏈路長,無法及時獲得反饋信號;優化鏈路上的多個目標可能彼此之間互相矛盾;全局優化問題太復雜,幾乎是一個不可能完成的任務。

        同樣,時空預測也有一些共性的特點,例如數據噪聲大,信息缺失嚴重;時序的模式非常多樣,有趨勢、周期、突發信號;空間結構很復雜,經常會出現一些層次化的結構,使得我們不能夠單一地在單點上進行預測。

        認識了這些挑戰之后,我們和合作伙伴共同開發了一套多智能體資源優化的共性技術框架。該框架只需要經過非常輕量級的定制就可以幫助客戶搭建起屬于自己的模擬器,并且還可以用強化學習的手段訓練一個高效的智能體,幫客戶實現資源優化。而且我們可以很輕易地幫助客戶把這個模型部署在一個分布式集群上,實現他們的日常運營。目前,這個框架已幫助包括東方海外航運在內的多個客戶實現了更加高效的日常運營,提高了效率,降低了成本,獲得了更好的資源利用率。

        7.png

        沒有止步于此,我們希望這些合作的結果能夠被更多的用戶所使用、體驗,幫助他們實現數字化轉型,所以我們開源了多智能體資源優化平臺“群策 MARO”,目前已經有很多客戶都在試用 MARO。

        為了處理時空預測的核心挑戰問題,我們開發了一套時空預測的共性技術,包括多路深度時序編碼集成的模塊、可解釋的正則通路、可以自動學習網絡結構的圖神經網絡、可根據外部突發事件調整預測結果的門電路模塊等。正是因為這些復雜的設計,我們的模塊和整個框架可以在一些非常困難的問題上取得亮眼的效果。目前,我們已經與合作伙伴在醫療、物流、電信領域做了非常多實際數據的測試,例如我們利用該技術幫助一些企業實現了物流訂單的精準預測,幫助糖尿病病人實現了血糖波動的精準預測,也幫助電信企業實現了未來一段時間內在某些域名下流量波動的預測。

        8.png

        除了與這些企業共同推進技術的應用以外,我們也把這個技術框架應用到了新冠疫情的管控和抗擊方面。在新冠疫情肆虐全球的大背景下,美國疾控中心公布了大量關于疫情的數據,同時向全世界最頂級的科學機構發出求救,希望各大科研機構可以通過技術手段幫助疾控中心預測未來一周到四周內疫情的****,并且幫助疾控中心以及政府基于數據結果進行相關政策的制定。因為我們有非常成熟的時空預測技術,所以我們基于新冠疫情的數據訓練了一個可以進行未來一周到四周的疫情****預測模型,并且在2020年下半年,代表微軟公司向美國疾控中心提交了這個模型。在超過半年的時間里,該模型表現非常亮眼,在絕大部分時間里,它的表現和性能都力壓其他四十幾個全球頂級科研機構的模型,排名第一,為全球抗擊新冠疫情、制定合適的防疫政策做出了重要的貢獻。

        人工智能的科學價值生成路徑

        通過“創新匯”,微軟亞洲研究院和各行各業的合作伙伴進行了非常深入的交流與合作,也對各行各業有了更深入的認識。這個跨界的體驗讓我們這些人工智能學者收獲良多。展望未來,我們相信有更多行業可以被我們的人工智能技術激活。做有用的人工智能,我們一直在路上。

        但是另一方面,作為人工智能學者,我們從來沒有忘記,“抬頭仰望星空”的使命。所以我們也在一直思考如何用人工智能技術、機器學習技術去推動基礎科學的進展。

        《科學》雜志在其成立125年周年的時候,發表了當前世界上最重要的125個現代科學問題,這些問題里絕大部分是關于生物學、物理學和環境科學的,這些問題關乎宇宙的奧秘、生命的起源以及人類的生存和可持續發展。我們相信,如果能夠用機器學習、人工智能的手段推進這些問題,我們將有望打開通向未來的大門。

        9.png

        所以在過去的兩三年間,微軟亞洲研究院在智能科學領域有了非常周全的布局和有益的嘗試,我們關注的主要是智能生物學、智能物理學和智能環境科學。這個過程是一個非常美好的跨界體驗,微軟亞洲研究院與清華大學、復旦大學、麻省理工學院、東京大學在內的高等院校,Baker Lab、Broad Institute 和中科院在內的科研院所,以及像 Adaptive Biotechnology 這樣全世界生物科技領域領先的創業企業,都進行了非常密切的合作,產生了大量的研究成果,并且最近在《Nature Communications》、《Bioinformatics》、《Environmental Science and Technology》等科學領域的頂級期刊上發表了大量論文。

        那么我們是如何與合作伙伴一起共同發現核心痛點問題,并且提供人工智能解決方案的呢?以生物學為例,我們和合作伙伴們共同發現,在生物學領域結構數據的缺失是一個非常大的痛點。近年來隨著高通量測序技術的成熟,每日每夜都在生成海量的無標注組學數據,可是通過像冷凍電鏡這樣的手段去獲得高質量的結構數據,成本仍然非常高,所以導致此類結構數據相對稀少。在生物領域,結構決定功能,如果我們沒有高質量的結構數據,就很難真正推動生物問題的求解。

        而在生命科學領域,個性化的需求同樣非常強烈,因為每一個生物個體都有所不同,就像人類一樣,千人千面,只有真正去理解每個人的不同,才能避免基于共有特征的數據模型遷移性差的事實。正是因為結構數據的缺失,結構預測和分子動力學模擬變得非常重要。結構預測可以幫我們從序列化的組學數據出發,生成一個靜態的結構,而分子動力學模擬則可以在此基礎上提供一些動態的細節,包括不同構向之間的轉化。由此可見,人工智能確實可以幫助我們理解生物的功能以及功能的演化。

        10.png

        過去一年,微軟亞洲研究院使用人工智能技術,建立了一個大規模的分子動力學模擬系統,并且使用這個系統對新冠病毒 S 蛋白的動態變化進行了深入分析,我們發現了一些非常有價值的科學結論。例如,我們發現新冠病毒 S 蛋白一直在具有高傳染性的開構象和低傳染性的閉構象之間做著構象的轉化,而在這個轉化過程中,S 蛋白的 NTD 部分起到了非常關鍵的作用,它就像一個楔子,可以促進或者阻止這種構象的變化。

        11.png

        如果我們能找到可以和 NTD 進行結合的某種****物,那么就有機會降低新冠病毒感染人體細胞的能力,從而有可能會緩解它所造成的癥狀,或者是降低它的傳染率。抱著這樣一個愿望,我們使用了高通量的****物篩選技術,從2億3千多萬種化合物中,找到了超過1千種與 NTD 有很強綁定關系的化合物。另外,我們還分析了在中國抗擊新冠病毒中常用的一個中****:清肺排毒湯。在它已知的成分里,我們發現了至少有18種化合物與新冠病毒的 NTD 蛋白有非常強的綁定關系,這也從某種意義上解釋了為什么清肺排毒湯在處理和緩解新冠癥狀上有非常好的表現。

        此外,個體差異方面同樣非常重要。我們每個人都有不同、大量的私有免疫細胞,體內的微生物菌群也大相徑庭。所有這些私有的生物屬性很大程度上影響了人類的健康,以及個體對于不同疾病抗原的反應和****物的耐受程度。只有對它們進行精準的刻畫,才能實現真正意義上的個性化醫療。

        12.png

        因此,我們和美國的 Adaptive Biotechnology 公司一起,利用人工智能的手段,建立起了世界上第一個人類私有免疫細胞和各種疾病抗原之間的對應關系圖—Antigen Map。基于這張對應圖,我們就可以在很多疾病上做出精準的預測和治療。也正是因為這項技術,我們和 Adaptive 共同創造了世界上首款 FDA(美國食品****品監督管理局)批準的基于人體免疫細胞的新冠檢測手段 T-Detect COVID。該檢測手段比我們常常聽到的核酸檢測和抗體檢測更精準、更及時。因為包括 T-Detect 在內的創新技術,微軟最近被 Fast Company 快公司評選為 “World Changing Company of the Year(年度改變世界的公司)”。

        除了生物學以外,微軟亞洲研究院在其他行業、其他科學門類里也做了很多探索。例如,我們發現高效的數值仿真是物理學、環境學等多個科學門類的痛點之一,這是因為真實世界的實驗代價高昂,而實驗前的仿真是推動這些科學發展的重要手段。但是多尺度、高維度、高精度的仿真需要巨大的運算量,這在很多情況下都是不可能完成的任務。而人工智能在解決這一挑戰方面有著巨大的潛力,比如,深度學習憑借它卓越的逼近能力,有可能可以替代耗時的數值計算模塊,而強化學習則可以高效地探索狀態空間和構象空間,加速數值仿真的進程。

        我們提出了一個基于神經網絡來學習求解多尺度偏微分方程的算子,它不需要大量的訓練數據,可以直接從物理規律中學習,同時還可以通過 GPU 加速,使解題速度比傳統的數值解法提高幾個數量級。利用這樣的新技術,在精度與傳統數值解法相當的情況下,我們以10倍的速度成功求解了描述大氣湍流的大規模納維-斯托克斯方程,這對于環境建模、氣候預測都可能產生革命性的影響。

        13.png

        除此之外,我們還對大氣里的物理化學反應有了更加深入的洞察。我們發現,大氣物理化學反應中存在一些深刻規律,通過拆解化學平衡常數和反映關系函數,在常數復雜度下就可以實現高效的大氣反映曲面估計,這與傳統方法相比是成千上萬倍的加速。基于這個技術,我們可以對大氣污染物的擴散進行非常精準的預測和仿真,而該技術目前已經在多個國家的大氣污染治理中扮演著重要的角色。并且所有這些努力也都在踐行著微軟公司在負碳計劃方面的承諾。我們相信以智能科學之矛,攻環境污染之盾,是我們每個人的使命,雖然任重道遠,但是我們責無旁貸。

        14.png

        展望未來,除了生物學、物理學、環境科學以外,其實還有太多的空間值得我們用人工智能去探索,無論是用人工智能助力電池材料的設計,助力碳捕捉和碳存儲,還是去探索行星的前世今生,甚至發現全新的基于數據驅動的物理定律,我們都有著無限的想象空間。

        我們相信,未來這種產業和科學的智能化進程還會有非常廣闊的空間,人工智能在其中也會扮演越來越重要的角色。微軟也將繼續秉承自身優勢和平臺公司的定位,推出更多的開源項目、共性技術,助力產業界和學術界的長足發展。我們堅信,只有借助整個社會的力量,借助整個學術界的力量和產業界的共同努力,我們才能真正推動整個世界智能化的進程。

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 广宗县| 太湖县| 加查县| 长岛县| 兰溪市| 临城县| 南郑县| 全椒县| 三台县| 纳雍县| 高邮市| 潢川县| 奉节县| 子洲县| 大英县| 岳池县| 扶绥县| 瑞昌市| 吉安县| 庄河市| 稷山县| 历史| 龙州县| 竹山县| 平和县| 大洼县| 屏东市| 天等县| 兰溪市| 鲁甸县| 含山县| 大化| 亳州市| 陆丰市| 天津市| 依兰县| 清新县| 晴隆县| 绥阳县| 会东县| 延安市|