博客專欄

        EEPW首頁 > 博客 > 如何在計算機視覺領域做開創性的前沿研究?

        如何在計算機視覺領域做開創性的前沿研究?

        發布人:MSRAsia 時間:2022-06-21 來源:工程師 發布文章

        以下文章來源于微軟學術合作 ,作者微軟學術合作

        全球人工智能領域最具學術影響力的頂級會議之一 CVPR 2022召開在即。為了促進計算機視覺領域前沿研究的分享與交流,推動相關技術進步與發展,近年來微軟亞洲研究院每年都會舉辦CVPR論文分享會。今年的CVPR 2022 論文分享會于4月23日圓滿落幕。此次分享會由微軟智能信息處理西安交通大學實驗室主辦,微軟亞洲研究院承辦,中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會、中國計算機學會計算機女計算機工作者委員會、中國圖象圖形學會女科技工作者工作委員會協辦。


        本次活動不僅匯聚了來自清華大學、復旦大學、北京大學、中國科學技術大學、華中科技大學、西安交通大學、東南大學等高校的教授、研究員,還有來自微軟亞洲研究院、粵港澳大灣區數字經濟研究院等企業研究院的科研人員。20余位講者通過網絡結構、自監督+多模態預訓練、多模態應用、3D 視覺、圖像和視頻生成、檢測分割這六大主題,分享了他們在 CVPR 2022 上發表的最新成果。每個主題的論文分享后,今年的分享會還首次設置了主題討論環節,講者們就該方向進行了針對性的討論,探討整個計算機視覺領域的現狀與未來,同時也對觀眾的問題做出了解答。


        此外,CVPR 2022 論文分享會還新增了中場主旨演講環節,CVPR 2022 程序主席、便利蜂 CTO 和首席科學家華剛博士帶來了以“You and Your Research Career with Computer Vision”為題的精彩報告。幾位歷年視覺頂會最佳論文的斬獲者也一同共話“好論文是怎么煉成的”。


        接下來,讓我們一起回顧一下 CVPR 2022 論文分享會的精彩內容吧!


        圖片


        CVPR 2022主席傾情分享“如何讓自己與領域共舞”


        華剛博士首先從自己領導便利蜂人工智能研究院的實際科研經驗出發,從較高的視角探討了“計算機視覺的殺手級應用是什么”。華剛博士總結,“它可以數字化物理世界,從社會經濟的層面可以給不同的工業、商業領域的信息化做出關鍵性的貢獻。從數字經濟、數字生產力的角度來看,它也會對傳統工業行業的生產力提高發揮必不可少的關鍵作用。”


        在回顧了過去20年的經濟發展之后,華剛博士表示互聯網經濟是最有活力并產生了巨大財富的一個領域,其背后的高生產效率,得益于其自身促成的數字化世界。在這個數字化的世界里,我們可以做各種各樣的數字決策,這些數字化決策最后會形成相應的工作任務在物理世界得到執行。未來數字生產力的重點,是將多數傳統產業的線下生產、運營的物理過程的信息數字化,形成數字化的映射,并在進一步完成數字化決策后回到物理世界進行相應的工作任務執行。在這個信息數字化的過程中,計算機視覺將發揮巨大且無可替代的作用


        圖片

        華剛博士為 CVPR 2022 論文分享會作主旨演講


        而后,華剛博士就在當下這個計算機視覺的黃金時代里“如何探索自己的計算機視覺研究生涯”進行了分享。他表示,對于一個人的科研生涯而言,第一位是做研究,在研究社群最好的會議和期刊上發表的論文,基本上就代表了你在研究社群中的地位。也就是說,你發表的論文是你在研究領域的形象表征;另一方面則是你對研究社群的服務,例如當審稿人等。科研生涯的評判標準是你對整個領域的影響力,即你給這個研究社群帶來了什么改變,包括知識層面和服務層面。而對于“科研生涯”和職業生涯的聯系,華剛博士認為他們很大程度上是并行的,兩者可以互相幫助與促進。


        華剛博士接下來還討論了“工業界研究”與學術界研究的關系。他指出,兩者的主要區別在于經費的來源,在學術界,經費主要來自政府的稅收,而在工業界,研究的經費主要來自于公司的利潤。那么兩者之間的橋梁是什么?華剛博士提到,我們需要建立一條路徑,使研究可以產生一些商業上的影響。而對于“工業界是否也可以做基礎研究”,華剛博士的回答是肯定的,但他也強調需要建立一個“可以將基礎研究轉化為商業目標”的架構。做基礎研究并不意味著可以很長時間沒有結果,需要設置一些里程碑,在完成最終目標地過程中持續產出階段性的研究成果,將研究項目持續地推進到最終目標。


        最后,華剛博士分享了建立自己的主研究社群(Home research community)的重要性,并為廣大研究者提出了四點建議


        • 如果你在工業界做研究,一定要有持久性,它需要你工作之外的額外精力。

        • 無論在公司還是在研究社群,要去理解這個系統是怎么運作的,這樣會有助于你在系統內達成自己的目標。

        • 如果在工業界,要思考如何產生商業的影響,你的研究需要設計一條可以產生實際工業影響的路線。

        • 希望大家找到自己的主研究社群,也希望大家把計算機視覺當作自己的主研究社群。


        視覺頂會最佳論文得主探討“好論文是如何煉成的”


        今年的圓桌論壇邀請到了五位歷年計算機視覺頂會最佳論文的斬獲者,以“好論文是怎么煉成的?”為主題,分享了他們對于“做好的論文”和“做好的研究”的理解。


        巧合的是,這些歷年的“最佳論文”研究具有一定的傳承性。最佳論文的回顧從 ICCV 99的 3D 幾何研究開始,期間穿插討論了近兩年關于高維空間低秩表達的新書《High-Dimensional Data Analysis with Low-Dimensional Models》,書中所探討的稀疏低秩表達曾在10多年前推動了當時視覺領域最火熱的方向,而此后 CVPR 12 的獲獎工作,恰好是 3D 幾何和低秩表達的完美結合與總結。隨著深度學習時代的到來,許多經典工作大量涌現,其中就包括2015年的獲獎工作 HED,該工作以及前序的 DSN 工作都在嘗試探索深度網絡的有效訓練問題。而這一問題在2016年的 ResNet 中得到了幾乎完美的解決,CVPR 2017 的最佳論文 DenseNet 則是繼 ResNet 之后卷積網絡的又一突破。


        圖片

        CVPR 2022 論文分享會現場


        幾位講者除了分享了自己關于“最佳論文”背后的故事外,還就“如何發現重要的研究問題,找到正確方向”、“一個新領域的開創和發展需要什么條件、準備和時機”、“如何與同行交流,推廣自己的工作”、“如何做好開源”等問題進行了廣泛和深刻的探討。


        其中,屠卓文老師的工作經常很超前,在分享自己“如何發現重要的研究問題,找到正確方向”經驗時,他總結:第一是要善于和導師學習;第二是要手寫代碼,這會幫助自己對相關內容有更強烈的印象;第三是自己的堅持。這樣才會做出最具有代表性與原創性的論文。而馬毅老師則特別分享了自己的“盲人摸象”觀點——許多不同派別的研究,到最后我們會發現大家都只觸摸到了一頭大象的一部分。因此,想在自己的領域做出能夠青史留名的工作,必須要了解這個領域的發展歷史與思想演進。同時,也有許多研究到最后發現只是一個更復雜系統里的局部,是其它領域早已踩過的坑,因此我們不僅要了解自己的領域發生了什么,也要通過歷史關注其他領域的問題。針對如何做出真的開創性的工作,他提出:第一,設計一個遠大的正確的目標方向;第二,了解歷史,知道與這件事情相關的來龍去脈是什么;第三,深耕相關的領域,借深度學習的話就是做學問也要越深越好、越寬越好——越深就是要去了解歷史縱深,看到思想的傳承,越寬就是要去了解相關領域,由點及面你才能看到大象的整體,也會有自己更獨到的思想,而這可能是你一生中最有成就感的事情。


        六大熱門主題,共話領域現狀與未來


        在本次分享會上,20多位講者從六大主題進行了論文分享和研討。這六大主題分別是:網絡結構、自監督+多模態預訓練、多模態應用、3D 視覺、圖像和視頻生成,以及檢測分割。它們也正是計算機視覺領域近年來最活躍的幾個方向。


        網絡結構主題中,四位講者分別帶來了 ACMix、SwinV2、CSwin 以及 RepLKNet 的分享,其中兩篇論文關于視覺 Transformer,一篇關于卷積網絡的“第二次增長”,另一篇則是 CNN 和 Transformer 的融合。值得一提的是,該主題的研討很有幸匯聚了三位視覺頂級會議的最佳論文獎得主,他們在清華大學魯繼文教授的主持下,就“大模型和小模型在性質上的區別”、“高校如何參與大模型的研究”等問題進行了討論。


        自監督+多模態預訓練主題中,三位講者分別帶來了 SimMIM、BEVT 和 HD-VILLA 論文的分享,其中前兩篇論文聚焦最近火熱的掩碼圖像建模方法在圖像和視頻上的應用,最后一篇論文則關注多模態預訓練方面的進展。隨后講者和嘉賓們針對“掩碼圖像建模(MIM)預訓練能否像掩碼語言建模(MLM)那樣從大數據中獲益”等問題分享了自己的觀點。


        多模態應用主題中,三位講者的工作主要涉及將語言和目標對齊、語言和視頻對齊,以及語言和多模態知識對齊,完美地覆蓋了目前多模態領域的核心概念:對齊,三個工作也在各層面做了非常豐富的探索。在討論環節,嘉賓們在中科院黃巖老師的主持下就“多模態未來將產生哪些值得期待的應用場景”等問題進行了分享和討論。


        圖片

        六大主題論文分享和研討


        在 3D 視覺主題中,三位講者的論文分別關于動作捕捉,移動端三維重建,以及基于神經輻射場的三維圖像生成。前兩篇論文是貼合實際應用的研究,而后者則與最近幾年火熱的神經輻射場相關。講者和嘉賓們在西安交通大學蘭旭光老師的主持下針對“3D 視覺的殺手級應用是什么”以及“NerF 的現狀與未來”等問題進行了討論,并各自分享了自己的觀點。


        圖像和視頻生成主題中,三位講者分別分享了降噪擴散模型方面的最新成果 VQ-Diffusion,以及基于 Transformer 的圖像修復和超分辨率方法。其中降噪擴散模型(DDPM)已有取代 GAN 成為圖像生成的未來趨勢,而 Transformer 則繼續在底層視覺問題中攻城掠地。隨后講者和嘉賓們還針對“現在圖像生成有哪些成功或者潛在的應用”,“擴散模型的未來”等問題進行了討論。


        最后一個主題是檢測分割,這也是一個廣受關注的領域,分享的四個工作其中之二涉及 Transformer 結構特別是其****在檢測分割領域的應用,而另外兩個則是基于傳統檢測分割頭部網絡的工作。其中,來自粵港澳大灣區數字經濟研究院的張磊老師克服美國深夜三點的時差,堅持現場演講。他分享的 DN-DETR 是這個方向的一個重要工作,也是他最近在 COCO 物體檢測中取得新紀錄的 DINO 方法的重要前序工作。華中科技大學王興剛老師則分享了他們團隊將掩碼圖像建模應用于 ViT 檢測的最新工作,這也與第二個主題中備受矚目的掩碼圖像建模模型相呼應。最后在主題討論環節,活動邀請到了中科院張兆翔老師加入討論,5位講者和嘉賓們針對“在檢測分割這樣的下游任務中,網絡結構是否會被 Transformer 一統天下,還是仍然會保持目前一個相對百花齊放的局面”等問題進行了精彩討論和觀點分享。


        CVPR 2022 分享會聚焦了近期計算機視覺的核心方向與重要研究,為與會者們帶來了深度與廣度并存的分享,而講者們也通過彼此的思想交鋒獲得了研究認知的刷新。歡迎大家持續關注,我們將于近期精選 CVPR 2022 的一些精彩工作,為大家帶來介紹!

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 宝兴县| 甘洛县| 忻城县| 商水县| 巨鹿县| 钟祥市| 崇信县| 新郑市| 沁源县| 台山市| 宜良县| 山东| 多伦县| 克拉玛依市| 万源市| 丹凤县| 遵义市| 金沙县| 应用必备| 桃园县| 洛浦县| 芒康县| 衡阳市| 汾西县| 鲁甸县| 崇左市| 韶关市| 东海县| 安溪县| 新乐市| 尼勒克县| 内乡县| 涞源县| 烟台市| 论坛| 汪清县| 贵溪市| 双峰县| 奉节县| 卓资县| 松江区|