博客專欄

        EEPW首頁 > 博客 > ECCV 2022 | 字節提出業內首個通用視頻轉場方案AutoTransition,數據集和代碼已開源

        ECCV 2022 | 字節提出業內首個通用視頻轉場方案AutoTransition,數據集和代碼已開源

        發布人:機器之心 時間:2022-08-20 來源:工程師 發布文章
        字節跳動智能創作團隊研發了業內首個通用視頻轉場推薦方案 AutoTransition。目前,AutoTransition的衍生技術已經成功落地于字節跳動多項智能編輯業務中。


        隨著短視頻的迅猛發展和普及,每天都有海量用戶通過視頻來記錄和分享生活。對于缺乏專業剪輯和視頻編輯知識的普通用戶而言,視頻的制作和剪輯卻具有很高的門檻。近期,字節跳動智能創作團隊研發了業內首個通用視頻轉場推薦方案 AutoTransition,致力于解決目前視頻剪輯中存在的學習成本高,編輯效率低等問題,該項成果目前已入選計算機視覺領域頂會 ECCV2022(European Conference on Computer Vision)。
        AutoTransition 兼顧靈活性與高性能,面向轉場這一視頻剪輯中最常使用的編輯元素,通過將轉場推薦任務建模為多模態匹配和檢索問題,從大量視頻數據中自動學習轉場匹配關系,實現了對任意視頻和音頻輸入推薦高質量的轉場效果。借助 AutoTransition,用戶可以快速一鍵生成優質轉場視頻,使剪輯效率得到顯著提升。相比人工剪輯和第三方軟件方案,AutoTransition 有如下顯著優勢:
        相比于基于一系列預定義的策略或隨機選取的剪輯方式,能夠有效地從海量數據中學習到專業的剪輯知識,并基于對視頻和音頻的理解推薦高質量轉場。
        相比于人工剪輯,模型能夠在極短時間內完成推薦,顯著提升編輯效率,并且推薦結果可媲美甚至超越專家剪輯的效果。
        得益于優秀的擴展性,AutoTransition 可以方便地和其他的視頻處理技術結合(例如視頻高光提取、視頻聚類和排序等),以實現更全面的視頻剪輯能力,幫助視頻工作者進一步提升視頻編輯的效率。
        目前,AutoTransition的衍生技術已經成功落地于字節跳動多項智能編輯業務中。團隊表示:首個視頻轉場數據集和 AutoTransition 代碼均已開源,以期吸引更多同行關注這一新領域,共同推動智能視頻剪輯的快速發展。

        圖片


        論文鏈接:https://arxiv.org/abs/2207.13479
        在介紹具體的方法之前,先來體驗幾組 AutoTransition 實際生成的轉場效果。
        可以看到轉場類型能夠完美匹配視頻和背景音樂,視頻觀感自然,順滑,整體效果不輸專業人員的剪輯結果。注:打開聲音播放體驗更好哦!

        圖片


        從數據出發,挖掘剪輯的規律
        為使 AI 模型學習通用的轉場添加的技巧,需要從構建高質量的視頻轉場數據集開始。由于人工對數據進行標注需要耗費大量的時間和精力,成本較高,為此,團隊首先選擇了利用網絡上公開的視頻轉場結果。例如,剪映 app 中有大量的用戶剪輯腳本和對應的成片視頻,天然就包含了豐富的視頻轉場和相關時間信息。團隊以此為基礎搜集了一個大規模的訓練數據,包含近 35000 條視頻和近 140000 轉場效果。數據集統計信息見下表。而對于不同的用戶群體,還可以拓展更多的類似數據來應對不同的剪輯風格和習慣。

        圖片


        實現方案
        為了實現 “推薦” 合理的轉場效果,需要給每一個轉場類型打分,評判和當前視頻銜接位置的契合度。為此,團隊將轉場推薦建模為一個多模態檢索問題,通過計算輸入的視頻 / 音頻模態和轉場特效之間的特征相似度來獲取不同轉場類型的排序。而為了實現這一步,首先需要具有一系列能夠代表各個轉場類型的特征向量。
        如何獲取這樣的一系列特征?為此團隊訓練了一個對視頻轉場進行分類的網絡來實現這一點:

        圖片

        視頻轉場類別分類網絡,訓練 Transition Embedding 作為轉場的特征表示。
        團隊用線性分類器的前一層網絡輸出作為各轉場類型的特征嵌入表示(即 Transition Embedding)。通過對這些特征進行 t-SNE 可視化,可以觀察到轉場之間視覺效果的差距符合特征空間的分布,即越是相似的轉場,特征之間越相近,如下圖中的左滑,右滑,下滑三類轉場(類別標號分別為 8,11,9)彼此接近。這說明團隊方法學習到的轉場表示具有很好的語義特征和判別性。

        圖片


        隨后團隊提出了一個多模態轉場匹配網絡,端到端完成提取原始的剪輯素材特征和對以上的學習到的轉場特征的檢索。視頻中轉場的使用需要借助對于畫面內容的理解以及對于視頻美感的判斷,以保證畫面能夠絲滑地銜接起來,不顯得突兀。為了讓模型能夠理解視頻中復雜的元素,團隊將視頻的圖像、音頻兩個模態,以及一整個視頻中多個轉場的上下文信息結合了起來,一起通過 Transformer 進行建模融合。
        具體的,首先團隊提取圖像和音頻各自的特征。采用 SlowFast 和 Harmonious Filters 作為視頻和音頻各自的骨干網絡,也可以方便替換為其他網絡提取對應特征的模型。同時,同一視頻中的多個連續轉場一起輸入到網絡中進行訓練,以更好地建模各個轉場間存在的相互依賴關系。
        最后為了緩解對于數據中噪聲的過度擬合,在訓練中團隊采用基于 margin 的 triplet loss 優化轉場特征與視頻銜接處特征之間的相似度關系。

        圖片


        其中,M 是預設的 margin 參數,a,p,n 分別代表當前樣本,正樣本和負樣本對應的歸一化特征。\Phi(,)是相似度度量函數,在實驗中取向量內積形式。

        圖片

        多模態轉場匹配網絡。
        算法測評
        通過詳盡的客觀和主觀評測充分驗證了 AutoTransition 的有效性。下表是和這一方法和基于分類模型方法的對比,結果顯示新方法在 Recall 和 Mean Rank 等指標上顯著優于對比方法。

        圖片


        同時團隊也分析了不同模態的輸入對于轉場推薦的效果的影響。通過下表中對比可知,對視頻,音頻兩種模態綜合建模以及考慮轉場的序列上下文對結果均有助于提升推薦性能。

        圖片


        在主觀評測方面,團隊邀請了多位視頻剪輯專家和普通用戶分別對基于專家剪輯以及隨機的轉場結果進行對比。從下圖的統計結果中可以看到,模型推薦的結果的平均得分和專家結果的得分相當,在最優結果的得****率上甚至超過專家結果。在編輯時間上,模型推薦的平均用時只需要 1.5 秒,和人工剪輯相比大大提升了編輯效率(300 倍)。以上結果充分顯示了 AutoTransition 在效果和性能上的優勢。

        圖片


        字節跳動智能創作團隊提出的通用視頻轉場推薦方案 AutoTransition 可以高效自動生成媲美專業剪輯師的視頻結果。AutoTransition 的優秀表現彰顯了智能視頻剪輯的巨大潛力,未來,團隊準備將本方案擴展到更多的視頻剪輯元素,包括但不限于視頻動畫,視頻貼紙和裁剪變換等,同時還將嘗試和其他視頻處理技術結合,以實現更全面視頻剪輯功能。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        linux操作系統文章專題:linux操作系統詳解(linux不再難懂)


        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 集贤县| 靖州| 清丰县| 罗甸县| 枣阳市| 云霄县| 增城市| 桑植县| 十堰市| 甘谷县| 襄垣县| 邻水| 永善县| 华亭县| 呼伦贝尔市| 辽源市| 鄂伦春自治旗| 神木县| 达孜县| 沾益县| 化隆| 云南省| 兴业县| 上高县| 新乡市| 五台县| 开阳县| 荔浦县| 静海县| 崇州市| 大田县| 印江| 五莲县| 专栏| 安丘市| 民权县| 遵化市| 华安县| 平阴县| 廉江市| 宜章县|