博客專欄

        EEPW首頁 > 博客 > SFT-GAN、CSRCNN、CSNLN、HAN+、Config (f)…你都掌握了嗎?一文總結超分辨率分析必備經典模型(三)-3

        SFT-GAN、CSRCNN、CSNLN、HAN+、Config (f)…你都掌握了嗎?一文總結超分辨率分析必備經典模型(三)-3

        發布人:機器之心 時間:2023-04-23 來源:工程師 發布文章
        4、 HAN+

        信息性特征在單幅圖像的超分辨率任務中起著至關重要的作用。通道注意力已經被證明可以有效地保留每一層的信息豐富的特征。然而,通道注意力將每個卷積層作為一個單獨的過程,忽略了不同層之間的關聯性。為了解決這個問題,本文提出了一個新的整體注意力網絡(holistic attention network,HAN),它由一個層注意力模塊(layer attention module ,LAM)和一個通道-空間注意力模塊(channel-spatial attention module,CSAM)組成,用來模擬層、通道和位置之間的整體相互依賴關系。具體來說,LAM通過考慮各層之間的相關性,自適應地強調層次特征。同時,CSAM學習每個通道所有位置的置信度,以選擇性地捕獲更多的信息特征。

        圖片圖7 HAN網絡結構。給定一個低分辨率的圖像,HAN的第一個卷積層提取一組淺層的特征圖。然后,一系列的殘差組進一步提取低分辨率輸入的更深層次的特征表示。作者提出了一個層注意模塊(LAM)來學習來自RGs的每個輸出的相關性,以及一個通道-空間注意力模塊(CSAM)來研究通道和像素之間的相互依賴關系。最后,一個上采樣塊生成了高分辨率的圖像

        如圖7所示,HAN由四部分組成:特征提取、層注意力模塊、通道空間注意力模塊和最終的重構模塊。給定LR,HAN的第一個卷積層提取一組淺層特征圖,然后一系列殘差組進一步提取LR的深層特征。其間,利用所提出的LAM來學習殘差組輸出的特征圖的相關性,以及一個CSAM來研究通道和像素之間的相互依賴關系。最后,通過上采樣模塊產生HR。

        首先對輸入的LR圖像進行卷積提取淺層特征:


        圖片


        然后使用RCAN網絡的框架,設置N個residual group(RG)得到中間特征:


        圖片


        對提取到的特征進行整體特征加權,包括:i)對層級特征即各F_i的層次注意 ii)對RCAN最后一層F_N的通道-空間注意力:


        圖片


        其中,H_LA表示LAM模塊, L從RGs的輸出特征中學習特征相關矩陣,然后為各F_i加權。結果表明,該方法能夠增強高貢獻的特征層,抑制冗余特征層。


        圖片


        其中,H_CSA表示CSAM模塊。通道-空間注意力的目的是通過調節特征,自適應地捕捉通道間和通道內更重要的信息,以便最終的重建處理。基于準確性與效率的權衡考量,此步只以 F_N作為輸入。在LAM和CSAM分別提取特征后,對兩者結果聯合處理,采用亞像素卷積的上采樣方法:


        圖片


        選擇L1距離作為損失函數:


        圖片


        圖片

        圖8 LAM圖示

        LAM模塊的輸入是從N 個residual group提取到的各層次特征圖,維度為N×H×W×C,并將其reshape至N×HWC維度,和對應的轉置矩陣進行矩陣相乘,計算得到各層之間的相關系數W_la:


        圖片


        其中,δ表示softmax,ψ表示reshape操作,w_i,j代表第i個和第j個特征圖間的相關系數。將各矩陣加權相乘后再加上原矩陣,得到F_Lj :

        圖片



        圖片

        圖9 通道-空間注意力模塊

        然后,將最后一層的特征圖F_N作為輸入,通過三維卷積層獲得通道和空間特征W_csa,這樣可以得到更有效的通道內和通道間信息。


        圖片


        此外,將注意力映射圖W_csa和輸入特征F_v進行元素乘法運算。最后,將加權后的結果乘以一個比例因子β,再加入輸入特征F_N得到加權特征F_cs,其中,σ為sigmoid函數,β為比例因子,初始化為0。

        當前SOTA!平臺收錄HAN+共2個模型實現。

        圖片

        項目SOTA!平臺項目詳情頁
        HAN+前往 SOTA!模型平臺獲取實現資源:https://sota.jiqizhixin.com/project/han-4


        5、 Config (f)

        該方法是GAN在SR中的應用。作者修改了生成器以估計一個分布作為隨機噪聲的映射,此外改進了阻礙知覺訓練目標的內容損失,還提出了額外的訓練技術以進一步提高生成圖像的感知質量。


        圖片圖10 循環一致性損失是通過比較LR圖像和下采樣的SR圖像來測量的。鑒別器得到了目標圖像和通過對LR圖像進行雙三次上采樣生成的參考圖像

        如圖10所示,作者將超分辨率問題視為LR和HR圖像空間之間的圖像轉換任務,并應用CycleGAN框架。為了簡化問題,利用對G2:HR→LR的先驗知識,可以將降采樣操作表示為f,并將G2設置為f,而不是學習它。這就只剩下G1和D1需要學習。作者提出循環一致性損失( cycle consistency loss)。這個損失不會以任何方式懲罰高頻細節的生成,同時確保SR圖像與LR圖像保持一致。最后,生成器損失為:


        圖片

        為了使生成器能夠在給定的單一圖像中生成一個以上的解決方案,它必須接收和應用隨機信息。超分辨率圖像之間的變化將主要是高頻紋理的隨機變化。StyleGAN通過向生成器中每一層的輸出添加像素級的高斯噪聲來實現圖像的隨機變化,本文引入了這種方法,在生成器的每一個RRDB(Residual in Residual Dense Block)層之后添加噪聲。然而,這就在噪聲的大小方面引入了新的超參數。作者還觀察到,各層和各通道的敏感性和所需的噪聲大小是不同的。在每一層之后直接添加相同的噪聲可能會損害生成器的性能。例如,檢測邊緣的通道會受到噪聲的嚴重損害。為了緩解這種可能的問題,作者允許每個通道自適應地學習所需的噪聲大小。具體來說,在將噪聲添加到每一層的輸出之前,將噪聲與一個通道的縮放因子相乘。縮放因子是與網絡參數同時學習的。噪聲在評估時不被應用。

        傳統上,鑒別器網絡接收單一的圖像,并被訓練來分類給定的圖像是真實的還是生成的圖像。這種設置將為生成器提供指向 "任何自然圖像 "的梯度,而不是指向相應的HR圖像。在一個極端的例子中,傳統的鑒別器不會因為生成器從LR圖像中生成完全不同但同樣真實的圖像而受到懲罰。雖然由于其他內容和感知損失的存在,這不太可能,但對于超分辨率的任務來說,鑒別器給出的梯度反饋是次優的。作為一種解決方案,作者將低分辨率的圖像作為參考,與目標圖像一起提供給鑒別器。這使鑒別器能夠學習更多的重要特征來鑒別生成的圖像,并根據LR圖像提供更好的梯度反饋。

        作者建議在網絡對patch進行訓練之前,檢測并去除模糊的patch。有各種模糊檢測的方法,例如算法方法和基于深度學習的方法。然而,大多數基于深度學習的工作側重于預測圖像的像素級模糊圖,作者認為這并不能滿足本文的需要,而選擇了算法方法。如圖11,作者測量patch的Laplacian activation的方差,并認為方差低于100的patch是模糊的patch。該算法在DIV2K數據集的16,000個96×96大小的隨機裁剪的patch樣本中檢測到28.8%的模糊patch,在DIV8K數據集的140,000個patch樣本中檢測到48.9%的patch。


        圖片圖11 在DIV8K數據集的圖像0031上測試的隨機選擇的模糊檢測算法樣本。上面兩行是被分類為清晰的patch,下面幾行是模糊的patch。圖像中清晰的區域(人、桿)被檢測算法正確地認為是清晰的patch

        當前SOTA!平臺收錄Config (f)共1個模型實現。

        圖片

        項目SOTA!平臺項目詳情頁
        Config (f)前往 SOTA!模型平臺獲取實現資源:https://sota.jiqizhixin.com/project/config-f


        前往 SOTA!模型資源站(sota.jiqizhixin.com)即可獲取本文中包含的模型實現代碼、預訓練模型及API等資源。 


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 兰坪| 美姑县| 和政县| 黎川县| 扶余县| 台安县| 莱阳市| 临澧县| 长汀县| 盐池县| 于都县| 眉山市| 奉节县| 庄河市| 博客| 二手房| 晋城| 任丘市| 石楼县| 青浦区| 乌恰县| 普定县| 湄潭县| 清丰县| 石楼县| 凤庆县| 开平市| 深水埗区| 乌海市| 黄冈市| 密云县| 巴中市| 冀州市| 嵊泗县| 车险| 五寨县| 铜山县| 永定县| 会昌县| 全南县| 汪清县|