博客專欄

        EEPW首頁 > 博客 > 圖像質量評價:感知建模vs機器學習【VALSE Webinar】Panel實錄

        圖像質量評價:感知建模vs機器學習【VALSE Webinar】Panel實錄

        發布人:深度學習大講堂 時間:2020-10-07 來源:工程師 發布文章

        編者按:圖像質量評價(Image Quality Assessment, IQA)在眾多領域都有著廣闊的應用需求,同時圖像質量評價又存在著哪些問題呢?VALSE Webinar 2020-13期邀請 李雷達(西安電子科技大學)、馬柯德(香港城市大學)、王詩淇(香港城市大學)、吳金建(西安電子科技大學)、徐邁(北京航空航天大學)、吳慶波(電子科技大學)針對“圖像質量評價:感知建模vs機器學習”開展了深入探討,本文是該次討論的文字實錄,共計6個議題。文字整理:班瀚文。

        議題1 現有算法在經典圖像質量評價數據庫已經取得極高的精度,IQA已經是一個solved problem嗎?有哪些已經獲得工業界認可并廣泛應用的IQA模型?何時可以說IQA是一個solved problem?

        馬柯德:當圖像視頻領域做到什么時候,或者圖像質量評估領域做到什么時候, IQA problem是一個solved problem,這里的IQA problem指傳統的Full-Reference IQA或者No-Reference IQA。這個指標很好衡量,當沒有圖像處理領域的工作可以再做了,就意味著圖像質量評估工作已經做得很圓滿了。換句話說當圖像質量評估這個時刻真正來臨的時候,任何的圖像處理算法都可以不用做了,使用統一的算法來優化圖像指標就可以完成。任何的圖像增強,任何的超分辨、去模糊,或者任何的圖像生成,只要這個問題解決了,都是有一個統一的模型。Full-Reference優化到Full-Reference Metric的時候就可以。No-Reference相當于建了一個natural image的probabilistic的模型,只需要把你的image、noisy image、compressed image或者discrete image,nonlinear project那個probability model,highly likely對應的點上,如果那個模型很好的話,那些對應的點就是需要對應優化的點。

        王詩淇:我以前是做compression的,所以從壓縮的角度講一下我對這個問題的一點拙見。如果一個IQA真的解決比較好的話,可以這樣考慮,假如現在所有的image size是100×100,dynamic range也是0-255,沒有high dynamic range,那么實際上我們是在256的10000次方的高維空間中。那在這個高維空間中做image compression希望什么呢?我們把所有的natural image都找到,然后用一個index,因為natural image是非常非常sparse的,假設是在一個manifold上,那我們有可能把這個natural image找到,用一個無論是什么樣的index去encoding,因為image compression實際上是一個表示的問題,如果我們能把這個東西encode好的話,實際上就可以把這個natural image從這個高維空間中給extract出來。我一直認為圖像質量評價會和image compression有一定的聯系,那么從圖像質量評價中如果能把natural image給collect起來,或者說映射到一個什么樣的space上,這樣可以從一個工業界的角度解決圖像質量評價的問題。另外,現在有FR的quality assessment以及No-Reference quality assessment,我的理解FR實際上是一個fidelity measure,為什么是fidelity measure?因為實際上reference是可以change的,一個圖像,我把pixel變化了以后,比如沿著JND的profile變化,實際上reference還是一個pristine的reference,但實際上算出來的quality已經變了。所以我認為FR的終極目的在于做optimization,比如拿image compression的這個角度來解釋,實際上這個失真路徑是十分固定的,在高維空間中那個點失真了以后,到另外的一個點,我們可以想象原始圖像是一個點,在高維空間中是一個點,image compression也是構成了一個失真的profile。但這個失真的profile是非常consistent、非常固定的,那么實際上space非常固定的話,我們是可以用FR來進行評價的,但是如果space不是特別固定的話,我認為FR評價是有問題的。所以這里就存在一個問題,就是怎么樣去fake或者從安全的角度來講來attack這個FR的performance。現在有很多adversary sample,這種都是生成模型,從image compression的角度來看,最大的問題是在image compression中如果去優化一個measure,即使是失真比較consistent的情況下,經常我優化這個measure結果很好,但實際上最后compress出來的結果不好,實際上我們并不用機器學習的模型去造adversary sample,而是說僅僅基于現有的比如HEVC的這種壓縮的codec就可以很好地造出來這個adversary sample去attack目前比較流行的這種full reference algorithm,所以我認為這也是現在的一個問題。實際上這個領域從應用角度上,至少從我這個image compression、video compression的角度講還是有很多open question沒有解決。

        吳慶波:換句話說,更傾向于從low level,而不是從learning這個角度,更偏向于從感知建模這個角度來探討,至少可解釋性上它可能是更nice的一個方向。

        王詩淇:對,即使我們不用Deep Neural Networks,也不用learning的方法,也不用去gradient descent,只用一個video codec就可以attack它。所以這也是一個某些程度上weak的地方,所以我們不一定一定要看PLCC還是SRCC,而是說在real application里面有沒有這樣的案例。

        議題2 深度學習已經廣泛應用到IQA研究中,但相應的大尺度公開數據集則極其有限。有哪些方法可以破解當前IQA研究的數據困局呢?

        吳金建:我簡單分享一下自己做這個問題過程當中的體會。現在做QA很多的精力都是放在無參考這一部分,做無參考不像有參考可以做一些low level或pixel level的對比,一旦牽扯到這個問題,基本最后都是落到機器學習的問題上面。這里最大的問題就是其他的機器學習是有大數據集的,尤其像ImageNet上做分類,個人認為質量評價問題要比分類問題難。分類問題像ImageNet,100萬的數據量,1000類,但是做質量評價時從來沒有人跟你說這個圖像是幾種類型的,它是一個廣泛的,圖像類型、噪聲類型,噪聲限定到哪幾種類型下都是不確定的。從一個映射的方向來說,是從一個比分類維度高很多的地方往一個更低的維度上映射,這個時候是需要很大的樣本,但是現在QA由于做樣本的數據庫的代價問題,實際上這些數據庫都非常非常小,最大的一個是wildlife也就1000多幅圖,其他的都是幾幅或者幾十幅轉過來的,實際是很難學到有用東西的。現在用深度學習做的時候,所謂的性能調得很好了,一旦跨數據集,它的overfitting是非常非常嚴重的。光從算法層面解決的話,牽扯到比如小樣本學習,如果針對這么大的一個問題,還是很難解決的。但是可能對于某一種噪聲類型,也許有比較好的方法。如果是泛在的類型,不限制噪聲類型的話是很難解決的。

        針對這個問題,我們后來想了一種比較好的方式,建一個更大的數據集。實際上我們現在手里有一個100多萬張的圖像數據集,再過一段時間會把這個數據集公布出來(下載鏈接https://web.xidian.edu.cn/wjj/paper.html)。在這個數據集上做了預訓練之后,跨庫的性能會有比較大的提升,甚至在有些算法上跟性能第二的相比,結果可能是翻倍提升的。這是個人對質量評價數據量不足的問題的看法,謝謝。

        李雷達:現在有不少的IQA的方法也都在沿著數據增廣的方式在做,我們可以從網絡里面拿很多的數據,這個數據是多樣化的,內容也是多樣化的,通過人為地添加一些噪聲、失真的方式,利用現在性能比較好的全參模型打標簽。這是一個比較好的思路,當然也確實得到了比較好的性能提升。另外一種思路是基于rank learning去學習圖像之間的rank。現在基于rank的方式,固然可以生很多pair,但是有一個問題可能大家目前的關注還不夠,就是現在大家在做的時候選取的pair都是相同內容的,但實際上在做評估的時候,圖像內容是非常多樣化的。所以我認為在后面基于rank學習做這IQA的時候,實際上是可以構造出那些跨內容的多樣化的pair添加進去,可能會進一步提升IQA算法的性能。另外也可以基于元學習的方式,元學習也可以用來做質量評估,我們今年在CVPR的一篇文章中也是用元學習處理模型的擴展性問題,目的也是為了解決目前IQA小樣本學習的問題。像弱監督學習、小樣本學習的思路都可以結合現在的數據增強的方式,包括rank learning的方式來共同推動IQA的研究,能夠更多地向實際場景里推進,謝謝。

        吳慶波:元學習應該是這個方向小樣本非常好的探索,用深度學習做IQA一個非常大的困擾就是常見的方式,大家喜歡用切塊的形式,一張圖切成很多patch,每個patch分配一個打分,其實這種方式大家都知道很不合理,但是在前期因為數據不足,所以也得使用。后面剛才幾個老師提到的這些見解,不管是release一個更加open或者large scale的數據集,還是用一些Meta-learning,再或者使用one-shot learning這些技術,都會是一個非常好的思路。

        議題3 無參考模型是否如眾多文獻中展示的一樣,其性能已經優于全參考模型?全參考與無參考模型相比,哪類模型進一步提升和探索的空間更大?

        李雷達:無參考模型和全參考模型到底哪一個更值得進一步探索,我認為其實要看應用場景。全參考模型和無參考模型的應用場景是有差異的。在圖像壓縮和圖像增強的場合是有原圖可以參考的。在這種情況之下,既然有參考,我們就把這個參考充分利用起來;甚至在一些圖像恢復的場景里也是有參考的,只不過那個參考不是一個完美質量的參考,但是也是有一些可以提供給我們做比較的有用信息的。所以全參考IQA算法在這樣的一些場景里有很大的成長空間。如果從實際應用的場景來看,真實環境里很多都是無參的場景,比如自然場景里的圖像評估,現在的直播場景的視頻質量評估,實際上在客戶端是無法獲得原圖的。在這種情況之下,就只能采用無參的模型。所以我個人認為這個問題是取決于要用在什么應用環境下,謝謝。

        馬柯德:簡單說一下我對無參考的看法。首先我很同意金建老師跟雷達老師之前對無參考的看法,其實我每次想無參考的時候就會很intuitive地思考這些問題,比如無參考里面首先哪些問題是值得做的,為什么大家會覺得無參考質量評價的數據集的內容少呢?可能不是因為它跟ImageNet對比,因為ImageNet有100萬,我的只有幾千。最大的原因應該是我們在這個上面已經overfitting了,因為deep model就很容易over fitting,然后我們會思考這個數據集是不是太小了,稍微有一點就over fitting,我們是不是應該解決的思路是這樣的?其實在要建更大數據庫之前,我們會想無參考里面還有什么沒解決的問題呢?雖然數據庫很小,大概有幾十個,怎么樣同時建一個unified model,比方說我就串一個lightwork,就一套參數,我對這幾十個IQA date base它都表現很好,這就是一個非常值得研究的問題。解決思路也非常簡單,就是rank learning。因為Blind Image Quality Assessment一開始大家都會認為是一個regression problem,但我認為rank learning才是BIQA的最終出路。

        我可以補充一下有關rank learning的內容,我在2017年的文章和2019年的文章都已經是不同的人都可以建pair。我最近的一個文章也是向我剛剛提到的問題做的拓展,怎么樣從一個model,在幾十個data base,雖然這幾十個data base每一個都只有幾百張圖,表現都非常好,這是非常值得大家研究的問題,也希望你把這些問題給你的同伴,給你的實驗室伙伴,讓他們加入到我們IQA的研究熱潮當中。還有一點就是數據量小,除了把data base建大一點,有沒有其他的方法解決?還有一個很好的思路,我現在是discriminative 地去train我的BIQA model,其實BIQA model是跟natural image compress緊密聯系在一起的,比如把image說成X,QX是X的質量, PX是X出現的概率QX和PX之間是有非常大的聯系。當把這個關系理順了之后,給BIQA一個判別式且生成式joint的建模,這個生成式建模的很好的信息就能給判別式建模有很強的regularization。這個問題也是怎么樣unified去生成建模,也是我跟現在的實驗室伙伴,跟我的學生一直在討論的問題,稍微有一點眉目,但是還是沒想清楚,也歡迎大家告訴實驗室的小伙伴,加入到我們的IQA的科研熱潮當中。

        吳慶波:這個問題當中非常大的難點其實就是涉及到data base,一方面是數據本身有一定的bias,還有一方面就是不同的數據集打分的標準也不一樣,rank這一方向是很好的思路。

        議題4 圖像質量評價的實際應用情況如何?有哪些工業界亟待解決的圖像質量評價需求?

        徐邁:圖像質量評價在圖像處理任務當中非常常見,圖像壓縮、圖像質量增強、超分辨等等,每一篇論文都會涉及到圖像質量評價。因為在它的實踐里,必須得評估所提出的算法,在質量方面的性能,比如PSNR、SSIM,或者V-MAF等這些質量評價的方法。事實上圖像質量評價是給圖像處理提供了一個評價的手段,但更重要的是提供了一個優化的目標。我們首先得知道圖像的處理要往什么方向走,處理出什么樣的圖像是人感覺質量比較好的,跟原圖上差異比較小的,這種情況下才能夠發展圖像處理任務,我發現在做圖像視頻壓縮的過程中,現在分辨率越來越高,用戶越來越多,帶寬受限所以必須得降碼率。降了碼率以后,如何保證圖像質量,能夠讓人感知圖像的質量比較好,就需要一些質量評價方法。跟其他的主題不一樣,圖像質量評價是非常非常重要的一個環節。威廉湯姆森熱力學之父、英國的皇家科學院院長曾經說過:“如果你無法測量它的話,你就沒法提升它。”可見在圖像領域,尤其是low level的vision task上,圖像處理任務當中,圖像質量評價是非常重要的。

        另外是在工業界的需求,事實上我們了解像愛奇藝、優酷、騰訊等視頻內容商,或基于視頻的互聯網商,每個公司都有自己的一套圖像質量評價方法,優化目標來優化他們的系統,給用戶提供更好的服務。現在包括在視頻壓縮用到移動互聯網上還有重要的一個概念叫窄帶高清,我們今年也跟一些互聯網公司合作做窄帶高清。所謂窄帶高清就是把帶寬降了,質量依然保存甚至更好,這個就需要一個優化的目標來做,我們如何降碼了以后讓質量更好,這就涉及到圖像質量評價。

        關于非參考的質量評價方法的用處或者難點這一問題,實際上做窄帶高清發現,到后來客觀的質量評價方法,包括有參考的質量評價方法,PSNR到SSIM等已經不重要了,重要的是人看起來好就可以了。很多時候我們做優化,比如面向視覺優化,通過一些后續的方法,例如顏色銳化等處理后,發現PSNR降20dB了,和原圖差異非常大,但是它的質量反而變好了。所以有時候做視頻壓縮很有意思,碼率降了60%,但質量比原圖還好了10%,這個就是應用了一個非參考質量評價方法作為優化目標,來觀察圖像壓縮該往什么方向發展最后能夠達到比較好的效果。質量評價無論是有參考的還是無參考的,它在工業界應用空間是非常寬廣的。

        吳慶波:謝謝徐老師給我們提到非常好的見解,尤其是了解到各個公司相應的需求,這個對我們真正做理論研究有更好的指導方向。

        李雷達:和工業界的結合,我們現在做了很多IQA的文章,但和產業的結合還是弱項。實際生產生活里確實有很多應用的需求,比如現在做手機的很需要能夠對成像系統進行性能做評估的方法,其核心還是質量評估。最近幾年視頻直播非常火。直播場景里作為內容提供商,非常希望借助于質量評估模型對直播過程中的用戶體驗進行實時監測,包括流媒體的視頻質量評估的需求,還有醫學影像方面也有很強的需求,從醫學成像到后期的醫學影像的診療分析都涉及到很多醫學質量評估的分析。如果大家搜索質量評價和醫學有關的文獻,可以發現有不少是結合質量評價的思路來做醫學圖像的分析或處理的。所以我認為和這些業界的結合也是我們做質量評價很重要的方向,因為我們做IQA的最終目的還是要應用到業界里去,所以我認為后面的IQA研究也要更多地考慮業界的實際需求,我們相應在算法設計、在測試手段上做調整,謝謝。

        議題5 現有腦電信號EEG能為IQA的感知建模提供哪些幫助?腦電傳感器與計算模型,誰能成為解決IQA問題的終極答案?

        徐邁:剛剛質量評價,包括金建這邊在建一個100萬的,我覺得非常震撼。但實際上圖像質量評價建庫的難點或者預測的難點在于ground truth很難獲得。因為它有唯一答案,圖像中的物體、分類甚至分隔、物理檢測,雖然在圖像質量評價方面非常強,但它的ground truth很難獲得。我們在做圖像質量評價的實驗當中,發現人與人之間差異很多時候也來自于有些被測者并不一定專心,甚至可能走神了,或者就是為了賺參與的費用,所以并沒有投入。如果拿不到這樣的MOS,或者拿不到圖像質量評價的ground truth,未來再做這個事情就很難。這里EEG的形式就非常好,在做質量評價同人的大腦通過傳感拿到底層的信息,通過EEG信號結合人的打分做出一個ground truth的設定,這樣有利于模型學習人的主觀質量,保證學出來的有效性和真實性,我認為EEG作為補充是非常重要的。第二點, EEG的腦電信號分析已經研究了很多年,通過對于人的底層信息的挖掘、借鑒,事實上也發現很多跟質量評價相關的重要的區域和重要的反應機理,因此我們在構建模型的過程中,也可以結合人的機理來做一些先驗知識和模型相結合,提高質量評價模型的精度。當然剛才說了兩者的關系,哪個是終極的,目前來說我們還是在一個數據驅動的時代,在一個deep learning的時代,所以EEG這種底層的分析有很長的路要走。目前看來EEG或者腦電信號的分析,還是模型算法的一個補充。但是未來不確定,比如30年后,甚至更長的時間,如果在底層視覺上有一些突破,或許能夠取代模型算法作為終極目標,謝謝。

        吳慶波:謝謝徐老師分享想法和經驗,因為現在包括一些類腦計算也是在機器學習領域里不斷在嘗試,不止是從算法層面找突破,sensor本身也是增強我們感知很重要的手段。

        議題6  針對IQA的深度學習研究中,有哪些獨有的特點需要在深度神經網絡的構建中特別關注?

        王詩淇:我認為可解釋性、魯棒性、cross dataset,testing這樣的性能首先是必須要滿足的,比如VGA模型為什么可以在質量評價中發揮比較好的作用,有哪些可解釋性可以挖掘。另外我們也知道現在在natural image上train的,在screen content上,或者說artificial general content上,性能不是特別好,這樣的話它的泛化性不是特別好,如何解決泛化性。我想提出兩個看法,從做壓縮的角度來講怎么樣利用神經網絡這樣的特性,因為現在有很多end-to-end compression model,它de-compress的image實際上是由神經網絡生成的,而不是傳統的信號處理生成的。我們通過實驗發現,即使我們生成的圖像質量很好,但是很多傳統的圖像質量評價方法是不work的,包括PSNR,SSIM,傳統方法給出的分都很低。基于深度神經網絡進行圖像質量評價的方法,實際上能達到與人眼主觀感知非常不錯的擬合程度,從我們的主觀實驗上來講是一個這樣的結果。所以就引出了一個quality 和fidelity的問題。我會從壓縮跟圖像質量評價的結合談得多一點,假如我們要壓一幅圖片,比如壓一只貓,在傳統壓縮的時候,在低碼率時很可能貓臉就已經模糊掉了,已經有blocking artifacts,有各種各樣的artifacts。實際上如果有了神經網絡這樣的生成能力,我們可以生成一張貓臉,這張貓臉可能是很漂亮的。但是問題在于它可能就不是原先你想發送的那只貓臉。我們用一個No-Reference quality assignment去衡量,quality是很好的,但fidelity很差,這就是神經網絡出現在圖像表示上的問題。從圖像表示的角度來講,這也是對圖像質量評價提出了一個挑戰,實際上很多task都是一個表示的問題。

        回到圖像質量評價,怎么樣用圖像質量評價很可靠地衡量用神經網絡圖像表示得到的結果。其實人也是有這樣的問題,有的時候覺得quality蠻不錯的,但是fidelity不是特別好,這時候到底是trust quality還是trust fidelity。比如娛樂的時候就trust quality,但是真正在法庭上拿這張圖像的話一定要fidelity,因為編碼器一定要fidelity很好。所以我認為如何保持quality 和fidelity這個問題是圖像質量評價需要注意的。另外一個方面,傳統的MSE(mean-square error)以及一些方法被criticize的一個點是因為它們不是在于perceptually uniform space,如何用神經網絡構建一個perceptually uniform space,這個uniform是指local的uniform,我認為可以有一些inspiration的點。

        吳慶波:好,謝謝詩淇老師帶給我們的分享。在coding這塊關于care置信度還是care質量,相當于也涉及到不同業務場景的研究特點。其他老師有想跟我們一起分享的想法和心得嗎?柯德老師可以簡單聊一下,我記得你之前做深度網絡里一個非常有意思的點就是在normalization這一塊,是把BN這一塊做了相應的改進,專門還針對IQA這一塊做了相應的分析。

        馬柯德:簡單說一下,可能我的觀點非常bias,有什么特別值得關注的呢?模型一定要越小越好,能用三個convolution解決的問題,千萬別用四個convolution。因為模型越小,才更有可能是魯棒的模型。當然這說的很不確切,因為怎么樣定義魯棒,在什么樣的場景中定義魯棒,可以是很有趣的問題。當模型參數越小的時候,你要依賴的可能就是pre-knowledge,就相當于借助我的視覺系統的neural computation的了解,然后把computational models build到deep neural network當中去。其實divisive normalization很有趣,我的博后導師Iris Charlie最近也提了一個Full Reference matrix,非常強調了要做divisive normalization,他堅信下一個浪潮就是divisive normalization。他說第一個浪潮是linear transform或者現在說的convolution。下一個transform就是deep neural network。Deep neural network火起來的就是ReLU,他說有rectification,所以我有linear transform convolution之后,我要有rectification。他說有了rectification之后還不夠,我還要有divisive normalization。Divisive normalization好處是可以把不同dynamic range的信號拉到一個可以比較的range當中,然后場景不同之后,可以拉到一個亮度進行比較,這就可以構造一個loss function,直接做high dynamic range compression,比如亮度是10萬candela 每立方米的場景,用顯示器亮度最多300,怎樣把一個自然場景很合理地顯示,就可以做這樣的一個東西。

        吳慶波:一個在learning非常重要的點,就是要通過控制model的complexity。一般情況下learning的一個基本原則是你希望讓model泛化性能越強,就要求復雜度低一點,就像我們常見的用低一點的linear model,要求擬合性能更高,可能模型復雜度更高一點,這就是我們在研究當中大家不同的側重相應的思路。

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞:

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 三台县| 麻城市| 桃园市| 友谊县| 尤溪县| 彰化县| 新丰县| 拉萨市| 海城市| 庆阳市| 莲花县| 驻马店市| 航空| 黄龙县| 鲜城| 凤冈县| 梨树县| 怀远县| 邹城市| 布尔津县| 罗定市| 凤阳县| 抚远县| 北京市| 当雄县| 宁津县| 方正县| 大姚县| 衢州市| 滦南县| 辉县市| 巩留县| 新营市| 福安市| 潼关县| 台东市| 武清区| 辽中县| 新民市| 福清市| 汝阳县|