熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專欄

EEPW首頁 > 博客 > 圖像質(zhì)量評價(jià):感知建模vs機(jī)器學(xué)習(xí)【VALSE Webinar】Panel實(shí)錄

圖像質(zhì)量評價(jià):感知建模vs機(jī)器學(xué)習(xí)【VALSE Webinar】Panel實(shí)錄

發(fā)布人:深度學(xué)習(xí)大講堂 時(shí)間:2020-10-07 來源:工程師 發(fā)布文章

編者按:圖像質(zhì)量評價(jià)(Image Quality Assessment, IQA)在眾多領(lǐng)域都有著廣闊的應(yīng)用需求,同時(shí)圖像質(zhì)量評價(jià)又存在著哪些問題呢?VALSE Webinar 2020-13期邀請 李雷達(dá)(西安電子科技大學(xué))、馬柯德(香港城市大學(xué))、王詩淇(香港城市大學(xué))、吳金建(西安電子科技大學(xué))、徐邁(北京航空航天大學(xué))、吳慶波(電子科技大學(xué))針對“圖像質(zhì)量評價(jià):感知建模vs機(jī)器學(xué)習(xí)”開展了深入探討,本文是該次討論的文字實(shí)錄,共計(jì)6個議題。文字整理:班瀚文。

議題1 現(xiàn)有算法在經(jīng)典圖像質(zhì)量評價(jià)數(shù)據(jù)庫已經(jīng)取得極高的精度,IQA已經(jīng)是一個solved problem嗎?有哪些已經(jīng)獲得工業(yè)界認(rèn)可并廣泛應(yīng)用的IQA模型?何時(shí)可以說IQA是一個solved problem?

馬柯德:當(dāng)圖像視頻領(lǐng)域做到什么時(shí)候,或者圖像質(zhì)量評估領(lǐng)域做到什么時(shí)候, IQA problem是一個solved problem,這里的IQA problem指傳統(tǒng)的Full-Reference IQA或者No-Reference IQA。這個指標(biāo)很好衡量,當(dāng)沒有圖像處理領(lǐng)域的工作可以再做了,就意味著圖像質(zhì)量評估工作已經(jīng)做得很圓滿了。換句話說當(dāng)圖像質(zhì)量評估這個時(shí)刻真正來臨的時(shí)候,任何的圖像處理算法都可以不用做了,使用統(tǒng)一的算法來優(yōu)化圖像指標(biāo)就可以完成。任何的圖像增強(qiáng),任何的超分辨、去模糊,或者任何的圖像生成,只要這個問題解決了,都是有一個統(tǒng)一的模型。Full-Reference優(yōu)化到Full-Reference Metric的時(shí)候就可以。No-Reference相當(dāng)于建了一個natural image的probabilistic的模型,只需要把你的image、noisy image、compressed image或者discrete image,nonlinear project那個probability model,highly likely對應(yīng)的點(diǎn)上,如果那個模型很好的話,那些對應(yīng)的點(diǎn)就是需要對應(yīng)優(yōu)化的點(diǎn)。

王詩淇:我以前是做compression的,所以從壓縮的角度講一下我對這個問題的一點(diǎn)拙見。如果一個IQA真的解決比較好的話,可以這樣考慮,假如現(xiàn)在所有的image size是100×100,dynamic range也是0-255,沒有high dynamic range,那么實(shí)際上我們是在256的10000次方的高維空間中。那在這個高維空間中做image compression希望什么呢?我們把所有的natural image都找到,然后用一個index,因?yàn)閚atural image是非常非常sparse的,假設(shè)是在一個manifold上,那我們有可能把這個natural image找到,用一個無論是什么樣的index去encoding,因?yàn)閕mage compression實(shí)際上是一個表示的問題,如果我們能把這個東西encode好的話,實(shí)際上就可以把這個natural image從這個高維空間中給extract出來。我一直認(rèn)為圖像質(zhì)量評價(jià)會和image compression有一定的聯(lián)系,那么從圖像質(zhì)量評價(jià)中如果能把natural image給collect起來,或者說映射到一個什么樣的space上,這樣可以從一個工業(yè)界的角度解決圖像質(zhì)量評價(jià)的問題。另外,現(xiàn)在有FR的quality assessment以及No-Reference quality assessment,我的理解FR實(shí)際上是一個fidelity measure,為什么是fidelity measure?因?yàn)閷?shí)際上reference是可以change的,一個圖像,我把pixel變化了以后,比如沿著JND的profile變化,實(shí)際上reference還是一個pristine的reference,但實(shí)際上算出來的quality已經(jīng)變了。所以我認(rèn)為FR的終極目的在于做optimization,比如拿image compression的這個角度來解釋,實(shí)際上這個失真路徑是十分固定的,在高維空間中那個點(diǎn)失真了以后,到另外的一個點(diǎn),我們可以想象原始圖像是一個點(diǎn),在高維空間中是一個點(diǎn),image compression也是構(gòu)成了一個失真的profile。但這個失真的profile是非常consistent、非常固定的,那么實(shí)際上space非常固定的話,我們是可以用FR來進(jìn)行評價(jià)的,但是如果space不是特別固定的話,我認(rèn)為FR評價(jià)是有問題的。所以這里就存在一個問題,就是怎么樣去fake或者從安全的角度來講來attack這個FR的performance?,F(xiàn)在有很多adversary sample,這種都是生成模型,從image compression的角度來看,最大的問題是在image compression中如果去優(yōu)化一個measure,即使是失真比較consistent的情況下,經(jīng)常我優(yōu)化這個measure結(jié)果很好,但實(shí)際上最后compress出來的結(jié)果不好,實(shí)際上我們并不用機(jī)器學(xué)習(xí)的模型去造adversary sample,而是說僅僅基于現(xiàn)有的比如HEVC的這種壓縮的codec就可以很好地造出來這個adversary sample去attack目前比較流行的這種full reference algorithm,所以我認(rèn)為這也是現(xiàn)在的一個問題。實(shí)際上這個領(lǐng)域從應(yīng)用角度上,至少從我這個image compression、video compression的角度講還是有很多open question沒有解決。

吳慶波:換句話說,更傾向于從low level,而不是從learning這個角度,更偏向于從感知建模這個角度來探討,至少可解釋性上它可能是更nice的一個方向。

王詩淇:對,即使我們不用Deep Neural Networks,也不用learning的方法,也不用去gradient descent,只用一個video codec就可以attack它。所以這也是一個某些程度上weak的地方,所以我們不一定一定要看PLCC還是SRCC,而是說在real application里面有沒有這樣的案例。

議題2 深度學(xué)習(xí)已經(jīng)廣泛應(yīng)用到IQA研究中,但相應(yīng)的大尺度公開數(shù)據(jù)集則極其有限。有哪些方法可以破解當(dāng)前IQA研究的數(shù)據(jù)困局呢?

吳金建:我簡單分享一下自己做這個問題過程當(dāng)中的體會?,F(xiàn)在做QA很多的精力都是放在無參考這一部分,做無參考不像有參考可以做一些low level或pixel level的對比,一旦牽扯到這個問題,基本最后都是落到機(jī)器學(xué)習(xí)的問題上面。這里最大的問題就是其他的機(jī)器學(xué)習(xí)是有大數(shù)據(jù)集的,尤其像ImageNet上做分類,個人認(rèn)為質(zhì)量評價(jià)問題要比分類問題難。分類問題像ImageNet,100萬的數(shù)據(jù)量,1000類,但是做質(zhì)量評價(jià)時(shí)從來沒有人跟你說這個圖像是幾種類型的,它是一個廣泛的,圖像類型、噪聲類型,噪聲限定到哪幾種類型下都是不確定的。從一個映射的方向來說,是從一個比分類維度高很多的地方往一個更低的維度上映射,這個時(shí)候是需要很大的樣本,但是現(xiàn)在QA由于做樣本的數(shù)據(jù)庫的代價(jià)問題,實(shí)際上這些數(shù)據(jù)庫都非常非常小,最大的一個是wildlife也就1000多幅圖,其他的都是幾幅或者幾十幅轉(zhuǎn)過來的,實(shí)際是很難學(xué)到有用東西的?,F(xiàn)在用深度學(xué)習(xí)做的時(shí)候,所謂的性能調(diào)得很好了,一旦跨數(shù)據(jù)集,它的overfitting是非常非常嚴(yán)重的。光從算法層面解決的話,牽扯到比如小樣本學(xué)習(xí),如果針對這么大的一個問題,還是很難解決的。但是可能對于某一種噪聲類型,也許有比較好的方法。如果是泛在的類型,不限制噪聲類型的話是很難解決的。

針對這個問題,我們后來想了一種比較好的方式,建一個更大的數(shù)據(jù)集。實(shí)際上我們現(xiàn)在手里有一個100多萬張的圖像數(shù)據(jù)集,再過一段時(shí)間會把這個數(shù)據(jù)集公布出來(下載鏈接https://web.xidian.edu.cn/wjj/paper.html)。在這個數(shù)據(jù)集上做了預(yù)訓(xùn)練之后,跨庫的性能會有比較大的提升,甚至在有些算法上跟性能第二的相比,結(jié)果可能是翻倍提升的。這是個人對質(zhì)量評價(jià)數(shù)據(jù)量不足的問題的看法,謝謝。

李雷達(dá):現(xiàn)在有不少的IQA的方法也都在沿著數(shù)據(jù)增廣的方式在做,我們可以從網(wǎng)絡(luò)里面拿很多的數(shù)據(jù),這個數(shù)據(jù)是多樣化的,內(nèi)容也是多樣化的,通過人為地添加一些噪聲、失真的方式,利用現(xiàn)在性能比較好的全參模型打標(biāo)簽。這是一個比較好的思路,當(dāng)然也確實(shí)得到了比較好的性能提升。另外一種思路是基于rank learning去學(xué)習(xí)圖像之間的rank?,F(xiàn)在基于rank的方式,固然可以生很多pair,但是有一個問題可能大家目前的關(guān)注還不夠,就是現(xiàn)在大家在做的時(shí)候選取的pair都是相同內(nèi)容的,但實(shí)際上在做評估的時(shí)候,圖像內(nèi)容是非常多樣化的。所以我認(rèn)為在后面基于rank學(xué)習(xí)做這IQA的時(shí)候,實(shí)際上是可以構(gòu)造出那些跨內(nèi)容的多樣化的pair添加進(jìn)去,可能會進(jìn)一步提升IQA算法的性能。另外也可以基于元學(xué)習(xí)的方式,元學(xué)習(xí)也可以用來做質(zhì)量評估,我們今年在CVPR的一篇文章中也是用元學(xué)習(xí)處理模型的擴(kuò)展性問題,目的也是為了解決目前IQA小樣本學(xué)習(xí)的問題。像弱監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)的思路都可以結(jié)合現(xiàn)在的數(shù)據(jù)增強(qiáng)的方式,包括rank learning的方式來共同推動IQA的研究,能夠更多地向?qū)嶋H場景里推進(jìn),謝謝。

吳慶波:元學(xué)習(xí)應(yīng)該是這個方向小樣本非常好的探索,用深度學(xué)習(xí)做IQA一個非常大的困擾就是常見的方式,大家喜歡用切塊的形式,一張圖切成很多patch,每個patch分配一個打分,其實(shí)這種方式大家都知道很不合理,但是在前期因?yàn)閿?shù)據(jù)不足,所以也得使用。后面剛才幾個老師提到的這些見解,不管是release一個更加open或者large scale的數(shù)據(jù)集,還是用一些Meta-learning,再或者使用one-shot learning這些技術(shù),都會是一個非常好的思路。

議題3 無參考模型是否如眾多文獻(xiàn)中展示的一樣,其性能已經(jīng)優(yōu)于全參考模型?全參考與無參考模型相比,哪類模型進(jìn)一步提升和探索的空間更大?

李雷達(dá):無參考模型和全參考模型到底哪一個更值得進(jìn)一步探索,我認(rèn)為其實(shí)要看應(yīng)用場景。全參考模型和無參考模型的應(yīng)用場景是有差異的。在圖像壓縮和圖像增強(qiáng)的場合是有原圖可以參考的。在這種情況之下,既然有參考,我們就把這個參考充分利用起來;甚至在一些圖像恢復(fù)的場景里也是有參考的,只不過那個參考不是一個完美質(zhì)量的參考,但是也是有一些可以提供給我們做比較的有用信息的。所以全參考IQA算法在這樣的一些場景里有很大的成長空間。如果從實(shí)際應(yīng)用的場景來看,真實(shí)環(huán)境里很多都是無參的場景,比如自然場景里的圖像評估,現(xiàn)在的直播場景的視頻質(zhì)量評估,實(shí)際上在客戶端是無法獲得原圖的。在這種情況之下,就只能采用無參的模型。所以我個人認(rèn)為這個問題是取決于要用在什么應(yīng)用環(huán)境下,謝謝。

馬柯德:簡單說一下我對無參考的看法。首先我很同意金建老師跟雷達(dá)老師之前對無參考的看法,其實(shí)我每次想無參考的時(shí)候就會很intuitive地思考這些問題,比如無參考里面首先哪些問題是值得做的,為什么大家會覺得無參考質(zhì)量評價(jià)的數(shù)據(jù)集的內(nèi)容少呢?可能不是因?yàn)樗鶬mageNet對比,因?yàn)镮mageNet有100萬,我的只有幾千。最大的原因應(yīng)該是我們在這個上面已經(jīng)overfitting了,因?yàn)閐eep model就很容易o(hù)ver fitting,然后我們會思考這個數(shù)據(jù)集是不是太小了,稍微有一點(diǎn)就over fitting,我們是不是應(yīng)該解決的思路是這樣的?其實(shí)在要建更大數(shù)據(jù)庫之前,我們會想無參考里面還有什么沒解決的問題呢?雖然數(shù)據(jù)庫很小,大概有幾十個,怎么樣同時(shí)建一個unified model,比方說我就串一個lightwork,就一套參數(shù),我對這幾十個IQA date base它都表現(xiàn)很好,這就是一個非常值得研究的問題。解決思路也非常簡單,就是rank learning。因?yàn)锽lind Image Quality Assessment一開始大家都會認(rèn)為是一個regression problem,但我認(rèn)為rank learning才是BIQA的最終出路。

我可以補(bǔ)充一下有關(guān)rank learning的內(nèi)容,我在2017年的文章和2019年的文章都已經(jīng)是不同的人都可以建pair。我最近的一個文章也是向我剛剛提到的問題做的拓展,怎么樣從一個model,在幾十個data base,雖然這幾十個data base每一個都只有幾百張圖,表現(xiàn)都非常好,這是非常值得大家研究的問題,也希望你把這些問題給你的同伴,給你的實(shí)驗(yàn)室伙伴,讓他們加入到我們IQA的研究熱潮當(dāng)中。還有一點(diǎn)就是數(shù)據(jù)量小,除了把data base建大一點(diǎn),有沒有其他的方法解決?還有一個很好的思路,我現(xiàn)在是discriminative 地去train我的BIQA model,其實(shí)BIQA model是跟natural image compress緊密聯(lián)系在一起的,比如把image說成X,QX是X的質(zhì)量, PX是X出現(xiàn)的概率QX和PX之間是有非常大的聯(lián)系。當(dāng)把這個關(guān)系理順了之后,給BIQA一個判別式且生成式j(luò)oint的建模,這個生成式建模的很好的信息就能給判別式建模有很強(qiáng)的regularization。這個問題也是怎么樣unified去生成建模,也是我跟現(xiàn)在的實(shí)驗(yàn)室伙伴,跟我的學(xué)生一直在討論的問題,稍微有一點(diǎn)眉目,但是還是沒想清楚,也歡迎大家告訴實(shí)驗(yàn)室的小伙伴,加入到我們的IQA的科研熱潮當(dāng)中。

吳慶波:這個問題當(dāng)中非常大的難點(diǎn)其實(shí)就是涉及到data base,一方面是數(shù)據(jù)本身有一定的bias,還有一方面就是不同的數(shù)據(jù)集打分的標(biāo)準(zhǔn)也不一樣,rank這一方向是很好的思路。

議題4 圖像質(zhì)量評價(jià)的實(shí)際應(yīng)用情況如何?有哪些工業(yè)界亟待解決的圖像質(zhì)量評價(jià)需求?

徐邁:圖像質(zhì)量評價(jià)在圖像處理任務(wù)當(dāng)中非常常見,圖像壓縮、圖像質(zhì)量增強(qiáng)、超分辨等等,每一篇論文都會涉及到圖像質(zhì)量評價(jià)。因?yàn)樵谒膶?shí)踐里,必須得評估所提出的算法,在質(zhì)量方面的性能,比如PSNR、SSIM,或者V-MAF等這些質(zhì)量評價(jià)的方法。事實(shí)上圖像質(zhì)量評價(jià)是給圖像處理提供了一個評價(jià)的手段,但更重要的是提供了一個優(yōu)化的目標(biāo)。我們首先得知道圖像的處理要往什么方向走,處理出什么樣的圖像是人感覺質(zhì)量比較好的,跟原圖上差異比較小的,這種情況下才能夠發(fā)展圖像處理任務(wù),我發(fā)現(xiàn)在做圖像視頻壓縮的過程中,現(xiàn)在分辨率越來越高,用戶越來越多,帶寬受限所以必須得降碼率。降了碼率以后,如何保證圖像質(zhì)量,能夠讓人感知圖像的質(zhì)量比較好,就需要一些質(zhì)量評價(jià)方法。跟其他的主題不一樣,圖像質(zhì)量評價(jià)是非常非常重要的一個環(huán)節(jié)。威廉湯姆森熱力學(xué)之父、英國的皇家科學(xué)院院長曾經(jīng)說過:“如果你無法測量它的話,你就沒法提升它?!笨梢娫趫D像領(lǐng)域,尤其是low level的vision task上,圖像處理任務(wù)當(dāng)中,圖像質(zhì)量評價(jià)是非常重要的。

另外是在工業(yè)界的需求,事實(shí)上我們了解像愛奇藝、優(yōu)酷、騰訊等視頻內(nèi)容商,或基于視頻的互聯(lián)網(wǎng)商,每個公司都有自己的一套圖像質(zhì)量評價(jià)方法,優(yōu)化目標(biāo)來優(yōu)化他們的系統(tǒng),給用戶提供更好的服務(wù)?,F(xiàn)在包括在視頻壓縮用到移動互聯(lián)網(wǎng)上還有重要的一個概念叫窄帶高清,我們今年也跟一些互聯(lián)網(wǎng)公司合作做窄帶高清。所謂窄帶高清就是把帶寬降了,質(zhì)量依然保存甚至更好,這個就需要一個優(yōu)化的目標(biāo)來做,我們?nèi)绾谓荡a了以后讓質(zhì)量更好,這就涉及到圖像質(zhì)量評價(jià)。

關(guān)于非參考的質(zhì)量評價(jià)方法的用處或者難點(diǎn)這一問題,實(shí)際上做窄帶高清發(fā)現(xiàn),到后來客觀的質(zhì)量評價(jià)方法,包括有參考的質(zhì)量評價(jià)方法,PSNR到SSIM等已經(jīng)不重要了,重要的是人看起來好就可以了。很多時(shí)候我們做優(yōu)化,比如面向視覺優(yōu)化,通過一些后續(xù)的方法,例如顏色銳化等處理后,發(fā)現(xiàn)PSNR降20dB了,和原圖差異非常大,但是它的質(zhì)量反而變好了。所以有時(shí)候做視頻壓縮很有意思,碼率降了60%,但質(zhì)量比原圖還好了10%,這個就是應(yīng)用了一個非參考質(zhì)量評價(jià)方法作為優(yōu)化目標(biāo),來觀察圖像壓縮該往什么方向發(fā)展最后能夠達(dá)到比較好的效果。質(zhì)量評價(jià)無論是有參考的還是無參考的,它在工業(yè)界應(yīng)用空間是非常寬廣的。

吳慶波:謝謝徐老師給我們提到非常好的見解,尤其是了解到各個公司相應(yīng)的需求,這個對我們真正做理論研究有更好的指導(dǎo)方向。

李雷達(dá):和工業(yè)界的結(jié)合,我們現(xiàn)在做了很多IQA的文章,但和產(chǎn)業(yè)的結(jié)合還是弱項(xiàng)。實(shí)際生產(chǎn)生活里確實(shí)有很多應(yīng)用的需求,比如現(xiàn)在做手機(jī)的很需要能夠?qū)Τ上裣到y(tǒng)進(jìn)行性能做評估的方法,其核心還是質(zhì)量評估。最近幾年視頻直播非?;?。直播場景里作為內(nèi)容提供商,非常希望借助于質(zhì)量評估模型對直播過程中的用戶體驗(yàn)進(jìn)行實(shí)時(shí)監(jiān)測,包括流媒體的視頻質(zhì)量評估的需求,還有醫(yī)學(xué)影像方面也有很強(qiáng)的需求,從醫(yī)學(xué)成像到后期的醫(yī)學(xué)影像的診療分析都涉及到很多醫(yī)學(xué)質(zhì)量評估的分析。如果大家搜索質(zhì)量評價(jià)和醫(yī)學(xué)有關(guān)的文獻(xiàn),可以發(fā)現(xiàn)有不少是結(jié)合質(zhì)量評價(jià)的思路來做醫(yī)學(xué)圖像的分析或處理的。所以我認(rèn)為和這些業(yè)界的結(jié)合也是我們做質(zhì)量評價(jià)很重要的方向,因?yàn)槲覀冏鯥QA的最終目的還是要應(yīng)用到業(yè)界里去,所以我認(rèn)為后面的IQA研究也要更多地考慮業(yè)界的實(shí)際需求,我們相應(yīng)在算法設(shè)計(jì)、在測試手段上做調(diào)整,謝謝。

議題5 現(xiàn)有腦電信號EEG能為IQA的感知建模提供哪些幫助?腦電傳感器與計(jì)算模型,誰能成為解決IQA問題的終極答案?

徐邁:剛剛質(zhì)量評價(jià),包括金建這邊在建一個100萬的,我覺得非常震撼。但實(shí)際上圖像質(zhì)量評價(jià)建庫的難點(diǎn)或者預(yù)測的難點(diǎn)在于ground truth很難獲得。因?yàn)樗形ㄒ淮鸢?,圖像中的物體、分類甚至分隔、物理檢測,雖然在圖像質(zhì)量評價(jià)方面非常強(qiáng),但它的ground truth很難獲得。我們在做圖像質(zhì)量評價(jià)的實(shí)驗(yàn)當(dāng)中,發(fā)現(xiàn)人與人之間差異很多時(shí)候也來自于有些被測者并不一定專心,甚至可能走神了,或者就是為了賺參與的費(fèi)用,所以并沒有投入。如果拿不到這樣的MOS,或者拿不到圖像質(zhì)量評價(jià)的ground truth,未來再做這個事情就很難。這里EEG的形式就非常好,在做質(zhì)量評價(jià)同人的大腦通過傳感拿到底層的信息,通過EEG信號結(jié)合人的打分做出一個ground truth的設(shè)定,這樣有利于模型學(xué)習(xí)人的主觀質(zhì)量,保證學(xué)出來的有效性和真實(shí)性,我認(rèn)為EEG作為補(bǔ)充是非常重要的。第二點(diǎn), EEG的腦電信號分析已經(jīng)研究了很多年,通過對于人的底層信息的挖掘、借鑒,事實(shí)上也發(fā)現(xiàn)很多跟質(zhì)量評價(jià)相關(guān)的重要的區(qū)域和重要的反應(yīng)機(jī)理,因此我們在構(gòu)建模型的過程中,也可以結(jié)合人的機(jī)理來做一些先驗(yàn)知識和模型相結(jié)合,提高質(zhì)量評價(jià)模型的精度。當(dāng)然剛才說了兩者的關(guān)系,哪個是終極的,目前來說我們還是在一個數(shù)據(jù)驅(qū)動的時(shí)代,在一個deep learning的時(shí)代,所以EEG這種底層的分析有很長的路要走。目前看來EEG或者腦電信號的分析,還是模型算法的一個補(bǔ)充。但是未來不確定,比如30年后,甚至更長的時(shí)間,如果在底層視覺上有一些突破,或許能夠取代模型算法作為終極目標(biāo),謝謝。

吳慶波:謝謝徐老師分享想法和經(jīng)驗(yàn),因?yàn)楝F(xiàn)在包括一些類腦計(jì)算也是在機(jī)器學(xué)習(xí)領(lǐng)域里不斷在嘗試,不止是從算法層面找突破,sensor本身也是增強(qiáng)我們感知很重要的手段。

議題6  針對IQA的深度學(xué)習(xí)研究中,有哪些獨(dú)有的特點(diǎn)需要在深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建中特別關(guān)注?

王詩淇:我認(rèn)為可解釋性、魯棒性、cross dataset,testing這樣的性能首先是必須要滿足的,比如VGA模型為什么可以在質(zhì)量評價(jià)中發(fā)揮比較好的作用,有哪些可解釋性可以挖掘。另外我們也知道現(xiàn)在在natural image上train的,在screen content上,或者說artificial general content上,性能不是特別好,這樣的話它的泛化性不是特別好,如何解決泛化性。我想提出兩個看法,從做壓縮的角度來講怎么樣利用神經(jīng)網(wǎng)絡(luò)這樣的特性,因?yàn)楝F(xiàn)在有很多end-to-end compression model,它de-compress的image實(shí)際上是由神經(jīng)網(wǎng)絡(luò)生成的,而不是傳統(tǒng)的信號處理生成的。我們通過實(shí)驗(yàn)發(fā)現(xiàn),即使我們生成的圖像質(zhì)量很好,但是很多傳統(tǒng)的圖像質(zhì)量評價(jià)方法是不work的,包括PSNR,SSIM,傳統(tǒng)方法給出的分都很低?;谏疃壬窠?jīng)網(wǎng)絡(luò)進(jìn)行圖像質(zhì)量評價(jià)的方法,實(shí)際上能達(dá)到與人眼主觀感知非常不錯的擬合程度,從我們的主觀實(shí)驗(yàn)上來講是一個這樣的結(jié)果。所以就引出了一個quality 和fidelity的問題。我會從壓縮跟圖像質(zhì)量評價(jià)的結(jié)合談得多一點(diǎn),假如我們要壓一幅圖片,比如壓一只貓,在傳統(tǒng)壓縮的時(shí)候,在低碼率時(shí)很可能貓臉就已經(jīng)模糊掉了,已經(jīng)有blocking artifacts,有各種各樣的artifacts。實(shí)際上如果有了神經(jīng)網(wǎng)絡(luò)這樣的生成能力,我們可以生成一張貓臉,這張貓臉可能是很漂亮的。但是問題在于它可能就不是原先你想發(fā)送的那只貓臉。我們用一個No-Reference quality assignment去衡量,quality是很好的,但fidelity很差,這就是神經(jīng)網(wǎng)絡(luò)出現(xiàn)在圖像表示上的問題。從圖像表示的角度來講,這也是對圖像質(zhì)量評價(jià)提出了一個挑戰(zhàn),實(shí)際上很多task都是一個表示的問題。

回到圖像質(zhì)量評價(jià),怎么樣用圖像質(zhì)量評價(jià)很可靠地衡量用神經(jīng)網(wǎng)絡(luò)圖像表示得到的結(jié)果。其實(shí)人也是有這樣的問題,有的時(shí)候覺得quality蠻不錯的,但是fidelity不是特別好,這時(shí)候到底是trust quality還是trust fidelity。比如娛樂的時(shí)候就trust quality,但是真正在法庭上拿這張圖像的話一定要fidelity,因?yàn)榫幋a器一定要fidelity很好。所以我認(rèn)為如何保持quality 和fidelity這個問題是圖像質(zhì)量評價(jià)需要注意的。另外一個方面,傳統(tǒng)的MSE(mean-square error)以及一些方法被criticize的一個點(diǎn)是因?yàn)樗鼈儾皇窃谟趐erceptually uniform space,如何用神經(jīng)網(wǎng)絡(luò)構(gòu)建一個perceptually uniform space,這個uniform是指local的uniform,我認(rèn)為可以有一些inspiration的點(diǎn)。

吳慶波:好,謝謝詩淇老師帶給我們的分享。在coding這塊關(guān)于care置信度還是care質(zhì)量,相當(dāng)于也涉及到不同業(yè)務(wù)場景的研究特點(diǎn)。其他老師有想跟我們一起分享的想法和心得嗎?柯德老師可以簡單聊一下,我記得你之前做深度網(wǎng)絡(luò)里一個非常有意思的點(diǎn)就是在normalization這一塊,是把BN這一塊做了相應(yīng)的改進(jìn),專門還針對IQA這一塊做了相應(yīng)的分析。

馬柯德:簡單說一下,可能我的觀點(diǎn)非常bias,有什么特別值得關(guān)注的呢?模型一定要越小越好,能用三個convolution解決的問題,千萬別用四個convolution。因?yàn)槟P驮叫?,才更有可能是魯棒的模型。?dāng)然這說的很不確切,因?yàn)樵趺礃佣x魯棒,在什么樣的場景中定義魯棒,可以是很有趣的問題。當(dāng)模型參數(shù)越小的時(shí)候,你要依賴的可能就是pre-knowledge,就相當(dāng)于借助我的視覺系統(tǒng)的neural computation的了解,然后把computational models build到deep neural network當(dāng)中去。其實(shí)divisive normalization很有趣,我的博后導(dǎo)師Iris Charlie最近也提了一個Full Reference matrix,非常強(qiáng)調(diào)了要做divisive normalization,他堅(jiān)信下一個浪潮就是divisive normalization。他說第一個浪潮是linear transform或者現(xiàn)在說的convolution。下一個transform就是deep neural network。Deep neural network火起來的就是ReLU,他說有rectification,所以我有l(wèi)inear transform convolution之后,我要有rectification。他說有了rectification之后還不夠,我還要有divisive normalization。Divisive normalization好處是可以把不同dynamic range的信號拉到一個可以比較的range當(dāng)中,然后場景不同之后,可以拉到一個亮度進(jìn)行比較,這就可以構(gòu)造一個loss function,直接做high dynamic range compression,比如亮度是10萬candela 每立方米的場景,用顯示器亮度最多300,怎樣把一個自然場景很合理地顯示,就可以做這樣的一個東西。

吳慶波:一個在learning非常重要的點(diǎn),就是要通過控制model的complexity。一般情況下learning的一個基本原則是你希望讓model泛化性能越強(qiáng),就要求復(fù)雜度低一點(diǎn),就像我們常見的用低一點(diǎn)的linear model,要求擬合性能更高,可能模型復(fù)雜度更高一點(diǎn),這就是我們在研究當(dāng)中大家不同的側(cè)重相應(yīng)的思路。

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉