翁粗妇浪国产精品一区视频_日韩不卡一区二区三区在线_午夜av一级在线观看_制服丝袜自拍另类第1页_中文字幕欧美亚洲精品网站_一本色道久久综合网站_国产96在线免费视频播放网站_东京热中文字幕无码一二三区_欧美国产精品一区_无码不卡在线试看

成果速覽 | 面向極低碼率的概念壓縮

作者:常建慧 發(fā)表時(shí)間:2022-04-25 來源:PKUVCL(微信公眾號)

本文分享了來自北京大學(xué)馬思偉教授課題組的工作《Conceptual Compression via Deep Structure and Texture Synthesis》。該論文提出了一種新穎的概念壓縮框架,將視覺數(shù)據(jù)編碼為緊湊的結(jié)構(gòu)表示和紋理表示, 然后以深度合成方式解碼,旨在實(shí)現(xiàn)更好的視覺重建質(zhì)量,靈活的內(nèi)容操作以及對視覺任務(wù)的支持。針對該框架設(shè)計(jì)了相應(yīng)的編碼方案與生成網(wǎng)絡(luò)(HF-GAN),實(shí)驗(yàn)證明了所提框架能夠使用極低比特率實(shí)現(xiàn)更高的主觀重建質(zhì)量, 以及對內(nèi)容編輯與分析任務(wù)的支持。該工作已被TIP期刊接收。

圖1 概念壓縮框架概述。

引言

研究表明,人類視覺系統(tǒng)(HVS)通過將信息處理并整合成抽象的高級概念(例如,結(jié)構(gòu),紋理,語義)中來感知視覺內(nèi)容,這些概念構(gòu)成了后續(xù)認(rèn)知過程的基礎(chǔ)。從機(jī)器視覺的實(shí)際應(yīng)用中, 高級視覺概念也比信號級像素起著更重要的作用。現(xiàn)有的壓縮方法,包括傳統(tǒng)的基于塊的壓縮方法和基于深度學(xué)習(xí)的端到端編碼方法,主要集中在信號級冗余的建模和消除上, 而通過將視覺分解建模來完成壓縮任務(wù)的潛能尚待挖掘。而現(xiàn)有的關(guān)于概念壓縮的研究[1]試圖用一個(gè)潛在的向量捕獲圖像內(nèi)容,將不同的概念組成部分混合在一起表示,導(dǎo)致獲得的概念表示不具有可解釋性和可編輯性, 限制了其在下游圖像處理和機(jī)器視覺任務(wù)上的潛力。

方法簡介

在編碼端,本文通過邊緣檢測方法,提取邊緣圖作為結(jié)構(gòu)層表示??紤]到結(jié)構(gòu)圖的稀疏性和二值化,我們采用下采樣算法,進(jìn)一步減小了結(jié)構(gòu)層的數(shù)據(jù)量,并使用屏幕內(nèi)容編碼(SCC)將結(jié)構(gòu)層編碼為比特流。 在解碼端則需要反轉(zhuǎn)上述過程來恢復(fù)結(jié)構(gòu)圖。為了重新獲得原始分辨率的結(jié)構(gòu)圖,我們使用了超分辨率模型DBPN[2]對解碼的低分辨率結(jié)構(gòu)圖進(jìn)行上采樣。DBPN模型中使用的MSE損失對稀疏二進(jìn)制數(shù)據(jù)的波動(dòng)不敏感, 導(dǎo)致重建邊緣的顯著失真。為了提高以稀疏和二元邊為特征的邊緣圖像的超分質(zhì)量,本文采用二元交叉熵(BCE)損失訓(xùn)練DBPN模型。

圖像紋理提取器則基于變分自動(dòng)編碼器設(shè)計(jì),由幾個(gè)殘差塊和卷積層構(gòu)成,它將輸入圖像I建模為后驗(yàn)多元高斯分布, 紋理表示從后驗(yàn)分布中使用重參方法采樣得到。隨后通過標(biāo)量量化和熵編碼進(jìn)一步壓縮提取的紋理離散表示。

在圖像合成方面,本文設(shè)計(jì)的生成器如下圖所示,逐步提高合成特征圖的分辨率。生成器由殘差塊組成,并含有跳層連接和分層融合。每個(gè)殘差塊包括三個(gè)全卷積層。結(jié)構(gòu)圖作為每個(gè)殘差塊的新輸入連接到特征圖。 最后,通過將不同分辨率的RGB上采樣并求和來獲得目標(biāo)圖像。

圖2 生成網(wǎng)絡(luò)架構(gòu)

在目標(biāo)函數(shù)上,紋理編碼器與圖像生成器引入一個(gè)多尺度判別器以端到端方式進(jìn)行聯(lián)合訓(xùn)練。如圖3所示,圖像壓縮和重建任務(wù)主要針對三種類型的損失進(jìn)行優(yōu)化:1)旨在提高重建視覺質(zhì)量和保真度的重建損失, 包括像素?fù)p失、感知損失和對抗損失等不同層次的失真約束; 2)為紋理表示提供先驗(yàn)分布約束的KL散度;3)以及約束隱空間與合成紋理內(nèi)容的回歸損失。

圖3 損失函數(shù)

實(shí)驗(yàn)

本文在三個(gè)內(nèi)容特性不同的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),測試所提框架的可行性,包括單目標(biāo)圖像edges2shoes&edges2handbags,人臉數(shù)據(jù)集CelebA-HQ和收集的以季節(jié)為主的自然場景數(shù)據(jù)集。所有圖像的分辨率都調(diào)整為256×256。 本項(xiàng)工作與八種最先進(jìn)方法進(jìn)行了比較,涵蓋了經(jīng)典的圖像編碼格式JPEG、JPEG2000、BPG、視頻編碼標(biāo)準(zhǔn)VVC (VTM參考軟件),主觀優(yōu)化的VVC(VTM+QPA),以及多個(gè)神經(jīng)網(wǎng)絡(luò)圖像壓縮模型, 定量感知質(zhì)量評估指標(biāo)采用LPIPS與DISTS。實(shí)驗(yàn)結(jié)果展示本文方法能在極低碼率條件(<0.1 bpp)下實(shí)現(xiàn)比其他方法更高的視覺重建質(zhì)量。除此之外,我們還在解碼圖像的特征點(diǎn)檢測實(shí)驗(yàn)中驗(yàn)證了所提方法在圖像分析任務(wù)中的優(yōu)勢。

圖4 提供了本文方法與BPG和VVC的R-D壓縮性能。LPIPS的分?jǐn)?shù)越低,感知質(zhì)量越好。 圖5 提出方法與VVC的平均意見得分(MOS)。分?jǐn)?shù)越高,主觀重建質(zhì)量越好。

特別地,在提出的概念壓縮框架中,圖像被明確地分離到結(jié)構(gòu)域和紋理域,并在解碼端合成目標(biāo)圖像。結(jié)構(gòu)和紋理表示既充當(dāng)原始幀數(shù)據(jù),又充當(dāng)可編輯的視覺特征。得益于視覺組件的解耦和合成范式的學(xué)習(xí), 生成器能夠按照任意結(jié)構(gòu)圖的逐步渲染給定紋理。因此,除了高效壓縮外,所提出的框架還可以通過編輯結(jié)構(gòu)和紋理表示應(yīng)用于圖像處理任務(wù)。

圖6 結(jié)構(gòu)圖引導(dǎo)的圖像編輯結(jié)果。以用戶交互式等方式編輯結(jié)構(gòu)圖,模型可以靈活地渲染紋理圖層以適應(yīng)更新的結(jié)構(gòu)圖的布局和形狀。

討論

與基于信號變換的傳統(tǒng)編碼和端到端編碼不同,目前本文所提出的框架的實(shí)現(xiàn)依賴深度生成模型,以數(shù)據(jù)驅(qū)動(dòng)的方式捕獲訓(xùn)練數(shù)據(jù)域的紋理分布,學(xué)習(xí)圖像紋理表示。因此,紋理表示可以在具有與訓(xùn)練域相似分布的圖像上進(jìn)行推廣。 然而,受訓(xùn)練集的影響,當(dāng)應(yīng)用于語義差距較大的數(shù)據(jù)集時(shí),原模型可能無法生成預(yù)期紋理。因此提高模型泛化能力具有相當(dāng)大的意義,在這方面仍有許多工作要做。一方面,我們可以基于域泛化算法提高模型泛化能力, 從而可以有效地壓縮來自不同目標(biāo)域的數(shù)據(jù)。另一方面,我們也可以將來自不同內(nèi)容域的模型集成為更通用的編解碼器,在應(yīng)用時(shí)將需要壓縮的圖像分類到特定的域中,然后選擇相應(yīng)的模型進(jìn)行壓縮。 比特流由圖像的結(jié)構(gòu)紋理表示以及編解碼器子模型索引組成,從而有效地解碼圖像。

更多的方法及實(shí)驗(yàn)分析與討論的細(xì)節(jié)請參考原文。
論文地址為:https://ieeexplore.ieee.org/document/9738839。

參考文獻(xiàn)

[1] Karol Gregor, Frederic Besse, Danilo Jimenez Rezende, Ivo Danihelka, and Daan Wierstra, “Towards conceptual compression,” in Advances in Neural Information Processing Systems (NIPS), 2016, pp. 3549–3557.

[2] Muhammad Haris, Gregory Shakhnarovich, and Norimichi Ukita, “Deep back-projection networks for super-resolution,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 1664–1673.

原文鏈接