好看的小说完本推荐,完美世界有声小说全集

成果速覽 | CVPR2022 高分辨率視頻預(yù)測(cè)

作者：常崢發(fā)表時(shí)間：2022-04-18 來(lái)源：PKUVCL（微信公眾號(hào)）

不同方法在SJTU4K數(shù)據(jù)集上的預(yù)測(cè)樣例，4幀預(yù)測(cè)1幀

本文是CVPR 2022入選論文《STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution Video Prediction》的解讀。該論文由北京大學(xué)馬思偉課題組完成，針對(duì)視頻預(yù)測(cè)領(lǐng)域高分辨率視頻預(yù)測(cè)的難點(diǎn)問(wèn)題，提出了一個(gè)輕量級(jí)的時(shí)空差分預(yù)測(cè)模型。實(shí)驗(yàn)證明，本文所提出的方法在預(yù)測(cè)高分辨視頻時(shí)優(yōu)勢(shì)明顯，用較少的計(jì)算復(fù)雜度實(shí)現(xiàn)了較高的模型性能。

論文地址：https://arxiv.org/pdf/2203.16084.pdf

引言

高分辨率視頻預(yù)測(cè)問(wèn)題一直以來(lái)都是視頻預(yù)測(cè)領(lǐng)域的難點(diǎn)問(wèn)題。和低分辨率視頻相比，高分辨率視頻的每一幀包含著極為復(fù)雜的空間特征，并且?guī)c幀之間的運(yùn)動(dòng)信息也通常會(huì)涉及到多個(gè)運(yùn)動(dòng)物體，模式更為復(fù)雜。直觀上來(lái)說(shuō)，高分辨率視頻的時(shí)空結(jié)構(gòu)具有明顯的高維特性。為節(jié)省計(jì)算量，現(xiàn)有的視頻預(yù)測(cè)算法在時(shí)空預(yù)測(cè)之前通常會(huì)把高維數(shù)據(jù)壓縮到低維特征，但是這種特征提取的過(guò)程會(huì)把高分辨率視頻中很多有用的時(shí)空信息進(jìn)行丟棄，導(dǎo)致最后重建的視頻幀的先驗(yàn)信息不足，無(wú)法重建出比較滿意的結(jié)果。

高分辨率視頻預(yù)測(cè)的關(guān)鍵在于是否可以保留足夠多的時(shí)空信息用于高維數(shù)據(jù)空間重建。一個(gè)比較簡(jiǎn)單的保留信息的方式是提高編碼特征的維度，但是這會(huì)極大增加預(yù)測(cè)模型的計(jì)算量，影響模型的效率。為解決這個(gè)問(wèn)題，本文提出了一個(gè)時(shí)空殘差預(yù)測(cè)模型（Spatiotemporal Residual Predictive Model， STRPM），從兩方面對(duì)高分辨視頻的時(shí)空內(nèi)容進(jìn)行高效保護(hù)：

1.在特征提取過(guò)程中，本節(jié)使用多個(gè)編碼器在時(shí)域和空域上對(duì)輸入的高維視頻幀分別進(jìn)行獨(dú)立的特征提取操作，在送入到預(yù)測(cè)單元之前，盡可能避免時(shí)空信息之間的相互擾亂，盡可能在特征提取過(guò)程中保護(hù)高維空域信息。同時(shí)和其他方法相比，所提出的方法提取的特征維度較低，雖然使用了多個(gè)編碼器，但是總體的計(jì)算量仍然優(yōu)于傳統(tǒng)方法，提取到的低維度時(shí)空特征隨后會(huì)被送入到預(yù)測(cè)單元之中。由于高分辨率視頻幀背景內(nèi)容的運(yùn)動(dòng)信息可以忽略不計(jì)，因此我們?cè)O(shè)計(jì)了一種新型的輕量級(jí)殘差預(yù)測(cè)單元（Residual Predictive Memory， RPM）來(lái)著重預(yù)測(cè)幀間的殘差信息，冗余的背景信息則直接通過(guò)殘差連接進(jìn)行重建，這樣做的目的是集中所有的計(jì)算量和參數(shù)建模最為重要的幀間殘差信息，在時(shí)空預(yù)測(cè)過(guò)程中極大程度地保護(hù)高分辨視頻的高維時(shí)域信息。同時(shí)由于 RPM 的不同模塊將會(huì)收到經(jīng)過(guò)不同編碼器編碼的低維度特征，因此 RPM 可以對(duì)不同的編碼器進(jìn)行監(jiān)督，使它們可以真正地提取到時(shí)域和空域上的有用特征。

2.在數(shù)據(jù)重建過(guò)程中，本節(jié)所提出的方法選用基于生成對(duì)抗網(wǎng)絡(luò)（GAN）的概率性預(yù)測(cè)方法。雖然本文采用的特征提取機(jī)制和時(shí)空預(yù)測(cè)機(jī)制可以極大程度上為高分辨率視頻在時(shí)空域上進(jìn)行信息保護(hù)，但是仍然有或多或少的信息在特征提取過(guò)程中會(huì)被丟棄，因此為進(jìn)一步提高重建幀地視覺(jué)質(zhì)量，本節(jié)借助于GAN強(qiáng)大的數(shù)據(jù)生成能力對(duì)高分辨視頻的紋理細(xì)節(jié)進(jìn)行動(dòng)態(tài)補(bǔ)全。由于 GAN 引入的判別性損失會(huì)增大生成幀和真實(shí)幀之間的客觀損失，如 MSE， MAE 等，為了縮小主觀質(zhì)量和客觀質(zhì)量之間的差距，本節(jié)將 GAN 中判別器中間層的特征作為每一幀視頻的感知表征信息，通過(guò)優(yōu)化生成幀和真實(shí)幀之間感知表征信息的差距，在保證視頻幀內(nèi)容真實(shí)性的基礎(chǔ)上盡可能提高客觀性能指標(biāo)。

方法簡(jiǎn)介

本文所提出的時(shí)空殘差預(yù)測(cè)模型的基本框架如圖1所示。

圖2 時(shí)空殘差預(yù)測(cè)模型整體框架

為保護(hù)高分辨率視頻的高維空域信息，本文采用多個(gè)編碼器在時(shí)空域上分別進(jìn)行特征提取，減少信息相互干擾的同時(shí)提高信息利用率，具體特征提取過(guò)程如下所示，

經(jīng)過(guò)以上方式提取的特征將會(huì)被輸入到本文所提出的輕量級(jí)殘差預(yù)測(cè)單元（Residual Predictive Memory， RPM）的不同模塊之中，這種信息傳遞形式也會(huì)對(duì)不同編碼器進(jìn)行監(jiān)督，使它們可以提取到不同域上的特征， RPM 的詳細(xì)結(jié)構(gòu)將會(huì)在下文中詳細(xì)介紹。經(jīng)過(guò) RPM 的時(shí)空建模，未來(lái)視頻幀的低維時(shí)空特征表現(xiàn)為如下形式，

和時(shí)空編碼過(guò)程類似，預(yù)測(cè)出的時(shí)空特征將會(huì)被獨(dú)立地解碼到高維空間，如下所示，

借助于傳統(tǒng) ST-LSTM[1]輸出模塊融合時(shí)空狀態(tài)的過(guò)程，解碼出的高維時(shí)空特征將會(huì)被融合為最終的高分辨率預(yù)測(cè)幀：

本文所提出的殘差預(yù)測(cè)單元RPM的具體結(jié)構(gòu)如圖2所示

圖2 時(shí)空殘差預(yù)測(cè)單元（RPM）

如上所示首先輸入預(yù)測(cè)單元的輸入將會(huì)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取，如下所示，

隨后RPM中的兩個(gè)門結(jié)構(gòu)負(fù)責(zé)建模時(shí)空殘差信息，分別為時(shí)域殘差門和空域殘差門，

以上定義的兩個(gè)殘差門將會(huì)負(fù)責(zé)建模下面的時(shí)空殘差信息T和S，

最終的輸出狀態(tài)H將由時(shí)空殘差信息STRF和時(shí)空輸入信息STIF共同決定,

另外在訓(xùn)練過(guò)程中，為了使模型可以為高分辨率視頻幀生成較為真實(shí)的紋理細(xì)節(jié)，本文同時(shí)引入判別式損失和確定式損失。但是由于判別式損失和確定式損失如 MSE 等會(huì)相互影響，并會(huì)導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定。本文額外引入了一個(gè)可以進(jìn)行動(dòng)態(tài)學(xué)習(xí)的感知損失。由于 GAN 中的判別器可以判斷生成內(nèi)容的真假情況，因此本節(jié)將判別器中間層輸出的特征定義為當(dāng)前視頻幀的感知表征，預(yù)測(cè)值和真實(shí)值的感知表征距離便是本文提出的新型感知損失：

最終總的損失函數(shù)如下所示，

實(shí)驗(yàn)結(jié)果

本節(jié)在三個(gè)分辨率較高的數(shù)據(jù)集上測(cè)試所提出方法的性能和可行性。第一個(gè)數(shù)據(jù)集為 UCF Sports 數(shù)據(jù)集，分辨率為720×480。第二個(gè)數(shù)據(jù)集為 Human3.6M 數(shù)據(jù)集，分辨率為1000×1000。第三個(gè)數(shù)據(jù)集為 SJTU4K 數(shù)據(jù)集，分辨率為3840×2160。

表1中統(tǒng)計(jì)了不同方法在 UCF Sport 數(shù)據(jù)集和 Human3.6M數(shù)據(jù)集上的客觀指標(biāo) PSNR 和主觀指標(biāo) LPIPS 表現(xiàn)情況。其中 PSNR 越高顯示客觀質(zhì)量越好，LPIPS 約小，顯示主觀質(zhì)量越好?？梢钥闯鏊岢龅姆椒ㄔ诮８呔S數(shù)據(jù)方面有著明顯的優(yōu)勢(shì)。

表1 不同方法在 UCF Sports 數(shù)據(jù)集和 Human3.6M 數(shù)據(jù)集上的客觀性能指標(biāo)和主觀性能指標(biāo)情況。

表2統(tǒng)計(jì)了不同參考模型的計(jì)算復(fù)雜度和參數(shù)量信息，可以看出本文所提出的 RPM 預(yù)測(cè)單元以最小的計(jì)算復(fù)雜度實(shí)現(xiàn)了最優(yōu)的性能。同時(shí) RPM 所特有的殘差結(jié)構(gòu)可以明顯提高模型性能。并且時(shí)空編解碼機(jī)制也可以有效保護(hù)高分辨率視頻的空域信息。

表2 模型效率參數(shù)統(tǒng)計(jì)表。測(cè)試數(shù)據(jù)集為 Human3.6M，測(cè)試條件為 4 幀預(yù)測(cè) 4 幀。所有模型的編碼器和解碼器結(jié)構(gòu)都相同，并且所有的預(yù)測(cè)單元隱藏通道數(shù)都為 128，預(yù)測(cè)單元數(shù)量為 16。所有模型都只使用 MSE 損失函數(shù)進(jìn)行訓(xùn)練。

表3總結(jié)了不同方法在4K 視頻預(yù)測(cè)場(chǎng)景上的性能指標(biāo)表現(xiàn)和復(fù)雜度表現(xiàn)，可以看出本文所提出的高分辨率視頻預(yù)測(cè)框架在性能和計(jì)算法復(fù)雜度上均取得了較好的表現(xiàn)。

表3 不同方法在 SJTU4K 數(shù)據(jù)集上的客觀性能指標(biāo)和主觀性能指標(biāo)情況

表4統(tǒng)計(jì)了不同訓(xùn)練方式對(duì)模型性能的影響，可以看出本節(jié)所提出的感知損失可以有效幫助預(yù)測(cè)算法在主觀指標(biāo) LPIPS 和客觀指標(biāo) MSE 之間達(dá)到一個(gè)合理的均衡。

表4 模型在不同訓(xùn)練方法下的性能表現(xiàn)

更多方法實(shí)驗(yàn)細(xì)節(jié)詳見(jiàn)原論文。

參考文獻(xiàn)

[1] Wang Y, Long M, Wang J, et al. Predrnn: Recurrent neural networks for predictive learningusing spatiotemporal lstms [C]//Advances in Neural Information Processing Systems. 2017:879-888.

[2] Yu W, Lu Y, Easterbrook S, et al. Efficient and information-preserving future frame prediction and beyond [C]//International Conference on Learning Representations. 2019.

[3] Wang Y, Jiang L, Yang M H, et al. Eidetic 3d lstm: A model for video prediction and beyond[C]//International Conference on Learning Representations. 2019.

原文鏈接

上一篇：成果速覽 | 首個(gè)基于FPGA的4K超高清端到端智能視頻壓縮系統(tǒng)

下一篇：成果速覽 | CVPR2022 樣本自適應(yīng)量化方法