本文是CVPR 2022入選論文《STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution Video Prediction》的解讀。 該論文由北京大學(xué)馬思偉課題組完成,針對(duì)視頻預(yù)測(cè)領(lǐng)域高分辨率視頻預(yù)測(cè)的難點(diǎn)問(wèn)題,提出了一個(gè)輕量級(jí)的時(shí)空差分預(yù)測(cè)模型。 實(shí)驗(yàn)證明,本文所提出的方法在預(yù)測(cè)高分辨視頻時(shí)優(yōu)勢(shì)明顯,用較少的計(jì)算復(fù)雜度實(shí)現(xiàn)了較高的模型性能。
成果速覽 | CVPR2022 高分辨率視頻預(yù)測(cè)
引言
高分辨率視頻預(yù)測(cè)問(wèn)題一直以來(lái)都是視頻預(yù)測(cè)領(lǐng)域的難點(diǎn)問(wèn)題。和低分辨率視頻相比,高分辨率視頻的每一幀包含著極為復(fù)雜的空間特征,并且?guī)c幀之間的運(yùn)動(dòng)信息也通常會(huì)涉及到多個(gè)運(yùn)動(dòng)物體,模式更為復(fù)雜。 直觀上來(lái)說(shuō),高分辨率視頻的時(shí)空結(jié)構(gòu)具有明顯的高維特性。為節(jié)省計(jì)算量,現(xiàn)有的視頻預(yù)測(cè)算法在時(shí)空預(yù)測(cè)之前通常會(huì)把高維數(shù)據(jù)壓縮到低維特征,但是這種特征提取的過(guò)程會(huì)把高分辨率視頻中很多有用的時(shí)空信息進(jìn)行丟棄, 導(dǎo)致最后重建的視頻幀的先驗(yàn)信息不足,無(wú)法重建出比較滿意的結(jié)果。
高分辨率視頻預(yù)測(cè)的關(guān)鍵在于是否可以保留足夠多的時(shí)空信息用于高維數(shù)據(jù)空間重建。一個(gè)比較簡(jiǎn)單的保留信息的方式是提高編碼特征的維度,但是這會(huì)極大增加預(yù)測(cè)模型的計(jì)算量,影響模型的效率。 為解決這個(gè)問(wèn)題,本文提出了一個(gè)時(shí)空殘差預(yù)測(cè)模型(Spatiotemporal Residual Predictive Model, STRPM),從兩方面對(duì)高分辨視頻的時(shí)空內(nèi)容進(jìn)行高效保護(hù):
1.在特征提取過(guò)程中,本節(jié)使用多個(gè)編碼器在時(shí)域和空域上對(duì)輸入的高維視頻幀分別進(jìn)行獨(dú)立的特征提取操作,在送入到預(yù)測(cè)單元之前,盡可能避免時(shí)空信息之間的相互擾亂,盡可能在特征提取過(guò)程中保護(hù)高維空域信息。 同時(shí)和其他方法相比,所提出的方法提取的特征維度較低,雖然使用了多個(gè)編碼器,但是總體的計(jì)算量仍然優(yōu)于傳統(tǒng)方法,提取到的低維度時(shí)空特征隨后會(huì)被送入到預(yù)測(cè)單元之中。由于高分辨率視頻幀背景內(nèi)容的運(yùn)動(dòng)信息可以忽略不計(jì), 因此我們?cè)O(shè)計(jì)了一種新型的輕量級(jí)殘差預(yù)測(cè)單元(Residual Predictive Memory, RPM)來(lái)著重預(yù)測(cè)幀間的殘差信息,冗余的背景信息則直接通過(guò)殘差連接進(jìn)行重建,這樣做的目的是集中所有的計(jì)算量和參數(shù)建模最為重要的幀間殘差信息, 在時(shí)空預(yù)測(cè)過(guò)程中極大程度地保護(hù)高分辨視頻的高維時(shí)域信息。同時(shí)由于 RPM 的不同模塊將會(huì)收到經(jīng)過(guò)不同編碼器編碼的低維度特征,因此 RPM 可以對(duì)不同的編碼器進(jìn)行監(jiān)督,使它們可以真正地提取到時(shí)域和空域上的有用特征。
2.在數(shù)據(jù)重建過(guò)程中,本節(jié)所提出的方法選用基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的概率性預(yù)測(cè)方法。雖然本文采用的特征提取機(jī)制和時(shí)空預(yù)測(cè)機(jī)制可以極大程度上為高分辨率視頻在時(shí)空域上進(jìn)行信息保護(hù),但是仍然有或多或少的信息在特征提取過(guò)程中會(huì)被丟棄, 因此為進(jìn)一步提高重建幀地視覺(jué)質(zhì)量,本節(jié)借助于GAN強(qiáng)大的數(shù)據(jù)生成能力對(duì)高分辨視頻的紋理細(xì)節(jié)進(jìn)行動(dòng)態(tài)補(bǔ)全。由于 GAN 引入的判別性損失會(huì)增大生成幀和真實(shí)幀之間的客觀損失,如 MSE, MAE 等,為了縮小主觀質(zhì)量和客觀質(zhì)量之間的差距, 本節(jié)將 GAN 中判別器中間層的特征作為每一幀視頻的感知表征信息,通過(guò)優(yōu)化生成幀和真實(shí)幀之間感知表征信息的差距,在保證視頻幀內(nèi)容真實(shí)性的基礎(chǔ)上盡可能提高客觀性能指標(biāo)。
方法簡(jiǎn)介
本文所提出的時(shí)空殘差預(yù)測(cè)模型的基本框架如圖1所示。
為保護(hù)高分辨率視頻的高維空域信息,本文采用多個(gè)編碼器在時(shí)空域上分別進(jìn)行特征提取,減少信息相互干擾的同時(shí)提高信息利用率,具體特征提取過(guò)程如下所示,
經(jīng)過(guò)以上方式提取的特征將會(huì)被輸入到本文所提出的輕量級(jí)殘差預(yù)測(cè)單元(Residual Predictive Memory, RPM)的不同模塊之中, 這種信息傳遞形式也會(huì)對(duì)不同編碼器進(jìn)行監(jiān)督,使它們可以提取到不同域上的特征, RPM 的詳細(xì)結(jié)構(gòu)將會(huì)在下文中詳細(xì)介紹。經(jīng)過(guò) RPM 的時(shí)空建模,未來(lái)視頻幀的低維時(shí)空特征表現(xiàn)為如下形式,
和時(shí)空編碼過(guò)程類似,預(yù)測(cè)出的時(shí)空特征將會(huì)被獨(dú)立地解碼到高維空間,如下所示,
借助于傳統(tǒng) ST-LSTM[1]輸出模塊融合時(shí)空狀態(tài)的過(guò)程,解碼出的高維時(shí)空特征將會(huì)被融合為最終的高分辨率預(yù)測(cè)幀:
本文所提出的殘差預(yù)測(cè)單元RPM的具體結(jié)構(gòu)如圖2所示
如上所示首先輸入預(yù)測(cè)單元的輸入將會(huì)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,如下所示,
隨后RPM中的兩個(gè)門結(jié)構(gòu)負(fù)責(zé)建模時(shí)空殘差信息,分別為時(shí)域殘差門和空域殘差門,
以上定義的兩個(gè)殘差門將會(huì)負(fù)責(zé)建模下面的時(shí)空殘差信息T和S,
最終的輸出狀態(tài)H將由時(shí)空殘差信息STRF和時(shí)空輸入信息STIF共同決定,
另外在訓(xùn)練過(guò)程中,為了使模型可以為高分辨率視頻幀生成較為真實(shí)的紋理細(xì)節(jié),本文同時(shí)引入判別式損失和確定式損失。但是由于判別式損失和確定式損失如 MSE 等會(huì)相互影響,并會(huì)導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定。 本文額外引入了一個(gè)可以進(jìn)行動(dòng)態(tài)學(xué)習(xí)的感知損失。由于 GAN 中的判別器可以判斷生成內(nèi)容的真假情況,因此本節(jié)將判別器中間層輸出的特征定義為當(dāng)前視頻幀的感知表征,預(yù)測(cè)值和真實(shí)值的感知表征距離便是本文提出的新型感知損失:
最終總的損失函數(shù)如下所示,
實(shí)驗(yàn)結(jié)果
本節(jié)在三個(gè)分辨率較高的數(shù)據(jù)集上測(cè)試所提出方法的性能和可行性。第一個(gè)數(shù)據(jù)集為 UCF Sports 數(shù)據(jù)集,分辨率為720×480。第二個(gè)數(shù)據(jù)集為 Human3.6M 數(shù)據(jù)集,分辨率為1000×1000。第三個(gè)數(shù)據(jù)集為 SJTU4K 數(shù)據(jù)集,分辨率為3840×2160。
表1中統(tǒng)計(jì)了不同方法在 UCF Sport 數(shù)據(jù)集和 Human3.6M數(shù)據(jù)集上的客觀指標(biāo) PSNR 和主觀指標(biāo) LPIPS 表現(xiàn)情況。其中 PSNR 越高顯示客觀質(zhì)量越好,LPIPS 約小,顯示主觀質(zhì)量越好??梢钥闯鏊岢龅姆椒ㄔ诮8呔S數(shù)據(jù)方面有著明顯的優(yōu)勢(shì)。
表2統(tǒng)計(jì)了不同參考模型的計(jì)算復(fù)雜度和參數(shù)量信息,可以看出本文所提出的 RPM 預(yù)測(cè)單元以最小的計(jì)算復(fù)雜度實(shí)現(xiàn)了最優(yōu)的性能。同時(shí) RPM 所特有的殘差結(jié)構(gòu)可以明顯提高模型性能。并且時(shí)空編解碼機(jī)制也可以有效保護(hù)高分辨率視頻的空域信息。
表3總結(jié)了不同方法在4K 視頻預(yù)測(cè)場(chǎng)景上的性能指標(biāo)表現(xiàn)和復(fù)雜度表現(xiàn),可以看出本文所提出的高分辨率視頻預(yù)測(cè)框架在性能和計(jì)算法復(fù)雜度上均取得了較好的表現(xiàn)。
表4統(tǒng)計(jì)了不同訓(xùn)練方式對(duì)模型性能的影響,可以看出本節(jié)所提出的感知損失可以有效幫助預(yù)測(cè)算法在主觀指標(biāo) LPIPS 和客觀指標(biāo) MSE 之間達(dá)到一個(gè)合理的均衡。
更多方法實(shí)驗(yàn)細(xì)節(jié)詳見(jiàn)原論文。
參考文獻(xiàn)
[1] Wang Y, Long M, Wang J, et al. Predrnn: Recurrent neural networks for predictive learningusing spatiotemporal lstms [C]//Advances in Neural Information Processing Systems. 2017:879-888.
[2] Yu W, Lu Y, Easterbrook S, et al. Efficient and information-preserving future frame prediction and beyond [C]//International Conference on Learning Representations. 2019.
[3] Wang Y, Jiang L, Yang M H, et al. Eidetic 3d lstm: A model for video prediction and beyond[C]//International Conference on Learning Representations. 2019.