導語
本文分享了來自北京大學計算機學院視頻與視覺技術國家工程研究中心馬思偉教授團隊的最新成果《FPX-NIC: An FPGA-Accelerated 4K Ultra-high-definition (UHD) Neural Video Coding System》。
團隊在端到端視頻編碼算法及其硬件系統(tǒng)設計的取得了顯著進展,研究了全神經(jīng)網(wǎng)絡智能視頻編碼算法,提出了一種全新的端到端視頻編碼模型,構建了首個面向4K超高清的全神經(jīng)網(wǎng)絡硬件編碼系統(tǒng)(FPX-NIC),
分析了該智能視頻編碼系統(tǒng)的壓縮效率、功耗開銷和系統(tǒng)特性。FPX-NIC系統(tǒng)為全神經(jīng)網(wǎng)絡視頻編碼算法研究和實際落地應用做出了重要探索。
一、研究背景
當前“5G+超高清+人工智能”等新技術引發(fā)了新一輪重大原始創(chuàng)新,視頻編碼作為其中的核心研究主題之一正在發(fā)生深刻變革,朝著智能化(intelligent)、多樣化(versatile)和可定制化(configurable)的方向邁進。
2020年11月3日,中共中央發(fā)布《關于制定國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和二〇三五年遠景目標的建議》,明確指出要針對人工智能、集成電路等前沿領域?;谏窠?jīng)網(wǎng)絡技術的端到端視頻編碼作為視頻大數(shù)據(jù)與人工智能的前沿交叉重點研究領域,
從算法、模型、實現(xiàn)等多個層面打破了現(xiàn)有視頻編碼研究思路,建立了全新的研究范式。
端到端編碼旨在建立以全局率失真優(yōu)化為目標的神經(jīng)網(wǎng)絡結(jié)構,訓練高度非線性模型實現(xiàn)信號保真測度下的最優(yōu)緊湊表示。在這個問題上,近年來提出的方法通常從復雜網(wǎng)絡模型設計,高階熵模型等角度切入,
大幅提升了模型壓縮效率,率失真性能超越了傳統(tǒng)基于規(guī)則設計的混合編碼方法。現(xiàn)有方法通?;谌忠恢滦约僭O、忽略了圖像局部的紋理變化,缺乏內(nèi)容自適應性,且對硬件智能編碼方法和系統(tǒng)研究的探索不足。
二、方法
本文提出了一種高效基于分塊壓縮的端到端圖像壓縮網(wǎng)絡,包括分塊壓縮(Block partition),自適應歸一化(Adaptive normalization),主變換(Main transform),超先驗變換(Hyper transform)以及塊融合網(wǎng)絡(Block fusion network)模塊。
主變換采用了經(jīng)典的全卷積網(wǎng)絡和殘差塊結(jié)構,參數(shù)量少、易于訓練,超先驗變換以及熵模型的網(wǎng)絡結(jié)構如圖1所示。
圖1 超先驗網(wǎng)絡結(jié)構以及基于自回歸模型的上下文模型網(wǎng)絡
塊融合網(wǎng)絡能夠有效抑制分塊壓縮導致的壓縮效應,提升重建視頻圖像的主客觀質(zhì)量。此外,針對壓縮網(wǎng)絡訓練過程,提出了兩步優(yōu)化方法,該方法消除了網(wǎng)絡訓練和網(wǎng)絡測試不一致導致的系統(tǒng)性偏差,實現(xiàn)了顯著壓縮性能提升。
文章還設計實現(xiàn)了神經(jīng)網(wǎng)絡編碼器部署框架,支持從網(wǎng)絡模型訓練到邊緣計算設備部署的全流程自動化處理,框架如圖2所示。
圖2 兩階段全流程神經(jīng)網(wǎng)絡編碼器部署框架
三、系統(tǒng)研究
搭建了首個支持4K超高清全幀內(nèi)模式的端到端視頻壓縮系統(tǒng)原型(FPX-NIC),包括超高清采集(UHD video capture)、神經(jīng)網(wǎng)絡編碼壓縮(Neural codecs)以及解碼顯示(Decode and display)等組件。
經(jīng)過訓練和部署的網(wǎng)絡權重被部署于可重構的硬件計算單元中,實現(xiàn)了從視頻采集到終端顯示的端到端視頻壓縮,系統(tǒng)示意圖見圖3。
圖3 FPX-NIC 4K超高清端到端視頻編碼系統(tǒng)
四、實驗對比與系統(tǒng)特性
文章在端到端圖像壓縮領域廣泛采用的多個數(shù)據(jù)集上進行了實驗對比,包括Kodak數(shù)據(jù)集、Tecnik數(shù)據(jù)集和CLIC 2020 Professional Testset數(shù)據(jù)集。分別使用峰值信噪比(PSNR)和多尺度結(jié)構損失(MS-SSIM)作為失真度量,
碼率單位是每個像素所需要的比特數(shù)(Bit-per-pixel,bpp)。本項工作與八種最先進方法進行了比較,涵蓋了經(jīng)典的圖像編碼格式JPEG、JPEG2000、BPG、視頻編碼標準參考軟件HM和VTM以及多個神經(jīng)網(wǎng)絡圖像壓縮模型,所提出的方法大幅超越其他方法。
系統(tǒng)特性層面,F(xiàn)PX-NIC是首個面向4K超高清的端到端智能視頻壓縮系統(tǒng),支持標清(1280x720)到高清(1920x1080)以及超高清(3840x2160)等多種分辨率編碼。為了驗證不同分辨率下編碼的性能和系統(tǒng)特性,
文章測試了系統(tǒng)的端到端延遲、編碼速度、運存開銷以及各模塊編碼每一幀圖像的功耗。在720p分辨率下,系統(tǒng)能夠?qū)崿F(xiàn)實時編解碼。此外,該系統(tǒng)最高支持了4K超高清全幀內(nèi)模式編碼。
圖4 FPX-NIC系統(tǒng)特性
論文鏈接
更多其他算法原理、實驗結(jié)果、對比分析以及系統(tǒng)設計細節(jié),請點擊原文鏈接。
https://ieeexplore.ieee.org/abstract/document/9745965
引用格式
Chuanmin Jia, Xinyu Hang, Shanshe Wang, Yaqiang Wu, Siwei Ma, and Wen Gao, "FPX-NIC: An FPGA-Accelerated 4K Ultra-high-definition Neural Video Coding System," IEEE Transactions on Circuits and Systems for Video Technology, 2022.
原文鏈接