RefVSR++: 参照映像を活用した高精度な動画超解像手法

RefVSR++: 参照映像を活用した高精度な動画超解像手法

       

本研究は、スマートフォン等に搭載されるマルチカメラシステムの特性を活用し、低解像度映像を高解像度に復元する参照ベース動画超解像(*)に関する手法「RefVSR++」を提案するものである。従来の動画超解像手法では、単一の低解像度(Low-Resolution: LR)映像から時系列情報を活用して解像度を向上させる。一方、マルチカメラ環境では、異なる視野(Field-of-View: FoV)を持つ複数のカメラによって同一シーンが同時に撮影されるため、高解像度な参照映像(Reference: Ref)を補助的に利用することで、より正確な超解像が可能となる。

*) Reference-based Video Super-Resolution

本研究では、従来手法RefVSRの限界として、RefとLRの特徴量を同一のストリームで融合・伝播する点を指摘する。FoVの異なる2種の映像は、重複領域では高精度な情報を提供できる一方、非重複領域では誤整合や情報の欠落が発生しやすく、それが出力画質の低下に繋がる。さらに、RefVSRでは特徴の整合性を保つための信頼度マップ(confidence map)をヒューリスティックに伝播しており、時間方向の誤差蓄積による性能劣化が課題であった。

RefVSR++はこれらの問題に対処するため、2つの主な改善を行っている。第一に、Ref特徴とLR特徴を独立したストリームで時間方向に集約・伝播する構成を導入した。Refストリームでは、高周波成分に特化した特徴(残差)を時間的に蓄積し、一方、SRストリームではLRとRefの融合特徴を用いて超解像画像を生成する。この2ストリーム構成により、情報の混在による劣化を防ぎつつ、豊富な高周波情報の活用が可能となった。

第二に、特徴整合のためにDeformable Convolution Network(DCN)およびPatch Matchingを導入することで、時間的・視野的なズレに柔軟に対応している。特にRefストリームでは、Patch Matchingを用いてRefとLR間の対応を高精度に取得し、その信頼度を基に特徴融合を行っている。また、信頼度マップの伝播を廃し、各時刻で再計算することで誤差の蓄積を防いでいる。

実験では、iPhone 12 Pro Maxによって撮影されたマルチカメラビデオから構成されるRealMCVSRデータセットを用い、従来手法(RCAN、BasicVSR++、DCSR、ERVSR、RefVSRなど)との比較を行った。その結果、提案手法はPSNRで最大1.5dBの改善を達成し、特に重複FoV外でも他手法を上回る性能を示した。さらに、インターネット上の4K映像を用いたInter4Kデータセットでも高い汎用性が示され、RefVSR++の一般化性能の高さが確認された。

加えて、アブレーションスタディにより各構成要素の寄与を定量的に評価した。SRストリームやRefストリームの導入、残差伝播の有無などを比較し、それぞれが性能向上に重要な役割を果たしていることが明らかとなった。特に、Ref残差を伝播する設計は、低周波成分の冗長性を排除し、SRストリームとの協調を高めるうえで効果的であると確認された。

一方、RefVSR++には課題も存在する。多ストリーム構成によりメモリ使用量が増加し、特に高解像度処理においては**GPUメモリの消費が大きい(約19GB)**点が実用上のボトルネックとなる。今後は、効率的なアーキテクチャ設計や低精度計算の導入、Ref映像の選択的活用などにより、計算コストを抑えつつ高性能を維持する方向性が期待される。

総じて、RefVSR++は、マルチカメラ環境を前提とした動画超解像の分野において、視野の違いと時間的情報を両立して活用するという観点から、構成的にも理論的にも意義のある貢献を果たしている。高解像度映像の需要が高まる現代において、本手法はスマートフォンカメラの性能を最大限引き出す技術として、実応用にもつながる可能性を秘めている。

発表論文

Zou, Han, Masanori Suganuma, and Takayuki Okatani. “RefVSR++: Exploiting Reference Inputs for Reference-based Video Super-resolution.” Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2025.

@inproceedings{zou2025refvsr++,
title={RefVSR++: Exploiting Reference Inputs for Reference-based Video Super-resolution},
author={Zou, Han and Suganuma, Masanori and Okatani, Takayuki},
journal={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision},
year={2025}
}