局所特徴統合による高速高精度視覚ローカライゼーション

局所特徴統合による高速高精度視覚ローカライゼーション

視覚的ローカライゼーションは、SfMやSLAMなど、多くのコンピュータビジョン応用においてカメラの6自由度姿勢を推定するための重要な課題である。従来の手法は、画像検索に用いるグローバル特徴と、精密な姿勢推定に必要な局所特徴をそれぞれ別個のネットワークで抽出していたため、計算負荷やメモリ消費が大きく、特に大規模環境や複雑な撮影条件下での実用化に課題があった。

提案手法

本論文では、局所特徴から効率的にグローバル特徴を生成する新たなアプローチ「SuperGF」を提案する。まず、SuperPointなどを用いて入力画像からキーポイント、記述子、信頼度などの局所特徴を抽出し、各特徴に対して画像内の位置情報や信頼度を加味したトークンを生成する。次に、スロットアテンション機構を適用して、これらのトークンから代表的なクラスタ中心を抽出し、計算量を削減しながら各局所領域の特徴を効果的にまとめる。さらに、Transformerエンコーダによりトークン同士の相互作用を促し、最終的にGeMプーリングを経て統一されたグローバル特徴ベクトルを得る。このグローバル特徴は、従来のグローバル特徴抽出ネットワークと同等かそれ以上の精度を維持しつつ、局所特徴の計算結果を再利用することで大幅な効率向上を実現する。

実験結果

提案手法は、Aachen Day-Night、Extended CMU、RobotCar Seasonsといった複数のベンチマークデータセットにおいて、画像検索およびカメラ姿勢推定の両面で従来手法と比較されている。実験結果からは、従来のNetVLADや局所特徴とグローバル特徴を個別に抽出する手法と同等あるいはそれ以上の精度を示すとともに、計算時間やメモリ使用量が大幅に削減されていることが明らかとなった。特に、夜間や天候、季節変動などの困難な条件下においても高い再現性を維持しており、視覚的場所認識(VPR)のタスクにも応用可能な柔軟性を持つ点が評価されている。

結論

本論文は、局所特徴抽出の結果を再利用してグローバル特徴を効率的に生成することで、視覚的ローカライゼーションにおける計算負荷を大幅に低減しつつ、高精度なカメラ姿勢推定を実現する新たな手法「SuperGF」を提案した。学習段階では、APロスや視野(FoV)に基づくソフトな類似スコア、さらにはアテンションデコレラリゼーションロスを組み合わせることで、各局所特徴が互いに補完し合いながら適切なグローバル表現へと集約されるよう工夫されている。実験結果は、従来手法と比べて推論速度やメモリ効率の面で大きな利点を持つと同時に、精度面でも競争力があることを示しており、ロボティクス、自動運転、拡張現実など広範な分野への応用が期待される。

発表論文

Song, Wenzheng, et al. “Globalizing Local Features: Image Retrieval Using Shared Local Features with Pose Estimation for Faster Visual Localization.” 2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2024.

@inproceedings{song2024globalizing,
title={Globalizing Local Features: Image Retrieval Using Shared Local Features with Pose Estimation for Faster Visual Localization},
author={Song, Wenzheng and Yan, Ran and Lei, Boshu and Okatani, Takayuki},
booktitle={2024 IEEE International Conference on Robotics and Automation (ICRA)},
pages={6290--6297},
year={2024},
organization={IEEE}
}
Categories: Uncategorized