マルチモーダルAIによる地すべり画像解析と災害リスク評価
近年、気候変動の影響により世界各地で自然災害が頻発している。特に地すべり災害は、発生後に地形が大きく変化するため、被害の拡大や二次災害のリスクが高く、迅速かつ高度な状況把握が求められている。しかしながら、こうした災害現場の評価には高い専門知識が必要であり、現地調査を行う専門家の数には限りがある。そこで本研究では、大規模言語モデル(LLM)と画像認識技術を融合させたマルチモーダルAIシステムを開発し、地すべり災害の画像から専門家並みの分析を自動で行うことを目指した。

本研究の特徴は、単なる画像分類ではなく、災害現場の詳細な観察、原因の推定、将来リスクの予測を自然言語で説明できるAIシステムを構築した点にある。この目的のために、二つの異なるアプローチが採用された。一つは「VQA-LLMハイブリッド」と呼ばれる手法で、まず画像からVQA(Visual Question Answering)モデルを用いて観察情報を抽出し、その結果を大規模言語モデル(Alpaca-13B)に入力して総合的なリスク分析文を生成するものである。もう一つは「MLLM(マルチモーダルLLM)」アプローチであり、画像とテキスト入力を同時に処理できるエンドツーエンド型モデルを設計した。こちらは、視覚情報をTransformerベースの画像エンコーダ(CLIP ViT-L/14)で処理し、LLaMA2-13B-Chatと接続して自然言語による解析結果を直接出力する構成となっている。

データ収集にあたっては、日本全国の地すべり現場の空撮画像68件を用いた。これらの画像について、30年以上の実務経験を持つ専門家8名が、画像だけを根拠に口頭で解説を行い、その内容を音声認識システムで文字起こしした。さらに、GPT-3.5を用いてこれらのコメントを英訳・要約し、「災害タイプ」「原因」「観察内容」「将来リスク」の四項目に整理したフォーマットに統一した。こうして得られたデータをもとにAIモデルを学習させた。データ量の不足を補うため、GPT-3.5によるパラフレーズ(言い換え)によってデータを倍増し、最終的に136サンプルを用意した。
モデルの性能評価には、従来型のテキスト類似度指標(BLEU、ROUGE、METEOR、SPICE)に加え、GPT-4を用いたセマンティック類似度評価を導入した。また、土砂災害の専門家によるブラインド評価も実施し、出力結果の実用的な妥当性を検証した。その結果、MLLMは災害識別(災害タイプや観察内容)において優れた性能を示し、VQA-LLMハイブリッドは将来リスク予測においてより高い正確性を示した。これは、VQA-LLMが一度中間的に情報を整理するプロセスを持つため、リスク推論における情報統合がうまく機能したためだと考察されている。

一方で、MLLMは画像とテキストを一体的に学習するため、大規模データにおいてより高い柔軟性を発揮することが期待される。実験では、データ量の拡張や使用するLLMのモデルサイズ(7Bと13B)に応じて性能が向上することも確認された。特に13Bモデルでの学習において、セマンティック類似度スコアが最も高くなった。これらの結果は、限られたデータ環境でも工夫次第で専門的知識の転移が可能であることを示すと同時に、今後のより大規模なデータ収集の重要性も浮き彫りにしている。
本研究にはいくつかの課題も存在する。第一に、使用したデータセットはすべて日本国内の地すべり事例に限られているため、国際的な一般化にはさらなる検証が必要であること。第二に、専門家による注釈データは高い品質を誇る一方で、量的には限られており、将来的には国際的な機関(USGSやNASA)との連携による多様な地質条件への拡張が期待されることが指摘されている。また、最終的な目標として、地すべりAIだけでなく、気象予測AIや避難計画AIなど他のAIエージェントとの連携による包括的な災害対応支援システムの実現が展望されている。
この研究は、専門家の暗黙知をAIに移植し、災害現場で迅速かつ高精度な意思決定を支援するというビジョンに向けた重要な一歩である。限られたデータとリソースの中でも、適切なAI設計と知識整理によって、専門家レベルの高度な推論が可能であることを示した点は、AIに興味を持つ学生にとっても大きな示唆を与えるものである。今後、AI技術が社会インフラとどのように融合していくかを考える上でも、本研究のアプローチは極めて意義深いものと言える。
発表論文
Areerob, Kittitouch, et al. “Multimodal artificial intelligence approaches using large language models for expert‐level landslide image analysis.” Computer‐Aided Civil and Infrastructure Engineering (2025).
@article{areerob2025multimodal,
title={Multimodal artificial intelligence approaches using large language models for expert-level landslide image analysis},
author={Areerob, Kittitouch and Nguyen, Van-Quang and Li, Xianfeng and Inadomi, Shogo and Shimada, Toru and Kanasaki, Hiroyuki and Wang, Zhijie and Suganuma, Masanori and Nagatani, Keiji and Chun, Pang-jo and others},
journal={Computer-Aided Civil and Infrastructure Engineering},
year={2025},
publisher={Wiley Online Library}
}