映像情報メディア学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2024-06-06 14:10
Vision-Language Modelを用いた交通場面認識の試み
中川和人西村和真近大院)・杉山 治多田昌裕近畿大
抄録 (和) 自動運転システムの社会実装を目指すためには,システムが周辺交通参加者の行動意図を理解し,その行動を高精度に予測する必要があることが指摘されている.人間は交通場面において,物体の移動軌跡といった時系列変化情報や,周辺交通参加者の身体の状態,自車両と周辺交通参加者との距離や位置関係を手掛かりとして周辺交通参加者の将来行動予測をしていると考えられている.そこで,本研究では,周辺交通参加者の状態や自車両との相対位置を表現可能な画像キャプショニング技術と複数枚の時系列画像を入力可能なVision-Language Modelを組み合わせることで,自動車の車外画像から運転時に危険となりうる周辺交通参加者の存在の認識と,近い将来の行動予測を行うシステムを構築した.運転者の将来予測能力を測る際に広く用いられているハザード知覚テストを用いた性能評価実験では,Vision-Language Model単体で用いた場合と比較して,提案手法では周辺交通参加者の行動予測精度が45ポイント向上し,提案手法の有効性を示唆する結果が得られた. 
(英) For the societal implementation of autonomous driving systems, it is essential that these systems understand the behavioral intentions of surrounding traffic participants and accurately predict their near-future behaviors. Humans are known to predict the near-future behaviors of others in traffic environment by observing changes over time, such as object trajectories, the states of other participants, and their relative distances and positions to the ego vehicle. This study therefore integrates image captioning technology, which represents the state and relative positions of surrounding traffic participants, with a Vision-Language Model that processes multiple sequential images. Our system is designed to identify potentially hazardous traffic participants from external vehicle images and predict their near-future behaviors. Through experiments using hazard perception tests, which are widely used to measure drivers' risk predictive skills, the proposed method demonstrated an improvement in the accuracy of predicting the behavior of surrounding traffic participants by 45 points compared to using the Vision-Language Model alone, suggesting the effectiveness of the proposed approach.
キーワード (和) 交通場面認識 / 人間行動予測 / Vision-Language Model / 画像キャプショニング / / / /  
(英) Traffic scene recognition / Human behavior prediction / Vision-Language Model / Image captioning / / / /  
文献情報 映情学技報, vol. 48, no. 17, ME2024-50, pp. 15-18, 2024年6月.
資料番号 ME2024-50 
発行日 2024-05-30 (IST, ME) 
ISSN Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会 ME IST IEICE-BioX IEICE-SIP IEICE-MI IEICE-IE  
開催期間 2024-06-06 - 2024-06-07 
開催地(和) 新潟大学(駅南キャンパスときめいと) 
開催地(英) Nigata University (Ekinan-Campus "TOKIMATE") 
テーマ(和) マルチメディアデータ・映像・画像・信号の取得・処理・解析・認証と応用,一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 ME 
会議コード 2024-06-ME-IST-BioX-SIP-MI-IE 
本文の言語 日本語 
タイトル(和) Vision-Language Modelを用いた交通場面認識の試み 
サブタイトル(和)  
タイトル(英) A trial for recognizing traffic scene using a Vision-Language Model 
サブタイトル(英)  
キーワード(1)(和/英) 交通場面認識 / Traffic scene recognition  
キーワード(2)(和/英) 人間行動予測 / Human behavior prediction  
キーワード(3)(和/英) Vision-Language Model / Vision-Language Model  
キーワード(4)(和/英) 画像キャプショニング / Image captioning  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 中川 和人 / Kazuto Nakagawa / ナカガワ カズト
第1著者 所属(和/英) 近畿大学大学院 (略称: 近大院)
Kindai University (略称: Kindai Univ.)
第2著者 氏名(和/英/ヨミ) 西村 和真 / Kazuma Nishimura / ニシムラ カズマ
第2著者 所属(和/英) 近畿大学大学院 (略称: 近大院)
Kindai University (略称: Kindai Univ.)
第3著者 氏名(和/英/ヨミ) 杉山 治 / Osamu Sugiyama / スギヤマ オサム
第3著者 所属(和/英) 近畿大学情報学部 (略称: 近畿大)
Kindai University (略称: Kindai Univ.)
第4著者 氏名(和/英/ヨミ) 多田 昌裕 / Masahiro Tada / タダ マサヒロ
第4著者 所属(和/英) 近畿大学情報学部 (略称: 近畿大)
Kindai University (略称: Kindai Univ.)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2024-06-06 14:10:00 
発表時間 25分 
申込先研究会 ME 
資料番号 IST2024-25, ME2024-50 
巻番号(vol) vol.48 
号番号(no) no.17 
ページ範囲 pp.15-18 
ページ数
発行日 2024-05-30 (IST, ME) 


[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]


ITE / 映像情報メディア学会