講演抄録/キーワード |
講演名 |
2025-02-18 12:50
線形表現仮説に基づいたfew-shot学習による視覚言語モデルの解釈可能性に関する検討 ○岡村洋希・前田圭介・藤後 廉・小川貴弘・長谷山美紀(北大) |
抄録 |
(和) |
大量のWeb上の画像とテキストで事前学習された視覚言語モデル(VLM)は,未知のクラスに対して高いゼロショット画像分類性能を発揮する.近年では,数枚の画像のみで事前学習されたVLMの性能を改善させる手法が提案された.しかしながら,これらの手法は解釈可能性に欠け,モデルが捉えたデータの特徴を理解することは出来ない.本稿では,モデルの表現がいくつかの表現の線形結合に分解できるという線形表現仮説に基づいたFew-shot学習手法を提案する.この手法では,クラスを表現するベクトルに対して足し合わせたベクトルを最適化および分解することで,Few-shot学習時にモデルがクラスに付加した概念を解釈することが可能である.実験により,提案手法が複数のデータセットにおいてVLMの画像分類性能を向上させ,さらにモデルが捉えたデータの特徴を解釈可能であることを示した. |
(英) |
Visual language models (VLMs), pre-trained on vast amounts of web-based images and text, have demonstrated impressive zero-shot image classification performance on novel classes.Recently, few-shot learning methods have been proposed to improve the performance of pre-trained VLMs with only a few images. However, these methods lack interpretability and cannot understand the features of the data captured by the model.In this paper, we propose a few-shot learning method based on the linear representation hypothesis, which asserts that the representations obtained from models can be decomposed into a linear combination of multiple elements. The proposed method optimizes and decomposes vectors that are linearly added to class-representing vectors, enabling the interpretation of concepts that the model appends to classes during few-shot learning. Through extensive experiments, we demonstrate that the proposed method enhances the image classification performance of VLMs across 8 datasets while also facilitating the interpretability of the data features captured by the model. |
キーワード |
(和) |
視覚言語モデル / Few-shot学習 / 画像分類 / 解釈可能性 / / / / |
(英) |
Visual language models / Few-shot learning / Image classification / Interpretability / / / / |
文献情報 |
映情学技報, vol. 49, no. 4, ME2025-7, pp. 34-39, 2025年2月. |
資料番号 |
ME2025-7 |
発行日 |
2025-02-11 (MMS, ME, AIT, SIP) |
ISSN |
Online edition: ISSN 2424-1970 |
PDFダウンロード |
|
研究会情報 |
研究会 |
ME AIT MMS IEICE-IE IEICE-ITS SIP |
開催期間 |
2025-02-18 - 2025-02-19 |
開催地(和) |
北海道大学 |
開催地(英) |
Hokkaido Univ. |
テーマ(和) |
画像処理,一般 |
テーマ(英) |
Image Processing, etc. |
講演論文情報の詳細 |
申込み研究会 |
ME |
会議コード |
2025-02-ME-AIT-MMS-IE-ITS-SIP |
本文の言語 |
日本語 |
タイトル(和) |
線形表現仮説に基づいたfew-shot学習による視覚言語モデルの解釈可能性に関する検討 |
サブタイトル(和) |
|
タイトル(英) |
A Note on Interpretability of Visual Language Model by Few-shot Learning based on the Linear Representation Hypothesis |
サブタイトル(英) |
|
キーワード(1)(和/英) |
視覚言語モデル / Visual language models |
キーワード(2)(和/英) |
Few-shot学習 / Few-shot learning |
キーワード(3)(和/英) |
画像分類 / Image classification |
キーワード(4)(和/英) |
解釈可能性 / Interpretability |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
岡村 洋希 / Hiroki Okamura / オカムラ ヒロキ |
第1著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第2著者 氏名(和/英/ヨミ) |
前田 圭介 / Keisuke Maeda / マエダ ケイスケ |
第2著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第3著者 氏名(和/英/ヨミ) |
藤後 廉 / Ren Togo / トウゴ レン |
第3著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第4著者 氏名(和/英/ヨミ) |
小川 貴弘 / Takahiro Ogawa / オガワ タカヒロ |
第4著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第5著者 氏名(和/英/ヨミ) |
長谷山 美紀 / Miki Haseyama / ハセヤマ ミキ |
第5著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
第21著者 氏名(和/英/ヨミ) |
/ / |
第21著者 所属(和/英) |
(略称: )
(略称: ) |
第22著者 氏名(和/英/ヨミ) |
/ / |
第22著者 所属(和/英) |
(略称: )
(略称: ) |
第23著者 氏名(和/英/ヨミ) |
/ / |
第23著者 所属(和/英) |
(略称: )
(略称: ) |
第24著者 氏名(和/英/ヨミ) |
/ / |
第24著者 所属(和/英) |
(略称: )
(略称: ) |
第25著者 氏名(和/英/ヨミ) |
/ / |
第25著者 所属(和/英) |
(略称: )
(略称: ) |
第26著者 氏名(和/英/ヨミ) |
/ / |
第26著者 所属(和/英) |
(略称: )
(略称: ) |
第27著者 氏名(和/英/ヨミ) |
/ / |
第27著者 所属(和/英) |
(略称: )
(略称: ) |
第28著者 氏名(和/英/ヨミ) |
/ / |
第28著者 所属(和/英) |
(略称: )
(略称: ) |
第29著者 氏名(和/英/ヨミ) |
/ / |
第29著者 所属(和/英) |
(略称: )
(略称: ) |
第30著者 氏名(和/英/ヨミ) |
/ / |
第30著者 所属(和/英) |
(略称: )
(略称: ) |
第31著者 氏名(和/英/ヨミ) |
/ / |
第31著者 所属(和/英) |
(略称: )
(略称: ) |
第32著者 氏名(和/英/ヨミ) |
/ / |
第32著者 所属(和/英) |
(略称: )
(略称: ) |
第33著者 氏名(和/英/ヨミ) |
/ / |
第33著者 所属(和/英) |
(略称: )
(略称: ) |
第34著者 氏名(和/英/ヨミ) |
/ / |
第34著者 所属(和/英) |
(略称: )
(略称: ) |
第35著者 氏名(和/英/ヨミ) |
/ / |
第35著者 所属(和/英) |
(略称: )
(略称: ) |
第36著者 氏名(和/英/ヨミ) |
/ / |
第36著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2025-02-18 12:50:00 |
発表時間 |
15分 |
申込先研究会 |
ME |
資料番号 |
MMS2025-7, ME2025-7, AIT2025-7, SIP2025-7 |
巻番号(vol) |
vol.49 |
号番号(no) |
no.4 |
ページ範囲 |
pp.34-39 |
ページ数 |
6 |
発行日 |
2025-02-11 (MMS, ME, AIT, SIP) |
|