映像情報メディア学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2025-02-18 10:15
マルチモーダルLLMによる映像と音声文字起こしデータを活用した重要シーン抽出 ~ 時刻情報の正確な把握に向けた一考察 ~
春山知生周 成NTTドコモ
抄録 (和) 近年,ネットワーク技術や映像視聴端末の発展に伴い,各企業が多種多様な映像配信サービスをリリースしており,各運営事業社は,自社の映像配信サービスを効果的にプロモーションするために,様々な策を講じている.その1つとして,映像配信サービスで配信する映像コンテンツに関するショート動画を各種SNSで発信する手法が頻繁に用いられている.
しかしながら,日々追加される映像コンテンツの量は膨大であり,ショート動画の作成には多大な労力を要する.
そこで,近年動画理解の分野でも目覚ましい発展を遂げているマルチモーダルLLMの活用が考えられているが,マルチモーダルLLMを用いて特定の場面を抽出する場合,時間情報の正確な把握が難しいことが報告されている.
そこで我々は,時間情報を正確に把握するために音声文字起こしデータを活用する手法を提案する.
実験では,音声文字起こしデータを活用することで,時刻情報を正確に把握した重要シーンの抽出を実現することを確認する. 
(英) In recent years, with the development of network technology and video viewing devices, companies have released a wide variety of video distribution services, and each company is taking various measures to effectively promote their own services. One of these is the method of posting short videos of video content distributed by video distribution services on various social media.
However, the amount of video content added daily is enormous, and creating short videos requires a lot of effort.
Therefore, the use of multimodal LLM, which has made remarkable progress in the field of video understanding in recent years, has been considered. However, it has been reported that it is difficult to accurately grasp timestamp information when extracting specific scenes using multimodal LLM.
We therefore propose a method that uses speech transcription data to accurately grasp timestamp information.
In experiments, we confirm that by using speech transcription data, it is possible to extract important scenes with accurate timestamp information.
キーワード (和) 動画理解 / 映像配信サービス / マルチモーダルLLM / SNSマーケティング / / / /  
(英) Video Understanding / Video Distribution Service / Multimodal LLM / Social Media Marketing / / / /  
文献情報 映情学技報, vol. 49, no. 4, ME2025-2, pp. 7-12, 2025年2月.
資料番号 ME2025-2 
発行日 2025-02-11 (MMS, ME, AIT, SIP) 
ISSN Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会 ME AIT MMS IEICE-IE IEICE-ITS SIP  
開催期間 2025-02-18 - 2025-02-19 
開催地(和) 北海道大学 
開催地(英) Hokkaido Univ. 
テーマ(和) 画像処理,一般 
テーマ(英) Image Processing, etc. 
講演論文情報の詳細
申込み研究会 ME 
会議コード 2025-02-ME-AIT-MMS-IE-ITS-SIP 
本文の言語 日本語 
タイトル(和) マルチモーダルLLMによる映像と音声文字起こしデータを活用した重要シーン抽出 
サブタイトル(和) 時刻情報の正確な把握に向けた一考察 
タイトル(英) Extraction of Important Scenes by Multimodal LLM Using Video and Speech Transcription Data 
サブタイトル(英) A Study on the Accurate Understanding of Timestamp Information 
キーワード(1)(和/英) 動画理解 / Video Understanding  
キーワード(2)(和/英) 映像配信サービス / Video Distribution Service  
キーワード(3)(和/英) マルチモーダルLLM / Multimodal LLM  
キーワード(4)(和/英) SNSマーケティング / Social Media Marketing  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 春山 知生 / Tomoki Haruyama / ハルヤマ トモキ
第1著者 所属(和/英) 株式会社エヌ・ティ・ティ・ドコモ (略称: NTTドコモ)
NTT DOCOMO, INC. (略称: NTT DOCOMO)
第2著者 氏名(和/英/ヨミ) 周 成 / Cheng Zhou / シュウ セイ
第2著者 所属(和/英) 株式会社エヌ・ティ・ティ・ドコモ (略称: NTTドコモ)
NTT DOCOMO, INC. (略称: NTT DOCOMO)
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
第21著者 氏名(和/英/ヨミ) / /
第21著者 所属(和/英) (略称: )
(略称: )
第22著者 氏名(和/英/ヨミ) / /
第22著者 所属(和/英) (略称: )
(略称: )
第23著者 氏名(和/英/ヨミ) / /
第23著者 所属(和/英) (略称: )
(略称: )
第24著者 氏名(和/英/ヨミ) / /
第24著者 所属(和/英) (略称: )
(略称: )
第25著者 氏名(和/英/ヨミ) / /
第25著者 所属(和/英) (略称: )
(略称: )
第26著者 氏名(和/英/ヨミ) / /
第26著者 所属(和/英) (略称: )
(略称: )
第27著者 氏名(和/英/ヨミ) / /
第27著者 所属(和/英) (略称: )
(略称: )
第28著者 氏名(和/英/ヨミ) / /
第28著者 所属(和/英) (略称: )
(略称: )
第29著者 氏名(和/英/ヨミ) / /
第29著者 所属(和/英) (略称: )
(略称: )
第30著者 氏名(和/英/ヨミ) / /
第30著者 所属(和/英) (略称: )
(略称: )
第31著者 氏名(和/英/ヨミ) / /
第31著者 所属(和/英) (略称: )
(略称: )
第32著者 氏名(和/英/ヨミ) / /
第32著者 所属(和/英) (略称: )
(略称: )
第33著者 氏名(和/英/ヨミ) / /
第33著者 所属(和/英) (略称: )
(略称: )
第34著者 氏名(和/英/ヨミ) / /
第34著者 所属(和/英) (略称: )
(略称: )
第35著者 氏名(和/英/ヨミ) / /
第35著者 所属(和/英) (略称: )
(略称: )
第36著者 氏名(和/英/ヨミ) / /
第36著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2025-02-18 10:15:00 
発表時間 15分 
申込先研究会 ME 
資料番号 MMS2025-2, ME2025-2, AIT2025-2, SIP2025-2 
巻番号(vol) vol.49 
号番号(no) no.4 
ページ範囲 pp.7-12 
ページ数
発行日 2025-02-11 (MMS, ME, AIT, SIP) 


[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]


ITE / 映像情報メディア学会