講演抄録/キーワード |
講演名 |
2025-02-18 10:15
マルチモーダルLLMによる映像と音声文字起こしデータを活用した重要シーン抽出 ~ 時刻情報の正確な把握に向けた一考察 ~ ○春山知生・周 成(NTTドコモ) |
抄録 |
(和) |
近年,ネットワーク技術や映像視聴端末の発展に伴い,各企業が多種多様な映像配信サービスをリリースしており,各運営事業社は,自社の映像配信サービスを効果的にプロモーションするために,様々な策を講じている.その1つとして,映像配信サービスで配信する映像コンテンツに関するショート動画を各種SNSで発信する手法が頻繁に用いられている.
しかしながら,日々追加される映像コンテンツの量は膨大であり,ショート動画の作成には多大な労力を要する.
そこで,近年動画理解の分野でも目覚ましい発展を遂げているマルチモーダルLLMの活用が考えられているが,マルチモーダルLLMを用いて特定の場面を抽出する場合,時間情報の正確な把握が難しいことが報告されている.
そこで我々は,時間情報を正確に把握するために音声文字起こしデータを活用する手法を提案する.
実験では,音声文字起こしデータを活用することで,時刻情報を正確に把握した重要シーンの抽出を実現することを確認する. |
(英) |
In recent years, with the development of network technology and video viewing devices, companies have released a wide variety of video distribution services, and each company is taking various measures to effectively promote their own services. One of these is the method of posting short videos of video content distributed by video distribution services on various social media.
However, the amount of video content added daily is enormous, and creating short videos requires a lot of effort.
Therefore, the use of multimodal LLM, which has made remarkable progress in the field of video understanding in recent years, has been considered. However, it has been reported that it is difficult to accurately grasp timestamp information when extracting specific scenes using multimodal LLM.
We therefore propose a method that uses speech transcription data to accurately grasp timestamp information.
In experiments, we confirm that by using speech transcription data, it is possible to extract important scenes with accurate timestamp information. |
キーワード |
(和) |
動画理解 / 映像配信サービス / マルチモーダルLLM / SNSマーケティング / / / / |
(英) |
Video Understanding / Video Distribution Service / Multimodal LLM / Social Media Marketing / / / / |
文献情報 |
映情学技報, vol. 49, no. 4, ME2025-2, pp. 7-12, 2025年2月. |
資料番号 |
ME2025-2 |
発行日 |
2025-02-11 (MMS, ME, AIT, SIP) |
ISSN |
Online edition: ISSN 2424-1970 |
PDFダウンロード |
|
研究会情報 |
研究会 |
ME AIT MMS IEICE-IE IEICE-ITS SIP |
開催期間 |
2025-02-18 - 2025-02-19 |
開催地(和) |
北海道大学 |
開催地(英) |
Hokkaido Univ. |
テーマ(和) |
画像処理,一般 |
テーマ(英) |
Image Processing, etc. |
講演論文情報の詳細 |
申込み研究会 |
ME |
会議コード |
2025-02-ME-AIT-MMS-IE-ITS-SIP |
本文の言語 |
日本語 |
タイトル(和) |
マルチモーダルLLMによる映像と音声文字起こしデータを活用した重要シーン抽出 |
サブタイトル(和) |
時刻情報の正確な把握に向けた一考察 |
タイトル(英) |
Extraction of Important Scenes by Multimodal LLM Using Video and Speech Transcription Data |
サブタイトル(英) |
A Study on the Accurate Understanding of Timestamp Information |
キーワード(1)(和/英) |
動画理解 / Video Understanding |
キーワード(2)(和/英) |
映像配信サービス / Video Distribution Service |
キーワード(3)(和/英) |
マルチモーダルLLM / Multimodal LLM |
キーワード(4)(和/英) |
SNSマーケティング / Social Media Marketing |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
春山 知生 / Tomoki Haruyama / ハルヤマ トモキ |
第1著者 所属(和/英) |
株式会社エヌ・ティ・ティ・ドコモ (略称: NTTドコモ)
NTT DOCOMO, INC. (略称: NTT DOCOMO) |
第2著者 氏名(和/英/ヨミ) |
周 成 / Cheng Zhou / シュウ セイ |
第2著者 所属(和/英) |
株式会社エヌ・ティ・ティ・ドコモ (略称: NTTドコモ)
NTT DOCOMO, INC. (略称: NTT DOCOMO) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
第21著者 氏名(和/英/ヨミ) |
/ / |
第21著者 所属(和/英) |
(略称: )
(略称: ) |
第22著者 氏名(和/英/ヨミ) |
/ / |
第22著者 所属(和/英) |
(略称: )
(略称: ) |
第23著者 氏名(和/英/ヨミ) |
/ / |
第23著者 所属(和/英) |
(略称: )
(略称: ) |
第24著者 氏名(和/英/ヨミ) |
/ / |
第24著者 所属(和/英) |
(略称: )
(略称: ) |
第25著者 氏名(和/英/ヨミ) |
/ / |
第25著者 所属(和/英) |
(略称: )
(略称: ) |
第26著者 氏名(和/英/ヨミ) |
/ / |
第26著者 所属(和/英) |
(略称: )
(略称: ) |
第27著者 氏名(和/英/ヨミ) |
/ / |
第27著者 所属(和/英) |
(略称: )
(略称: ) |
第28著者 氏名(和/英/ヨミ) |
/ / |
第28著者 所属(和/英) |
(略称: )
(略称: ) |
第29著者 氏名(和/英/ヨミ) |
/ / |
第29著者 所属(和/英) |
(略称: )
(略称: ) |
第30著者 氏名(和/英/ヨミ) |
/ / |
第30著者 所属(和/英) |
(略称: )
(略称: ) |
第31著者 氏名(和/英/ヨミ) |
/ / |
第31著者 所属(和/英) |
(略称: )
(略称: ) |
第32著者 氏名(和/英/ヨミ) |
/ / |
第32著者 所属(和/英) |
(略称: )
(略称: ) |
第33著者 氏名(和/英/ヨミ) |
/ / |
第33著者 所属(和/英) |
(略称: )
(略称: ) |
第34著者 氏名(和/英/ヨミ) |
/ / |
第34著者 所属(和/英) |
(略称: )
(略称: ) |
第35著者 氏名(和/英/ヨミ) |
/ / |
第35著者 所属(和/英) |
(略称: )
(略称: ) |
第36著者 氏名(和/英/ヨミ) |
/ / |
第36著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2025-02-18 10:15:00 |
発表時間 |
15分 |
申込先研究会 |
ME |
資料番号 |
MMS2025-2, ME2025-2, AIT2025-2, SIP2025-2 |
巻番号(vol) |
vol.49 |
号番号(no) |
no.4 |
ページ範囲 |
pp.7-12 |
ページ数 |
6 |
発行日 |
2025-02-11 (MMS, ME, AIT, SIP) |
|