講演抄録/キーワード |
講演名 |
2024-09-05 16:30
視覚障害者の動画視聴体験向上のための感情認識システムの提案 ○寧 致遠・中村広幸(芝浦工大) |
抄録 |
(和) |
近年、TikTokなどの短編動画プラットフォームの急成長により、視覚障害者にとって動画視聴のアクセシビリティ向上が求められている。従来の音声解説は専門的な知識とリソースを要するため、提供が限られている。本研究では、視覚と音声の感情手がかりを認識し、聴覚的にアクセス可能な形に変換する感情認識システムを提案する。畳み込みニューラルネットワーク(CNN)や再帰型ニューラルネットワーク(RNN)を活用し、音声および視覚データから感情を検出・翻訳する。JVNVデータセットを使用した音声感情認識とFER2013データセットを用いた顔表情認識を組み合わせることで、視覚障害者が動画内の感情変化を音声で認識できるようにする。モデルの精度向上、ユーザーフレンドリーなインターフェースの開発、実験を通じたシステムの有効性評価を行い、視覚障害者にとって動画コンテンツのアクセシビリティを大幅に向上させることを目指す。 |
(英) |
The rapid growth of short video platforms like TikTok has highlighted the need for improved accessibility for visually impaired individuals. Traditional audio descriptions require specialized skills and resources, limiting their availability. This study proposes an emotion recognition system that converts visual and vocal emotional cues into accessible auditory outputs. Utilizing convolutional neural networks (CNNs) and recurrent neural networks (RNNs), the system detects and translates emotions from both audio and visual data. By integrating speech emotion recognition using the JVNV dataset and facial expression recognition using the FER2013 dataset, the system enables visually impaired users to perceive emotional changes in videos through sound. Future efforts will focus on enhancing model accuracy, developing a user-friendly interface, and evaluating the system's effectiveness, ultimately aiming to significantly improve the accessibility of video content for visually impaired individuals. |
キーワード |
(和) |
ディープラーニング / 感情認識 / 音声処理 / 画像処理 / / / / |
(英) |
Deep Learning / Emotion Recognition / Audio Processing / Image Processing / / / / |
文献情報 |
映情学技報, vol. 48, no. 29, ME2024-86, pp. 37-40, 2024年9月. |
資料番号 |
ME2024-86 |
発行日 |
2024-08-28 (ME) |
ISSN |
Online edition: ISSN 2424-1970 |
PDFダウンロード |
|
研究会情報 |
研究会 |
ME IEICE-EMM IEICE-IE IEICE-LOIS IEE-CMN IPSJ-AVM |
開催期間 |
2024-09-04 - 2024-09-05 |
開催地(和) |
広島工業大学 五日市キャンパス(FIT2024と併催) |
開催地(英) |
Hiroshima Institute of Technology |
テーマ(和) |
マルチメディア通信/システム,ライフログ活用技術,IP放送/映像伝送,メディアセキュリティ,メディア処理(AI,深層学習),一般 |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
ME |
会議コード |
2024-09-ME-EMM-IE-LOIS-CMN-AVM |
本文の言語 |
日本語 |
タイトル(和) |
視覚障害者の動画視聴体験向上のための感情認識システムの提案 |
サブタイトル(和) |
|
タイトル(英) |
Proposal of an Emotion Recognition System for Improving Video Viewing Experience of Visually Impaired Individuals |
サブタイトル(英) |
|
キーワード(1)(和/英) |
ディープラーニング / Deep Learning |
キーワード(2)(和/英) |
感情認識 / Emotion Recognition |
キーワード(3)(和/英) |
音声処理 / Audio Processing |
キーワード(4)(和/英) |
画像処理 / Image Processing |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
寧 致遠 / Zhiyuan Ning / ネイ チエン |
第1著者 所属(和/英) |
芝浦工業大学 (略称: 芝浦工大)
Shibaura Institute of Technology (略称: S.I.T) |
第2著者 氏名(和/英/ヨミ) |
中村 広幸 / Hiroyuki Nakamura / ナカムラ ヒロユキ |
第2著者 所属(和/英) |
芝浦工業大学 (略称: 芝浦工大)
Shibaura Institute of Technology (略称: S.I.T) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2024-09-05 16:30:00 |
発表時間 |
20分 |
申込先研究会 |
ME |
資料番号 |
ME2024-86 |
巻番号(vol) |
vol.48 |
号番号(no) |
no.29 |
ページ範囲 |
pp.37-40 |
ページ数 |
4 |
発行日 |
2024-08-28 (ME) |