講演抄録/キーワード |
講演名 |
2023-02-21 14:45
360度映像におけるマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討 ○吉田将規・藤後 廉・小川貴弘・長谷山美紀(北大) |
抄録 |
(和) |
本稿では,360 度映像を用いたマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討を行う.従来,視覚的情報に基づくバイノーラル音声生成の学習には,グラウンドトゥルースとなるバイノーラル音声が必要となるが,本研究では,360度映像から学習データとなる映像・音声を作成し,バイノーラル音声生成の学習を行う.ユーザが自由に視点を操作可能な360度映像を用いることで,視線方向が異なる複数の映像データを作成可能とし,同一のシーンにおける異なる視線方向の映像に基づくマルチビュー学習を可能とする.さらに,映像フレームと音声における視線方向が一致しない映像を作成し,映像フレームと音声における視線方向のずれの予測を行なうことで,映像フレーム中の音源位置と音声の到来方向の関係を学習する事前学習を行う.そして,360度映像から作成された学習データを用いて,事前学習済みのネットワークを利用したバイノーラル音声生成の学習を行うことで,バイノーラル音声生成の精度向上を図る. |
(英) |
In this paper, we propose a binaural audio generation method based on multi-view learning using 360◦ videos. Conventionally, learning visually informed binaural audio generation requires ground truth binaural audio. We generate training video data from 360◦ videos and train binaural audio generation. By using 360◦ videos, which allow users to freely manipulate their viewpoints, we can generate multiple video data with different viewing directions. Our approach enables multi-view learning based on videos of the same scene with different viewing directions. Furthermore, we conduct pre-training before binaural audio generation for learning spatial correspondence between the video frame and the audio. In the pre-training, we generate videos in which the gaze direction does not match that of the audio and predict the gap in gaze direction. By using the data generated from 360◦ videos and pre-trained networks, we can improve the accuracy of binaural audio generation. |
キーワード |
(和) |
マルチモーダル学習 / バイノーラル音声 / 360 度映像 / マルチビュー学習 / 事前学習 / / / |
(英) |
Multi-modal learning / Binaural audio / 360° video / Multi-view learning / Pre-training / / / |
文献情報 |
映情学技報, vol. 47, no. 6, ME2023-33, pp. 65-69, 2023年2月. |
資料番号 |
ME2023-33 |
発行日 |
2023-02-14 (MMS, ME, AIT) |
ISSN |
Print edition: ISSN 1342-6893 Online edition: ISSN 2424-1970 |
PDFダウンロード |
|
|