講演抄録/キーワード |
講演名 |
2024-06-05 15:20
機械学習による口の形状を用いたコマンド認識に関する研究 ○田中亮太朗・包 躍(東京都市大) |
抄録 |
(和) |
従来の口元の動きによる機器操作では、口元の動画を登録する必要があり、ユーザーに負担がかかっていた。本研究では、自然言語でコマンドを登録し、口元の動きから発話内容を推定する手法を提案した。自然言語と動画からそれぞれ特徴量を抽出するモデルを構築し、両者の特徴量の類似度から発話内容を推定する。実験では、提案手法により従来手法と同等の精度が得られた。しかし、ユーザー非依存の場合は精度が低下することが分かった。今後は更なる精度向上が課題である。 |
(英) |
Conventional approaches for device control using lip movements require registering video samples of lip movements, burdening users. This study proposes a command recognition method that registers commands using natural language and infers utterances from lip movements. Two models were built to extract features from natural language and video, respectively. The utterance was inferred from the similarity between the two feature spaces. Experiments showed that the proposed method achieved comparable accuracy to conventional methods. However, accuracy declined in user-independent cases. Further performance improvement is needed for practical use. |
キーワード |
(和) |
機械学習 / 読唇術 / 画像処理 / 自然言語処理 / / / / |
(英) |
Machine Learning / Lip Reading / Image Processing / Natural Language Processing / / / / |
文献情報 |
映情学技報, vol. 48, no. 16, AIT2024-151, pp. 37-40, 2024年6月. |
資料番号 |
AIT2024-151 |
発行日 |
2024-05-29 (AIT) |
ISSN |
Online edition: ISSN 2424-1970 |
PDFダウンロード |
|