講演抄録/キーワード |
講演名 |
2020-02-27 14:40
ワードスポッティングを用いた古文書における文字の位置推定アルゴリズム ○永谷 黎・鈴木雅人・北越大輔(東京高専) |
抄録 |
(和) |
現在,劣化の進む古文書の保存を目的として,古文書のデータベース化が行われている.専門家が不足しているため解読作業が滞っており,これまでは従来のOCR技術を用いた自動認識の利用も試みられてきた.しかし,古文書の崩し文字は自動で区切るのが困難であるため,すべての文字を手作業または半自動で区切る必要があった.本研究では,同じ単語の文書内での位置を検索するワードスポッティングを用いて,文字の区切りと認識処理を同時に行うことにより,古文書のテキスト化の手間を削減する手法を提案する.提案手法では,平仮名各字種に対して検索を行った結果から位置と字種を確定し,次の検索範囲から除外する処理を付与する.また,処理を各字種の出現頻度や精度によって定められた優先度に従って順番に行う.その結果,文書内から同字種を数ヵ所切り出す作業を繰り返すだけで,一字種毎に数分でテキスト化を行うことが可能となる.複数の資料で精度評価をしたところ,文書内に登場する字数の3~4割程度を正しく検出することができた. |
(英) |
At present, digitalization of historical documents is carried out to preserve the degraded documents. Digitalization work has been stagnated due to lack of experts; therefore, the traditional OCR technology has been also used. However, all characters of historical documents had to be separated manually or semi-automatically, since it is difficult to automatically separate the connected characters in cursive style. In this paper, we propose a method to reduce the time and effort for making historical documents into text by performing character segmentation and recognition processing simultaneously using Word Spotting. In this method, position and character type are determined from the result of Word Spotting for each character type of Hiragana, and these areas are excluded in the next processing. And, the processing is carried out sequentially according to the priority determined by frequency of appearance and accuracy of each character type. As a result, it is possible to detect the character areas for each character type in a few minutes by specifying several areas of this character in the document. In the experiments on a proposed algorithm, 30 to 40% of characters in some documents can be detected correctly. |
キーワード |
(和) |
古文書認識 / ワードスポッティング / DTW / 崩し文字 / / / / |
(英) |
Historical Document Recognition / Word Spotting / DTW / Cursive Style / / / / |
文献情報 |
映情学技報 |
資料番号 |
|
発行日 |
|
ISSN |
|
PDFダウンロード |
|
|