2008年4月18日金曜日

検索エンジンと日本語OCRの問題

Googleは著作権の切れた書籍のスキャニングによる電子化を行っている。

日本の国立国会図書館、大学の図書館なども直接スキャニングやマイクロフィルム経由によるスキャニングによる電子化を行っている。

日本語の場合、問題がある。縦書き、横書き、左右どちからの書き出しかによる記述方法が時代や書き方によって違うためだ。また、使用された漢字のデザインが時代毎に異なるのと、特に近年はJISによる度重なる漢字コードの変更に伴う参考とされる書体デザイン変更がありOCRするには非常に厳しい状況にある。

Googleがこの問題を解決できたら非常にすばらしい偉業になるだろう。

写真の中やスキャニングした画像データとしての文書の中の日本語の文字を正確にORCできればテキストファイルの中身を検索するように文字検索が可能になる。
そうすれば、講演の写真の出席者名も検索対象にできる。そうなれば、情報の関係性を網羅でき核心を知ることに一歩近づくのではないだろうか。

0 件のコメント: