eellife
2 years ago1,000+ Views
光学文字認識が歴史をスキャンする
凸版印刷、江戸以前のくずし字を高精度にOCRする技術を開発http://ascii.jp/elem/000/001/025/1025165/ すでにテキストデータ化済みの文献をくずし字のデータベースとして用いることでくずし字を判読するもの。原理検証実験では、くずし字で記されている書物を80%以上の精度で、専門家の判読に比べて大幅なコスト削減と大量処理が可能という。
80%というのは高そうだが、我々が普段利用するレベルでは無い。 おそらくは当座学術支援用と考えられる。 ただ、「基本、読み取れる」と思うか、「まだまだ実用的でない」と語るかは、大きな差だろう。読み取れる範囲は増えている。これらを限界まで近づけるといつかすべてがデジタルデータとして残せることになるのだろうか。
さすれば、そのデータを解析することで、人間の脳の使い方の変化がわかるかもしれない。
有史=歴史とは、文字による記録があること。
未来に過去の可能性を感じるとは不思議なものだ。
ニュースリリース http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html 凸版印刷は、本技術による、くずし字で記された古典籍のテキストデータ化サービスを2015年夏より試験的に開始する予定です。今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図ります。さらに本技術を発展させ、現代語への翻訳、多言語翻訳、システム公開などを通して、異分野との研究融合や教育への普及、日本文化の諸外国へむけた情報発信の進展といった新しい文化の創出に貢献していきます。
0 comments
1
Comment
3