約2カ月前、あるニュースに目が釘付けになった。凸版印刷が、江戸時代以前のくずし字を自動解読し、テキストデータ化する「くずし字OCR」なる技術を開発した、というのだ。多くの人にとっては日常的なニュースの一つかもしれない。しかし、大学時代に日本史を専攻・研究していた筆者にとっては驚くべき事態だ。
くずし字は、そう簡単に読めるものではない。少なくとも筆者はマスターできなかった。いくらテクノロジーの進化が日進月歩とはいえ、OCRで自動解読できるとは、にわかに信じがたいことだ。真相を探るべく、凸版印刷に向かった。出迎えてくれたのは、同社情報コミュニケーション事業本部の大澤留次郎氏と山本純子氏だ(写真)。
文字の区切りを判別するのは困難
既に3回も“くずし字”という言葉を使ってしまったが、そもそもくずし字とは何かというと、明治時代以前の人々が使っていた書体の一種だ。山本氏が開いている本に並んでいるのがくずし字で、まぎれもない日本語だ。多くの古文書や古典籍が、こうしたくずし字で書かれている。
1文字だけ抜き出してみても読むのが難しい。百聞は一見にしかず。下の青枠で囲った文字をご覧いただきたい(図1)。ひらがななのだが読めるだろうか。ちなみに大澤氏によると「初級問題」らしい。