NDL古典籍OCR-Liteの公開について
NDL古典籍OCR-Liteの公開について
NDLラボ公式GitHub(外部サイト)から、NDL古典籍OCR-Liteを公開しました。
NDL古典籍OCR-Liteは、ノートパソコン等の一般的な家庭用コンピュータやOS環境で、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量なOCRです。
GPU(Graphics Processing Unit。画像描画等の高度な並列計算を処理する装置。)がなくとも軽量なOCR処理が可能となりました
NDL古典籍OCR-Lite
- GitHubリポジトリ(https://github.com/ndl-lab/ndlkotenocr-lite )
これまで国立国会図書館が実験的に開発したプログラム(NDL古典籍OCR)では、実行環境にGPUを必須としていましたが、この点を「NDL古典籍OCR-Lite」では解消しています。
あわせて、デスクトップアプリケーションを用意しているため、マウス操作のみで簡単にお使いいただけます。
Windows(Windows 10)、Mac(macOS Sequoia)及びLinux(Ubuntu 22.04)の各OS環境において動作を確認しています。
NDL古典籍OCR-Liteは、国立国会図書館がCC BY 4.0ライセンスで公開しています。詳細はGitHubのREADMEをご参照ください。
古典籍資料のテキスト化に関する概要については、次をご参照ください。
なお、これまで提供していたNDL古典籍OCRについても、引き続き同リポジトリ(https://github.com/ndl-lab/ndlkotenocr_cli )からご利用いただけます。
(留意点)
資料により得意・不得意があります。また、公開時点ではNDL古典籍OCR ver.3と比較すると読み取り精度が平均して約2%程度低下することが分かっています。
今後、精度についてもNDL古典籍OCRと同等以上の水準を目指して改善を図ります。