TessOCRの概要 tesseractは,HP社の研究所で1985〜1995年に開発され,現在はGoogle社に引き継がれた,日本語も含む多言語向けの光学文字認識(Optical Character Recognition)エンジンです。その文字認識の対象は,活字体です。tesseractはコマンド・ライン・ツールですので,一般の利用者にとっては使いづらいツールと思われます。すでにTesseractOCR,VietOCR,PDF OCR Xといった,GUIを介してtesseractを駆動するツールが登場しておりますが,古い書籍の文字認識を行う私の用途では,ボックスの編集,文字認識辞書の生成,テキストの編集などの統合的な機能も必要なことから,TessOCRの開発を思い立った次第です。私(岸 和孝)はインターネット上で公開されている多くの情報を参考にしてTessOCRを開発しました。関係者の