2014-01-15 Tesseract-OCRの学習 Tesseract-OCRはHPが開発し現在はGoogleが公開しているオープンソースのOCRエンジンです。 オープンソースのOCRエンジン Tesseract-OCRでTesseeract-OCRで日本語の読み込みまでは説明しました。今回はTesseract-OCRで機械学習を行い精度を向上させるための方法を説明します。 僕は基本的に以下の公式のチュートリアルを読みながらやって行きました。Tesseract Training Wiki https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3大まかにやることは3つあります。 boxファイルの作成 trファイルの作成 トレーニングデータの作成 boxファイルの作成 まず学習したい画像ファイルを用意します。今回