PDFのOCR化でファイルサイズが小さくなる理由
すみません。
どなたか、回答よろしくお願いします。
印刷されたドキュメントをスキャンして、PDFファイルで保存した後、スキャンソフトにOCR化の機能が付いていたので、OCR化すると、ファイルサイズがかなり小さくなりました。
これはなぜでしょうか。
最初は、画像データが文字コードに置き換えられたからだと思っていたのですが(OCRの原理を調べてもそのようなことが書いてあったので。)、そのファイルの文字をみても、文字の形(フォント等、かすれ具合等)はどうみてもOCR化される前の画像データ?と変わりません。
そうすると、OCR化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。
でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。
そもそもPDFファイルの仕組み(まったくの画像データではないようですね。)や、OCRの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。
よろしくお願いします。