2007.05.08 Pure-Python の PDF 読み込みのためのライブラリ テーマ:プログラミング言語 Python を使う(336) カテゴリ:Python Pure-Python の PDF 読み込みのためのライブラリ pyPdf を使ってみる。Pure Python PDF to text converter のようにして日本語のファイルを読み込ませてみると、ちゃんとテキストを抽出できたと思ったら、ファイルによって扱えたり、だめだったりする。画像が入った 2M ほどのファイルを読み込ませたらかなり時間がかかった上にとんでもないことになった(ビープ音が鳴り続いて、文字化け状態の出力が延々続く)。試すときは、いったんファイルにリダイレクトしてテキストエディタで開いて確認しないと悲惨。 お勉強用か、がんばってハックして日本語でも大丈夫なように書き換えるかしないと使えない。ソースは