最近の人工知能ブームでテキストマイニングから法則を発見するといったこともしばしば行うようになってきました。 PDFから文字列を抽出する方法をメモっておきます 環境mac os 10.11インストールまずはpdftotextをインストールします $ brew install homebrew/x11/xpdf-japanese このまま実行するとエラーになります $ pdftotext test.pdf Syntax Error: No font in show Syntax Error: Unknown character collection 'Adobe-Japan1' こちらを参考に修正します $ wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz $ tar zxvpf xpdf-japanese.tar.gz $ mk