[B! PDF][text] kenjiro_nのブックマーク

pdftotextでPDFを文字列化 – IT研究所

最近の人工知能ブームでテキストマイニングから法則を発見するといったこともしばしば行うようになってきました。 PDFから文字列を抽出する方法をメモっておきます環境mac os 10.11インストールまずはpdftotextをインストールします $ brew install homebrew/x11/xpdf-japanese このまま実行するとエラーになります $ pdftotext test.pdf Syntax Error: No font in show Syntax Error: Unknown character collection 'Adobe-Japan1' こちらを参考に修正します $ wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz $ tar zxvpf xpdf-japanese.tar.gz $ mk

kenjiro_n 2021/03/10

pdf
text

リンク

【 pdftotext 】コマンド――PDFファイルからテキストを抽出する

本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、PDFファイルからテキストを抽出する「pdftotext」コマンドです。

kenjiro_n 2021/03/10

pdf
text

リンク

PDFから全テキストを抽出する方法 - bitA Tech Blog

ウェブサイトをスクレイピングする、というのはよくある話ですが、業務のなかで”大量のPDFファイルからテキストデータを抽出する”必要がでてきました。今回は、Pythonモジュールである「PDFMiner.six」を利用して、実際にPDFからテキストを抽出する方法を紹介していき…

kenjiro_n 2021/03/10

リンク

PDFから文章を抽出する - 或る阿呆の記

PDFファイルから文章を抽出するあれこれ。画像化されているやつはOCRをかけることになるが、本記事では対象外。Mac環境下で実行。大きくわけて、コピペする、Adobe Reader DCを使う、pdftotextを使う、pythonのpdfminer.sixを使う、のパターンで。ビューアで開いてコピペ言わずもがな。PDFファイルを開いて、ビューアーからコピペする。原始的だけれど、なんだかんだ言ってそこそこの精度。 Adobe Reader DCの機能を使う Adobe Reader DCは最近何かとお金を取るようになったらしく、インターネットで検索した情報を元にやってみると、その機能が有料化されていることがしばしばある。が、テキストの抽出は今のところ問題ないらしい（Word変換などはお金がかかる）。「ファイル」→「その他の形式で保存」→「テキスト」と選択すると、テキストのみ抽出でき