[B! pdf] mima3のブックマーク

mima3 id:mima3

pdfに関するmima3のブックマーク (4)

PythonでPDFのレイアウトを維持したまま翻訳してみる - Qiita
はじめに PDFを機械翻訳する方法は色々ありますが、レイアウトを維持して翻訳をするという意味ではDocTranslatorが使いやすいです。しかしながら、サイズの制限があるらしく、PDF32000_2008.pdfなどは翻訳に失敗してしまいます。今回はレイアウトを崩さずに翻訳する方法を考えてみます。なお、結論からいうと、今回説明する方法は面倒くさいので、別の方法でいいなら別の方法をお勧めします。 PDFに注釈として訳を埋め込む DocTranslatorのように本文にレイアウトを崩さずに訳を埋め込めるならば、いいのですが、色々うまくいかなと予測できるので、注釈として訳を埋め込むことにします。たとえば、PDF32000_2008.pdfを翻訳した場合の結果は以下の通りになります。 http://needtec.sakura.ne.jp/doc/tmp/output.pdf ※Adob
mima3 2020/05/10
python

pdf
リンク
PDF文書からテキストを抽出する - のほほん徒然
第二十一回論文PDFをHyper Estraierで検索できるようにするため，PDF文書をインデックスに登録する必要がある．しかし，Hyper Estraier付属のPDF文書用スクリプトはHTML文書に変換した後，インデックスに追加するという動作をしていた．さらに，タイトルにPDF文書のファイル名ではなく，PDFが作成された際に付けられていたファイル名を付けてしまうなど，いまいちこちらのニーズに合わなかったので自分で作っちゃうことにした．本来は，シェルスクリプトで書かれた標準添付されたスクリプトを書き直すべきなのだろうが，今回はAPIを使用してRubyスクリプトを作りたかった．そこで，まずはPDF文書からテキストを抽出することから始めてみた．様々なツール・ソフトがあるようだが，自分は「pdftotext」を使ってみることに．これは，「xpdf」というLinux用ソフトに添付されてい
mima3 2013/07/14
pdf
リンク
Xpdfのインストールでちょっとハマったのでメモ[Mac OS X] | Basic Werk
PDFからプレーンテキストを抜き取る(pdftotext)コマンドなんかが使えるようになるライブラリー = Xpdf のインストールでちょっとハマったのでメモ。環境は Mac OS X Mountain Lion。結果から言うと、なぜかMacPortsでもHomeBrewでもうまく行かず、結局バイナリーからインストールしました。まずはXpdfのホームページから2つの圧縮ファイルをダウンロード。 www.foolabs.com/xpdf/download.html xpdf-3.xx.tar.gz: the source code Japanese: xpdf-japanese.tar.gz あとはターミナルで、 $ tar xzvf /download_dir/xpdf-3.xx.tar.gz $ cd /download_dir/xpdf-3.xx $ ./configure $
mima3 2013/07/13
pdf
リンク
https://7finearts.com/
mima3 2008/12/07
pdf

trac
リンク
1