Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

pdfに関するmima3のブックマーク (4)

  • PythonでPDFのレイアウトを維持したまま翻訳してみる - Qiita

    はじめに PDFを機械翻訳する方法は色々ありますが、レイアウトを維持して翻訳をするという意味ではDocTranslatorが使いやすいです。 しかしながら、サイズの制限があるらしく、PDF32000_2008.pdfなどは翻訳に失敗してしまいます。 今回はレイアウトを崩さずに翻訳する方法を考えてみます。 なお、結論からいうと、今回説明する方法は面倒くさいので、別の方法でいいなら別の方法をお勧めします。 PDFに注釈として訳を埋め込む DocTranslatorのように文にレイアウトを崩さずに訳を埋め込めるならば、いいのですが、色々うまくいかなと予測できるので、注釈として訳を埋め込むことにします。 たとえば、PDF32000_2008.pdfを翻訳した場合の結果は以下の通りになります。 http://needtec.sakura.ne.jp/doc/tmp/output.pdf ※Adob

    PythonでPDFのレイアウトを維持したまま翻訳してみる - Qiita
  • PDF文書からテキストを抽出する - のほほん徒然

    第二十一回 論文PDFをHyper Estraierで検索できるようにするため,PDF文書をインデックスに登録する必要がある.しかし,Hyper Estraier付属のPDF文書用スクリプトはHTML文書に変換した後,インデックスに追加するという動作をしていた.さらに,タイトルにPDF文書のファイル名ではなく,PDFが作成された際に付けられていたファイル名を付けてしまうなど,いまいちこちらのニーズに合わなかったので自分で作っちゃうことにした. 来は,シェルスクリプトで書かれた標準添付されたスクリプトを書き直すべきなのだろうが,今回はAPIを使用してRubyスクリプトを作りたかった.そこで,まずはPDF文書からテキストを抽出することから始めてみた. 様々なツール・ソフトがあるようだが,自分は「pdftotext」を使ってみることに.これは,「xpdf」というLinux用ソフトに添付されてい

    PDF文書からテキストを抽出する - のほほん徒然
    mima3
    mima3 2013/07/14
  • Xpdfのインストールでちょっとハマったのでメモ[Mac OS X] | Basic Werk

    PDFからプレーンテキストを抜き取る(pdftotext)コマンドなんかが使えるようになるライブラリー = Xpdf のインストールでちょっとハマったのでメモ。 環境は Mac OS X Mountain Lion。 結果から言うと、なぜかMacPortsでもHomeBrewでもうまく行かず、結局バイナリーからインストールしました。 まずはXpdfのホームページから2つの圧縮ファイルをダウンロード。 www.foolabs.com/xpdf/download.html xpdf-3.xx.tar.gz: the source code Japanese: xpdf-japanese.tar.gz あとはターミナルで、 $ tar xzvf /download_dir/xpdf-3.xx.tar.gz $ cd /download_dir/xpdf-3.xx $ ./configure $

    mima3
    mima3 2013/07/13
  • https://7finearts.com/

    mima3
    mima3 2008/12/07
  • 1