防衛省がこのほど公表し、朝日新聞デジタルで公開された、自衛隊のイラク派遣の際の活動報告(日報)の「日誌」の内容が、「読みものとして面白い」などと話題になっている。ただ日報はPDF形式で、日ごとにファイルが分かれており、日誌部分はごく一部。PDFをいちいち開き、日報部分を探すのはとても大変だ。 そこで、日誌の部分だけを抜き出し、画像とテキストで読めるブログ形式のWebサイト「自衛隊イラク日報 バグダッド日誌/バスラ日誌 一覧」を、個人開発者の@akiyanさんが公開した。ツイートボタンも備えており、面白い日誌を見つけたらTwitterに投稿することもできる。 @akiyanさんは、日報のPDF(計約8000ページ)をダウンロードし、JPEGに変換した後、画像からテキストを抽出するOCR機能を備えたGoogleのAPI「Google Cloud Vision API」を使って文字を抽出。その上