The best of CES 2025Presenting our 12 finalists, plus the winner of our best in show award.
誰もが一度はイラっとさせられたであろう文字認証「CAPTCHA」。ユーザがコンピュータで無いことを確認するセキュリティ機能のひとつですが、近年、これを解読することは「本のテキスト化」に協力することと同義になりました。同システムの開発者でクラウドソーシングも発案した起業家、Luis von Ahn(ルイス・フォン・アン)氏が、7億5,000万人が参加するプロジェクトが生まれたキッカケを語ります。(TEDxCMU 2011より) 誰もが一度はイラっとさせられるCAPTCHA(キャプチャ) ルイス・フォン・アン氏:このように、ゆがめられた文字の並びを読んで埋めるタイプのウェブフォームを見たことのある人は何人いますか? これを見て本当にいらいらすると感じた人は何人いますか? はい、すばらしいですね。私がこれを発明しました。私がこれを発明したメンバーの1人です。 (会場笑) これはCAPTCHAと呼
連載目次 アプリの中でOCR(光学文字認識)機能を使いたいと思ったことはないだろうか? 例えば、名刺を読み取って電話番号やメールアドレスなどをデータベースに登録したい、あるいは、商品コードを読み取って検索したいといったような場合だ。そのようなことが、マイクロソフトから提供された「Microsoft OCR Library for Windows Runtime」のOcrEngineで可能になった。 本稿では、OcrEngineを利用する実装方法を解説する。なお、本稿のサンプルは「Windows Store app samples:MetroTips #91」からダウンロードできる。 事前準備 ユニバーサルプロジェクトを使ってユニバーサルWindowsアプリを開発するには、以下の開発環境が必要である。本稿では、無償のVisual Studio Express 2013 for Windows
原子力規制委員会がWebサイトで公開している資料の中で、「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていたとネットユーザーに指摘され、サイトを公開している原子力規制庁が修正する騒ぎがあった。画像PDFをテキスト化する際、文字認識(OCR)ソフトが間違った文字を認識してしまったことが原因という。 誤字があったのは、今年1月に開かれた「第10回特定原子力施設監視・評価検討会汚染水対策検討ワーキンググループ」の会議資料一覧ページ。「福島第一原子力発電所におけるストロンチウム分析の状況について[東京電力]」という資料の「ト」と「ロ」がそれぞれ漢字になっており、「検索避けのためにあえて漢字にしたのでは」などと一部ネットユーザーの間で騒ぎになっていた。 同庁によると、Webサイトに掲載するテキストは通常、手打ちで確認しているが、この会議は資料が届いたタイミングがギリギ
インターネット上で原発関連の情報を検索する際、正しい語句でなく一部を「当て字」にすると、通常の検索では上位に表示されない文書が続々と出てきたと、ネット掲示板やツイッターで報告された。 例えば「ストロンチウム」の「ト」を漢字の「卜(ぼく)」に、「ロ」を漢字の「口(くち)」に書き換えて入力する。「誤表記」にもかかわらず、実際は東京電力や原子力規制委員会、各自治体の文書が並んだ。「不都合な情報を隠すため、当局がわざと文字を置き換えたのではないか」という疑いも出ている。 東電や原子力規制委員会が公表しているPDF文書が続々 原子力という語句の「力(りょく)」をカタナカの「カ」に換えて検索したら驚きの結果になった――。2014年6月8日ごろから、ネット上にこんな内容が書き込まれた。 グーグルで「原子力」と検索すると、トップ画面にはウィキペディアのリンクや「原子力のニュース検索結果」、独立行政法人日本
メモを取りたいのに時間がなくてメモしきれない。過去のメモはメモ帳ごとなくてしまってもう探せない… こうした経験があるなら「Evernote」は大いに役立つかも。その特長や無料版と有料版の違い、向いていない用途について説明する。 どんな仕事でも、「これはメモしておかなくては」と感じる場面がある。でも実際には、メモを取るには情報が多すぎたり、時間が限られていたりして、満足なメモを作れないことがある。メモを取れたとしても、あとで探したときにたくさんのメモから見つけられなかったり、そもそもメモ帳やテキスト・ファイルをなくしてしまったりすることもある。 こういった経験があるなら、本稿で紹介するクラウド・サービス「Evernote(エバーノート)」によって、メモに関する課題を解決できるかもしれない。本稿では、すでに2000万人以上のユーザーによって利用されているこのサービスをまだ使ったことがない人を対
独自エンジンで画像から文字を認識し、Word/ExcelファイルやRTF/HTML/CSV/PDF形式で保存できる日本語OCRソフト「SmartOCR Lite Edition」v1.0.3が、17日に公開された。Windows XP/2000に対応するフリーソフトで、現在作者のホームページからダウンロードできる。 「SmartOCR Lite Edition」は、独自のエンジンを搭載したOCRソフト。スキャナー画像やBMP/TIFF/JPEG/PNG/GIF/WMF/EMF形式のファイルから読み取った文字情報をテキスト文字列に変換してTXTファイルとして保存できるほか、元画像のレイアウトや表組みを保持したWord/ExcelファイルやRTF/HTML/CSV/PDF形式でも保存できる。また元画像にテキスト情報を埋め込み、画像を選択してテキストコピーしたり文字列検索ができる“透明テキストつ
PDFファイルやスキャナで読み込んだ文書の画像ファイルをGoogle Docsにアップロードすると、編集可能なテキストファイルに変換できる機能が横書きの日本語に対応した。 米Googleは2月28日(現地時間)、昨年6月にGoogle Docsに追加したOCR(光学式文字認識)機能を、新たに日本語を含む29カ国語に対応させたと発表した。日本語のPDFやスキャナやデジカメで取り込んだ文字を含む画像をGoogle Docsにアップロードすると、ファイルがテキストデータに変換される。 使い方は、Google Docsの「アップロード」の画面で変換オプションを以下のように設定し、「アップロードを開始」をクリックする。変換が可能なファイル容量の上限は2Mバイトだ。 実際にやってみたところ、PDFではほぼ問題なくテキストに変換されたが、デジカメで撮影した画像からの変換の精度はまだ高いとはいえないようだ
OCRで書類を読ませるために、わざわざ一度プリントしてから、ドキュメントスキャナに...なんていう経験はないでしょうか? ブログ「Blog.IKUBON.com」で紹介されていた「n1ne@freeOCR」を使えば、そんな必要はありません。スキャナが無くても、OCRが無料で使えちゃいます。 使い方も簡単。テキスト化したいファイルを添付して、メールで送るだけなのです。 対応している拡張子は、 .bmp .dib .rle .dcx .djvu .djv. gif. jb2 .jbig2 .jp2 .j2k .jpg .jpeg .pcx .pdf .png .tif .tiff .xps と、よく見るものからそうでないモノまで、かなり豊富。 これらのファイルであれば、ocr@n1ne.netに添付して送ると、画像をテキスト化して、doc,docx,pdfのファイル形式で送り返してくれるそうで
昨日ツイッターのフォロワーさんがTLで「人を殴ったらかなり痛いくらいの紙書類の束渡されて、一晩で再編集とか死ぬる」とおっしゃってまして、まだまだ紙ベースの業務進行ってありますしPCに取り込んで効率的にさばくにはどうしたらいいだろうなーと思いまして。 調べてみたところ、GoogleDriveでもテキストスキャンした画像ファイルをOCR変換する機能があるらしくちょっとサンプル作って試して見ましたので本日はそのレビューを。 【追記】縦書き版の検証記事も書いときました。あわせて参考にどうぞ。 GoogleDriveOCR、縦書きだったらどうなのよ? Google Drive OCRの使い方 GoogleDrive利用するにはとりあえずGoogleアカウント必要なのでない方はまずそちらのご用意を。GoogleDriveの導入については過去に サービス開始したオンラインストレージ『Google Dri
OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。 デモサービスで試せます 今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。 デモサービスでは、BMP/JPEG/PBM/PGM/PPMのファイル(さらに各ファイルをGZip圧縮していても可能)をアップロードすると、それを解析した結果を日本語表示してくれる。日本語OCRとあって、漢字/ひらがな/片仮名/英語などが判別可能になっている。 読み取らせた画像 手書き文字であっても認識率はそこそこ高い。正式リリースがまだという段階にあ
Convert scanned images into editable text. Free Online OCR is a free service that allows you to easily convert scanned documents, PDFs, scanned invoices, screenshots and photos into editable and searchable text, such as DOC, TXT or PDF. The service is completely free and you don't need to register or install anything on your computer. Just select an image file and click Convert. You can immediatel
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く