OCRの人気記事 294件 - はてなブックマーク

1 - 40 件 / 294件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

OCRの検索結果1 - 40 件 / 294件

OCRに関するエントリは294件あります。 AI、人工知能、画像などが関連タグです。人気エントリには『中日新聞:自動車工場のガロア体　ＱＲコードはどう動くか』などがあります。

中日新聞:自動車工場のガロア体　ＱＲコードはどう動くか
- 2010 users
- static.chunichi.co.jp
- 学び
- 2021/12/08
その誕生を地元新聞も経済新聞も記事にしなかった。２年後、『コードの情報を白黒の点の組み合わせに置き換える』と最下段のベタ記事で初めて紹介された時、その形を思い浮かべることができる読者はいなかった。いま、説明の必要すらない。ＱＲコードはなぜ開発され、どう動くのだろうか。ＱＲコードは、自動車生産ラインの切実な要請と非自動車部門の技術者の「世界標準の発明をしたい」という野心の微妙な混交の下、1990年代前半の日本電装（現デンソー）で開発された。トヨタグループの生産現場では、部品名と数量の記された物理的なカンバンが発注書、納品書として行き来することで在庫を管理する。そのデータ入力を自動化するバーコード（ＮＤコード）を開発したのがデンソーだ。バブル全盛の1990年ごろ、空前の生産台数、多様な車種・オプションに応えるため、部品も納入業者も急激に増え、ＮＤコードが限界を迎えていた。63桁の数字しか
- 技術
- あとで読む
- 数学
- 開発
- QRコード
- 読み物
- 歴史
- 画像
- 科学
- math
さようなら、全てのエヴァーノート - 本しゃぶり
- 1820 users
- honeshabri.hatenablog.com
- テクノロジー
- 2024/04/14
2011年6月10日、Evernoteを使用開始。 2014年9月19日、有料プランに加入。 2024年3月23日、クソみたいなメールが届く。プラン、廃止いつも Evernote をご利用いただき、ありがとうございます。このたびは今後の Evernote 登録プランに関する変更についてご案内させていただきます。お使いの Evernote アカウントは Plus から Personal に移行されました。Evernote Plus など、一般のお客様に数年間ご利用いただけなかった従来の登録プランが廃止となったためです。この変更により、Personal プランで利用可能な機能すべてをご利用いただけます。今後はAnnualの登録プランが現在の Evernote Personal プランの料金 129.99 USD/Yearに合うように更新されます。この料金は次の更新日である2024/4/
- obsidian
- evernote
- webサービス
- あとで読む
- Notion
- ツール
- サービス
- AI
- メモ
- 生活
日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました｜Kotaro.Kinoshita
- 1446 users
- note.com/kotaro_kinoshita
- テクノロジー
- 2024/11/26
はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ
- OCR
- あとで読む
- python
- AI
- 日本語
- 開発
- ツール
- LLM
- 画像
- 仕事
「私はロボットではありません」はワンクリックでなぜ人間を判別できる？仕組みとその限界を聞いてきた
- 855 users
- staff.persol-xtech.co.jp
- テクノロジー
- 2021/02/16
2021.02.16 「私はロボットではありません」はワンクリックでなぜ人間を判別できる？仕組みとその限界を聞いてきた WebサイトにIDとパスワードを入力するとき、ときどき「私はロボットではありません」にチェックを求められることがあります。僕はロボットではないので、当然チェックを入れて認証を進めるわけですが……。でもちょっと待ってください。なぜクリックひとつで、人間かロボットかを判断できるんでしょう。これはきっと、人間ではないなんらかの不正アクセスを防ぐ仕組みのはず。でもチェックを入れるくらい、プログラムを作ってなんやかんやすれば、シュッとできるのでは？「私はロボットではありません」は、どんな仕組みで人間とロボットを判別しているのか。もっといい方法はないのか。これまでの歴史的経緯も含め、情報セキュリティ大学院大学の大久保隆夫教授に聞きました。気づかないうちに「人間かロボットか」
- セキュリティ
- あとで読む
- security
- 技術
- captcha
- webサービス
- ロボット
- 認証
- web
- IT

LINEヤフー株式会社
- 853 users
- www.lycorp.co.jp
- テクノロジー
- 2021/03/04
「LINEヤフーDesign 公式note」 LINEヤフー株式会社のデザインに関連するさまざまな情報を発信するLINEヤフーDesign 公式noteです。
グーグルレンズの「パソコンにコピー」が地味に便利だという話 - 世界のねじを巻くブログ
- 665 users
- www.nejimakiblog.com
- テクノロジー
- 2022/11/13
Google Lensでテキストをスキャンいきなりですが、グーグルクローム関連の小ネタを３つ紹介。 Google Lensでテキストをスキャン二窓検索機能タブ検索まず一つ目は、現実世界にある文字・テキストをスマホのGoogle Lensのアプリで読み取り文字起こしして、 PCのGoogle Chromeに飛ばすというライフハック。パソコンで作業してるときけっこう使えます。まずはグーグルレンズで文字を読み込み、場所・範囲を選択。そして上記画像の下部に「パソコンにコピー」ってあるのわかりますかね？？これをタップすれば、Google Chromeにコピーされ、あとは　PC上でCtrl+V コピペできるようになります。例として上記画像の、サンタナのアルバム『キャラバンサライ』ライナーノーツから。肉体は溶けて宇宙に変わる宇宙は溶けて静寂の音に変わる音は溶けてまばゆい
- chrome
- google
- あとで読む
- PC
- 便利
- お役立ち
- 検索
- パソコン
- ツール
- OCR
スマホにカメラついてるんだからOCRできるでしょという気持ち - Progate Tech Blog
- 555 users
- tech.prog-8.com
- テクノロジー
- 2020/12/10
どうも、株式会社Progate で SoftwareEngineer チームのマネージャーをしています @satetsu888 です。本記事は Progate AdventCalendar 2020 10日目です。普段仕事ではエンジニア組織のことやプロダクトの技術戦略的なことを考えたり、ミーティングしたり採用活動したりタスクをお願いして回ったりなどを担当していますが、今日はそういうのとはなんの関係もないただの日常の話を書こうと思います。ことの始まり我が家では子どもの朝ごはんとして週に2,3回くらいの頻度でポケモンパンを買っています。先日(2020/09/18 ~ 11/24) ポケモンパンについてるポイントを5点集めるとポケモンシールホルダーの抽選に1回応募できるキャンペーンがありました。（キャンペーン自体はすでに終了しています）いつも通りのペースでパンを買ってると何回か挑戦で
国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) - Qiita
- 535 users
- qiita.com/yanosen_jp
- テクノロジー
- 2025/03/26
はじめに日本語OCR, 有料の業務用ソフトには色々と高性能なものがあるんですが、無料の場合の選択肢は意外に限られてます。最近ではGeminiなどにOCRさせることも試みてますが、縦書きに弱いのが欠点。加えて、私がやっているような著作権が切れた戦前の本のデジタル化の場合、認識率の低い旧字体が多いのが悩みの種。そこで最近知ったのが、国立国会図書館が公開しているOCRライブラリ、NDLOCRです。国会図書館のデジタル資料（国立国会図書館デジタルコレクション)から全文テキストデータを作成するために開発されたとのこと。 NDLOCRは、現在ver2.1がGithubに公開されています。古い本が多い国会図書館の資料向けに作られているだけあって、旧字体でも高い精度で認識してくれます。今回は、このライブラリを試してみました。基本、Githubサイトに書いてある通りなんですが、いくつか注意すべき点をメモ
- OCR
- あとで読む
- Windows
- ライブラリ
- docker
- 図書館
- プログラミング
- linux
- 技術
- library
GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita
- 506 users
- qiita.com/watanabe-tsubasa
- テクノロジー
- 2024/02/27
名刺管理アプリ作ってほしいといわれたそれは2/22のお話。ことの発端は別の部署からかかってきた一本の電話でした。新規事業の部署でいろいろな取引先様と付き合いがあるものの、紙の名刺が非常に多く管理に困っているとのことのことです。私は小売業に勤務しているしがない一社員で、現在Eコマースの戦略立案に関する部署に所属しています。電話先の方は、以前一緒の部署で勤務したことがある方です。現在新規事業のプロジェクト推進をしており、冒頭のような課題感を持っているため既存の名刺管理アプリ導入を考えたのですが、あまりのお値段の高さに卒倒して私に藁をもすがる思いで連絡されたようです。これまでのアプリは名刺の識別専門のAI（）を使っていた話を聞いてみたところ、名刺の写真を撮る会社名、部署名、名前、…など項目別にスプレッドシートへ記載されるスプレッドシートに次の打ち合わせ日を記載しておくと通知さ
- ChatGPT
- あとで読む
- AI
- OCR
- python
- api
- アプリ
- GPT
- LINE
- プログラミング
pdfからtextを抜き出す試行錯誤のメモ｜Kan Hatakeyama
- 462 users
- note.com/kan_hatakeyama
- テクノロジー
- 2024/02/23
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。参考記事導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。解析コード： from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード： for structure in pdf_elements: print(structure) 結果：残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ
- PDF
- あとで読む
- python
- LLM
- AI
- テキスト
- ツール
- ドキュメント
- 自然言語処理
- メモ
【Python】Kindleの洋書1冊を1分で日本語PDFに変換するコードを書いた話 - Qiita
- 417 users
- qiita.com/1plus1is3
- テクノロジー
- 2022/11/14
動機外資系のAmazonが展開している電子書籍Kindleでは比較的洋書の取り扱いが多いです。 Kindle Unlimitedに登録されている書籍も多く、Springerなんかも含まれているので活用しない手はありません。そこでkindle-translatorをつくりました。 https://github.com/1plus1is3/kindle-translator これで一冊50万字あるKindleの洋書を1分で日本語PDFに変換できます。キーボードの矢印キーでページ送りができるならKindleに限らずあらゆる電子書籍リーダおよびPDFビューワで使え、DeepLが対応している言語であれば英語以外の言語でも翻訳できます(仏→日とか)。未経験からPythonエンジニアになって3ヶ月(うち1ヶ月は研修)が経ち、色々作れるようになった時点でつくったツールなので、改良すべき点もまだまだ
- python
- あとで読む
- Kindle
- PDF
- 翻訳
- プログラミング
- OCR
- 電子書籍
- Qiita
- programming
Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python
- 395 users
- speakerdeck.com/sansandsoc
- テクノロジー
- 2021/09/26
■イベント  ：第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要タイトル：Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者：  技術…
- python
- pdf
- あとで読む
- データ
- プログラミング
- data
- https
- 表
- ライブラリ
- event
岸本元 on X: "国会図書館デジタルコレクションで「ドラゴンクエスト」と検索すると、大正11年に刊行された『本居宣長稿本全集』がヒットする。いくらなんでも大正時代の本居宣長の本にドラクエの話は書かれてないだろと驚いたが、何者かが原本に落書きしたのを読み取ったようだったhttps://t.co/t2DHCNuxgK https://t.co/3oMcKg6yvs"
- 334 users
- twitter.com/bowwowolf
- 学び
- 2023/03/03
- 図書館
- ネタ
- 書籍
- 本
- twitter
- あとで読む
- 国会図書館
- book
- ゲーム
- OCR
PCの操作をすべて録画＆文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」
- 333 users
- gigazine.net
- テクノロジー
- 2024/05/06
PCを使っていると、過去の操作内容やブラウザで閲覧していた情報を思い出したくなるタイミングが頻繁に発生します。そんな時に役立ちそうなPC操作記録アプリ「Windrecorder」がオープンソースで開発されています。 GitHub - yuka-friends/Windrecorder: Windrecorder is a memory search app by records everything on your screen in small size, to let you rewind what you have seen, query through OCR text or image description, and get activity statistics. https://github.com/yuka-friends/Windrecorder I made an o
- PC
- あとで読む
- アプリ
- windows
- データベース
- セキュリティ
- tool
- 検索
- データ
- OCR
Pythonで始めるドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python
- 319 users
- speakerdeck.com/yag_ays
- テクノロジー
- 2021/10/15
ビジネス文書をデータ化し構造や内容を理解するアプリケーションはドキュメント・インテリジェンスと呼ばれ、画像処理や自然言語処理といった複数の要素技術を組み合わせて開発する必要があります。何が必要でどう実現すれば良いのかといった第一歩を、Pythonでの具体的な構築事例とともに紹介します。 https…
はまちや２ on Twitter: "これは東京証券取引所公式の代表の名前が入った一見まともな書類に見えるけど、GoogleはPDF内にある外から見えない注釈等も検索対象にしているらしくて、キャッシュでみると書類に埋め込まれた「うんこ」という文字が可視化される… https://t.co/HCMBx4yqsX"
- 312 users
- twitter.com/Hamachiya2
- テクノロジー
- 2021/09/11
これは東京証券取引所公式の代表の名前が入った一見まともな書類に見えるけど、GoogleはPDF内にある外から見えない注釈等も検索対象にしているらしくて、キャッシュでみると書類に埋め込まれた「うんこ」という文字が可視化される… https://t.co/HCMBx4yqsX
- うんこ
- google
- PDF
- ネタ
- あとで読む
- 仕事
- twitter
- セキュリティ
- security
- 検索
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
- 309 users
- lab.ndl.go.jp
- テクノロジー
- 2022/04/25
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
- OCR
- あとで読む
- github
- 勉強
- 学習
- 資料
- 機械学習
- 図書館
- python
- AI
熊本大学とTOPPAN、くずし字AI-OCRで未解読だった「細川家文書」約5万枚の解読に成功。検索システムも構築
- 307 users
- internet.watch.impress.co.jp
- テクノロジー
- 2024/07/29
- AI
- あとで読む
- 歴史
- 技術
- history
- 文化
- technology
- ocr
- 人工知能
- 学問／研究
GPT-4oをOCRとして使う - Re:ゼロから始めるML生活
- 299 users
- www.nogawanogawa.com
- テクノロジー
- 2024/06/09
OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか？さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね？」って思っちゃったわけです。ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。やりたいことやってみるとりあえずやってみる請求書名刺参考文献感想やりたいこと今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ
- ChatGPT
- あとで読む
- AI
- OCR
- 人工知能
- 文章生成AI
- 画像
- GPT
- レイアウト
macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online
- 292 users
- doratex.hatenablog.jp
- テクノロジー
- 2023/06/29
macOS 12 Monterey では，OSビルトインでのOCR機能が搭載されました。Preview.app で，画像やスキャンPDF（中身がスキャン画像のPDF）に対して，ただマウスでドラッグするだけで，中身の文字を認識して選択し，コピーできるようになっています。さらに，macOS 13 Ventura では，それが日本語にも対応しました。たとえば，（今や入手困難となってしまった）The TeXbook のアスキーによる日本語版をスキャンしたものを Preview.app で開くと，何もしなくても，文字選択できます。これをコピーして他のエディタにペーストすると， TEXの名称で気をつけなければならないことがほかにもある。Eの文字が不揃いになっていることだ。Eの文字を少し下げてあるのは、TeXが組版のためのシステムであることを印象づけるためであり、またほかのシステムの名称と区別するた
- ocr
- mac
- あとで読む
- macOS
- pdf
- コマンド
- app
- command
- コード
- shell
RAGの性能を改善するための8つの戦略 | Fintan
- 282 users
- fintan.jp
- テクノロジー
- 2024/02/09
近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル（Large Language Model：LLM）の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ
- RAG
- LLM
- AI
- あとで読む
- 検索
- チューニング
- ChatGPT
- 自然言語処理
- OCR
- 人工知能
ミスが許されない領域にAIを溶け込ませるプロダクトマネジメントの裏側｜Shohei Yoneda
- 262 users
- note.com/t01062sy
- テクノロジー
- 2024/12/31
このnoteは、2024年12月5日にpmconfで登壇させていただいた内容を再編したものです。イベントの登壇テーマとしては、少し早くてニッチかもしれないと思ったのですが、登壇のスライドは本日時点で1万回以上見ていただいており、思いの外関心を持っていただけたのではないかと思っております。概要私がLayerXで開発に携わっているバックオフィスAI SaaS「バクラク」では、「AIによって業務自体をなくす」という信念の元、開発を行なっています。これは、2040年までに約20%にもなる日本の労働受給ギャップを技術によって解決するためです。一方、AI機能の開発は容易ではありません。生成AIを始めとする技術革新により、デモ開発までの速度は驚くほど向上しましたが、顧客が価値を感じられる機能に至るまでは大きなギャップが存在します。例えば、バックオフィス業務はミスなく完遂することが求められる一方
「〇〇は戦前には存在しなかった」系のデマは今はコレのおかげで簡単に否定できるようになった、って話
- 252 users
- togetter.com
- 学び
- 2023/03/03
リンク Wikipedia 乾杯乾杯（かんぱい）は、盃を飲み干すこと //スペインが起源家庭内から宴席に至るまで広く行われている。場の主催者、またはその指名者が音頭を取り、酒などを注いだ盃やコップを掲げ、「乾杯」と唱和したのち口にする。晩餐会のように改まった会食から酒宴に至るまで、参加者全員が揃った事を契機に、食事や飲み物に手をつけるきっかけとして行われることが多い。遅れて来る者が居る場合、定刻に行ったうえで到着後も改めて行ったり、定刻前に練習と称して飲み始めることもある。基本的にしきたりなので、地域差（都道府県から社内部署に至るま 3 users 3
若者のスクショ共有文化はもう戻せないのでカジュアルOCRを推進すべき - 太陽がまぶしかったから
- 249 users
- www.du-soleil.com
- テクノロジー
- 2020/06/24
若者のスクショ文化若者のスクショ癖を腐すの嫌なんだけど、1万回注意してもアシスタント（25歳）が参考資料などをスクショで送って来るので1万1回目のキレをかましてしまった😢地図でもサイトでもスクショで送ってくる😭情報追えねぇからURL貼れっつってもURL写ってる状態のスクショ送ってくる😭若者のコピペ離れ😭つら— $tina$ (@tinasuke) 2020年6月22日若者がスクショでシェアしがちという話をよく聞く。テキスト形式でないとURLや再利用ができないといった弊害があるからやるべきではないという話になりがちだけど、特にスマートフォンは文章を範囲選択しづらいし、フォントスタイルやイメージなども保存しておこうと思えば、スクリーンショットのが楽だ。自分自身もスマートフォンにおいてはスクリーンショット画像をそのまま Evernote などに保存する事が多い。それでもあまり困らな
古文書を解読できるスマホアプリ　凸版印刷が開発　くずし字対応AI-OCRを活用
- 241 users
- www.itmedia.co.jp
- テクノロジー
- 2022/09/13
凸版印刷ではこの課題を解決するため、2015年から国文学研究資料館と共同研究を開始。古文書対応のAI-OCRの開発に取り組んできた。その中で「手元の古文書を手軽に読みたい」という一般利用者向けのサービスに対する多数の要望があり、今回のアプリ開発に至ったとしている。凸版印刷は今後、2025年度までにAPI提供や関連事業を含め、一般利用者や教育機関、博物館・資料館、地方自治体などのサービス提供を拡大し、約3億円の売り上げを目指す。関連記事ライトを当てると文字や絵が現れるホログラム　凸版が開発　スマホライトで真贋判定強い光（点光源）を当てると、立体的な画像が現れる新たなホログラム「イルミグラム」を凸版が開発。スマートフォンのライトなどで誰でも簡単・正確に真贋判定できる。メタバースでのなりすましを防ぐ　3Dアバターの本人証明ができるセキュリティ基盤　凸版印刷が開発凸版印刷が、メタバース
- 技術
- あとで読む
- AI
- 文字
- アプリ
- 画像
- 歴史
- 学習
- 開発
- 人工知能
Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました - Qiita
- 231 users
- qiita.com/moritalous
- テクノロジー
- 2025/02/03
例えば、こちらのブログですが、グラフィカルな解説部分が、画像になっています。 Claudeはマルチモーダルに対応しているので、画像を添付した状態で「文字を抽出して」というと文字を抽出してくれますが、日本語で要約して回答したり、元の文章を正確に抽出するのは、意外と難しいと感じていました。以下は、Claude.aiを使って「添付画像から文字を抽出して」と依頼した際の結果です。原文そのままを正確に抽出したいときってありますよね？それを解決する方法を編み出しました。方法は、「 HTMLで再現させる」です！本投稿の先頭の画像を添付して「添付画像をHTMLで再現して」と依頼した際の結果がこちらです。感動！！！（注：右側が画像をもとに生成したHTMLを、プレビューした状態です。Claude.aiのArtifactsという機能です）アイコンがちょっと違うとか省略されてるとかはありますが、
- AI
- claude
- あとで読む
- 画像
- 人工知能
- html
- ocr
- 日本語
- llm
- qiita
ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す
- 224 users
- zenn.dev/kun432
- テクノロジー
- 2024/11/05
ここで知った。試しに、神戸市が公開している観光に関する統計・調査資料のうち、「令和5年度神戸市観光動向調査結果について」のPDFで一度試していたのだけども: （出典）神戸市Webサイトの「観光に関する統計・調査」のページ上記にある「令和5年度神戸市観光動向調査結果について」のPDF 日本語でも、概ね問題なく、表などもきれいにパースされるただし、表が画像になってる場合に、うまく解釈されない（表は解釈されるが、中の文字が化ける） OCRが正しくできていない可能性というのがあって、ドキュメント読んだけどわからなくて、それ以上深追いしてなかった。ただ、X界隈を見る限りは評判は良さそうで、いろいろ記事も出てきたみたいなので、改めて試してみる。 GitHubレポジトリドキュメント Docling Doclingは、ドキュメントを解析し、簡単かつ迅速に希望の形式にエクスポートします。
- markdown
- あとで読む
- pdf
- json
- ドキュメント
- ocr
- AI
- LLM
- document
- 論文
【Power Automateの新しいRPA機能】Power Automate Desktopで出来ること（全33機能の紹介） - Qiita
- 203 users
- qiita.com/nakaamino
- テクノロジー
- 2020/09/27
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? #はじめに Microsoft Igniteの発表でPower Automateの「per user with attended RPA plan」で「Power Automate Desktop」が使用できるようになりました。2020年9月26日時点でPreview機能です。この記事ではPower Automate Desktopの自動化機能（アクションと言います）を紹介します。この紹介を通じPower Automate Desktopがどのような自動化を行えるかの参考になれば幸いです。 2020年9月26日時点のアクションとなり
- RPA
- あとで読む
- Microsoft
- 自動化
- Windows
- Azure
- qiita
OCR屋のAI inside、ストック型ビジネスどころか逆に大量解約（9284件中7636件）の憂き目に遭い売上の半分弱を失う : 市況かぶ全力２階建
- 199 users
- kabumatome.doorblog.jp
- テクノロジー
- 2021/04/29
社名ロンダリング4回のクオンタムソリューションズ「約20億円のNVIDIA製サーバーを販売すると発表しましたが、実は購入者から発注書を貰えていないので取引を中止しました」
- AI
- あとで読む
- OCR
- ビジネス
- Twitter
- ict
- 人工知能
- 話題
［速報］マイクロソフト、手書きのスケッチをAIでアプリ画面に手軽に変換できる「Power Apps Express design」発表。Microsoft Build 2022
- 195 users
- www.publickey1.jp
- テクノロジー
- 2022/05/25
［速報］マイクロソフト、手書きのスケッチをAIでアプリ画面に手軽に変換できる「Power Apps Express design」発表。Microsoft Build 2022 マイクロソフトは現在開催中の開発者向けイベント「Microsoft Build 2022」で、ローコード／ノーコード開発ツール「Power Apps」の新機能として、手書きのスケッチやPDFのフォーム画面、Figmaのデザインファイルなどを元に、AIがアプリケーションの画面作成を支援してくれる「Power Apps Express design」を発表しました。公開された動画を元に、Power Apps Express designの機能を見ていきましょう。 Power Apps Express designでは、画面スケッチをキャプチャするとAIがUIコンポーネントを認識します。
- microsoft
- あとで読む
- AI
- ツール
- 開発
- design
画像からテキストを抽出、ファイル名を一括変更…Windowsを快適にする公式無料ツール「PowerToys」おすすめ機能7選 | 文春オンライン
- 190 users
- bunshun.jp
- テクノロジー
- 2022/09/16
「PowerToys」という無料ツールをご存知でしょうか。Windowsをさらに使いやすくする十数個の機能をまとめた、Microsoftの公式ツールです。カユイところに手が届く数々の機能はいちど使うと手が放せなくなるほどで、どうしてこれがWindowsに最初から組み込まれていないのだろうと首をひねってしまうほどです。そんな「PowerToys」は、今年9月に入って登場した最新版の「0.62.0」で、これまでなかった新機能がいくつか追加され、より充実したツールへと生まれ変わりました。今回は最新の「0.62.0」で追加された機能も含め、筆者が「これは特に便利」と感じたPowerToysの便利機能を厳選して紹介します。ピンと来る機能があれば、ぜひこの機会にインストールして試してみてください。ダウンロードはMicrosoftストア、もしくはこちらから行えます。
- windows
- あとで読む
- ツール
- PowerToys
- ソフトウェア
- MicroSoft
- 便利
- tool
OCRはもう不要？視覚的特徴とテキストを高精度に捉える！次世代マルチモーダルAIモデル『MPLUG-DOCOWL2』登場！ - Qiita
- 181 users
- qiita.com/ryosuke_ohori
- テクノロジー
- 2024/11/18
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 株式会社ulusageの技術ブログ生成AIです！今回は、PDF解析とドキュメントインテリジェンスの最先端技術「MPLUG-DOCOWL2」について、解説していきます。このモデルは、高解像度のマルチページドキュメントを効率的かつ正確に解析する技術として注目されています。特に、従来のOCR（光学文字認識）ベースの解析手法が抱える課題を解決し、従来のOCR技術を必要とせず、新しい水準の性能と効率を実現しました。この記事では、技術的な背景、MPLUG-DOCOWL2の構造と革新性、他の技術との比較、そして具体的なデモンストレーションを交え
- OCR
- AI
- あとで読む
- qiita
- LLM
- CHATGPT
- 画像
GPT-4oを使って2Dの図面から3DのCADモデルを作る
- 180 users
- zenn.dev/firstautomation
- テクノロジー
- 2024/05/19
はじめに株式会社ファースト・オートメーションCTOの田中(しろくま)です！先日、 OpenAIからGPT-4oがリリースされました。いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が向上しているようです。製造業という観点からすると、これは設計図面などに活かせるようになるのでは？と思いました。機械部品などの設計図面は以下のように、特定の方向から部品を2次元上に落とし込んだ形で書かれるのですが、部品本体を描いている図以外に、寸法や名称といった文字も含まれた画像になっています。このような図と文字の複合データにおいて、GPT-4oの進化は有効なのではないかと考えました。 ※画像元URL: http://cad.wp.xdoma
- ChatGPT
- あとで読む
- CAD
- 3d
- AI
- GPT
- 機械学習
- 画像
- 設計
崩し字を訳してくれる「miwo」というスマホアプリで鐔に書かれた文字を読み取ったら解読できてしまった「技術の進歩がすごい」
- 170 users
- togetter.com
- テクノロジー
- 2022/12/25
刀箱師 | 中村圭佑 | 展示ケース作家 | 刀とくらす。 @katana_case_shi まさか鐔に書かれた文字をスマホアプリで解読できるとは思わなかったです。少し前に話題になっていた崩し字を訳してくれる「miwo」というアプリ凄い。 pic.twitter.com/uLBPubyAIJ 2022-12-22 23:32:42 刀箱師 | 中村圭佑 | 展示ケース作家 | 刀とくらす。 @katana_case_shi 「わけのほる　麓の道はおほけれど　おなじ高ねの　月をこそみれ」どうやら「わけのほる」という一休宗純の和歌のようで、以下のサイトを見ると解説がありました。当時この鐔を付けて戦った武士はこの和歌にどのような想いを重ねたのだろうか。 575.jpn.org/article/174793… pic.twitter.com/dSIJbpS4OB 2022-12-22 23:
- 技術
- アプリ
- あとで読む
- 歴史
- togetter
- 文字認識
- 古文
- 日本語
- tech
- スマートフォン
宿題は人工知能にやらせる今どきの小学生。中国政府は宿題をAIにやらせることを禁止 - 中華IT最新事情
- 168 users
- tamakino.hatenablog.com
- テクノロジー
- 2021/09/15
中国共産党中央弁公庁と国務院は、「義務教育段階の生徒の家庭学習と校外課程の負担のいっそうの軽減についての意見」を公開した。内容は、「拍照捜題」を禁止するものだ。これを受けて、多くの学習アプリが拍題捜答機能を停止させていると青少年教育新聞が報じた。宿題は人工知能にお任せの今どきの小学生たち拍照捜題とは、学習アプリの人気機能で、宿題をするときに便利な機能。プリントなどの問題を、アプリ経由でスマホで撮影すると、その内容をAIが解析し、解法と答えを表示してくれるというもの。同じ問題が見つからない場合は、類似の問題の解法と答えを表示してくれる。本来は、自分で解けない問題を調べるためのものだが、学習アプリの競争が激しくなる中で、解答を直接表示するようになり、多くの学生が、学習アプリが表示する解法と答えを丸写しして提出することが増え、教師や父兄の間で問題になっていた。 ▲学習アプリ「作業帮」の拍照
- 教育
- 中国
- AI
- IT
- あとで読む
- アプリ
- 宿題
- 学習
Windows 10の標準機能だけで画像からテキストを抽出する方法
- 167 users
- news.mynavi.jp
- テクノロジー
- 2021/01/09
画像ファイルからテキストを抽出したい場合、何らかのOCR（光学式文字認識）ソフトウェアを利用するのが一般的だ。しかし、BetaNewsは1月6日(米国時間)、「Windows 10 has a secret way to grab text from images」において、特定のソフトウェアを使わずに、Windows 10に付属する標準機能だけでテキストの抽出を行う方法を伝えた。なお、この方法は現在のところ英語のテキストにしか対応しておらず、残念ながら日本語は読み取ることができない。 Windowsの標準機能といっても、何らかのORCツールが標準でインストールされているというわけではない。したがって、スタートメニューのアプリケーション一覧を探しても該当する機能は見つからない。Betanewsで紹介されているのは、Windowsの検索ユーティリティとスクリーンショットを取得するための「切り
- OCR
- Windows
- あとで読む
- windows10
- tips
- ツール
- 画像
- 仕事
- search
- 検索
LLMを悩ませる"Excel文書"をうまく扱う方法
- 156 users
- zenn.dev/firstautomation
- テクノロジー
- 2024/12/08
はじめに株式会社ファースト・オートメーションCTOの田中(しろくま)です！弊社では製造業向けのRAGを使ったチャットボットの開発を行っていますが、 RAGで読み取りづらいなと感じているドキュメントが"Excel文書"です。 LLMを悩ませる"Excel文書"とはここで"Excel文書"と呼んでいるドキュメントは、「構造化されたテーブルを保存しているExcelファイル」ではなく、「セルに文書を書いたり、オブジェクトや画像を挿入することで、いわゆる一般的な文書を作成しているExcelファイル」のことを呼んでいます。そもそも一般的な文書作成においてはExcelではなく、Wordを使えばよいのでは？と思われるかもですが、以下の点でExcelで文書の資料を作成することはそれなりに便利な部分があると思っています。枠を使って、グルーピングすることでドキュメントの構成が見やすくなる
- excel
- あとで読む
- LLM
- AI
- 人工知能
- Python
- 生成AI
- 開発
- techfeed
PythonとWinRT OCRで文字認識 - Qiita
- 155 users
- qiita.com/relu
- テクノロジー
- 2021/06/05
import cv2 img = cv2.imread('test.jpg') (await winocr.recognize_cv2(img, 'ja')).text pip install jupyterlab jupyter_http_over_ws jupyter serverextension enable --py jupyter_http_over_ws jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --ip=0.0.0.0 --port=8888 --NotebookApp.port_retries=0
OpenAIのGPT-4oを日本語OCRとして使ってみる
- 146 users
- zenn.dev/tomioka
- テクノロジー
- 2024/05/14
昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成（Text To Speech）の表現力について非常に興味を持っています。私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ
- AI
- あとで読む
- ChatGPT
- 日本語
- OCR
- GPT
- 人工知能
- api
ChatGPT APIのFunction callingを使って、請求書の構造化データを抽出する | gihyo.jp
- 144 users
- gihyo.jp
- テクノロジー
- 2023/07/18
いまからわかる！ChatGPT活用プログラミング ChatGPT APIのFunction callingを使って⁠⁠、請求書の構造化データを抽出する先月、OpenAIからFunction calling（関数呼び出し）機能がリリースされました。これが何なのか、何のために使うべきなのか、ちょっと見ただけでは分かりづらいと思います。今回は請求書から情報抽出をするというよくありがちなケースを題材に、Function callingの利便性を示してみます。 Function callingとは OpenAIが2023年6月13日にリリースしたChat APIの追加機能です。主にできることとして以下の3つが挙げられています。外部ツールを呼び出して質問に答えるチャットボットを作成する自然言語を内部APIの呼び出しやSQLに変換するテキストから構造化データを抽出するたとえば天気予報と血液型
- ChatGPT
- あとで読む
- 人工知能
- APIエコノミー
- 文章生成AI
- api
- 機械学習
- OCR
- techfeed
- GPT