基盤モデルなどを使いながら､文章をOCRするメモ｜Kan Hatakeyama

テクノロジーカテゴリーの変更を依頼記事元:

note.com/kan_hatakeyama

37 usersがブックマークコメント

コメント

4

記事へのコメント4件

注目コメント
新着コメント

TanpoTP 『コストも含め､最も手堅そうなのは､scansnapなどの市販のスキャナーに付属しているOCRで読み取った後に､GPT-4oや軽量版モデルで成形加工するアプローチ､という印象でした』

2024/11/05 リンク

mysql8 Scanasnapはデフォで中国語日本語混合OCRだからなぁ

2024/11/05 リンク

misshiki “「OCRソフトでの文字認識 + GPT-4oでの修正」がベスト”

2024/11/05 リンク

aminisi ちょうどJoysound for streamerの自動化で曲情報入手手段がないからOCR試してたところだけど、tesseractの変わらないショボさとGoogle Cloud Vision APIの精度の良さに驚いた

2024/11/05 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

基盤モデルなどを使いながら､文章をOCRするメモ｜Kan Hatakeyama

書籍には､不規則に図表などが入っていたりすることがあります｡また､レイアウトが乱れたりすることもよ... 書籍には､不規則に図表などが入っていたりすることがあります｡また､レイアウトが乱れたりすることもよくあります｡このあたりの整理をいい感じにしてくれるシステムを見つけるのが､今回のミッションです｡結果結果一覧です｡いまのところ､「OCRソフトでの文字認識 + GPT-4oでの修正」がベストでした｡次点として､「OCRソフトでの文字認識+軽量モデルでの修正」となりました｡基盤モデルでそのままOCRするのはだめでした｡手法1 OCRによる文字認識+大規模言語モデルによる修正OCRの標準的な文字認識機能でテキストを生成した後､大規模言語モデルで破綻した箇所を修正するアプローチを試してみます｡ 1. 標準的なOCRのみを使う → ×筆者は､以下のスキャナーで専門書､数百冊以上を自炊した経験があります｡このスキャナーには､標準的な文字起こし機能がついていますので､まずはこれで文字起こし

ブックマークしたユーザー

techtech05212024/12/31
pipidayooo2024/12/28
knj29182024/11/19
ryoma_robo2024/11/12
vine_hate2024/11/11
peltier2024/11/09
cutc-mt2024/11/07
triceratoppo2024/11/06
TanpoTP2024/11/05
mysql82024/11/05
yamori04082024/11/05
dhesusan46492024/11/05
misshiki2024/11/05
tjumpei2024/11/05
kybernetes2024/11/05
toshikish2024/11/05
lyiase2024/11/05
haya06062024/11/05

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx