エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント4件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
基盤モデルなどを使いながら、文章をOCRするメモ |Kan Hatakeyama
書籍には、不規則に図表などが入っていたりすることがあります。 また、レイアウトが乱れたりすることもよ... 書籍には、不規則に図表などが入っていたりすることがあります。 また、レイアウトが乱れたりすることもよくあります。 このあたりの整理をいい感じにしてくれるシステムを見つけるのが、今回のミッションです。 結果結果一覧です。 いまのところ、「OCRソフトでの文字認識 + GPT-4oでの修正」がベストでした。 次点として、「OCRソフトでの文字認識+軽量モデルでの修正」となりました。 基盤モデルでそのままOCRするのはだめでした。 手法1 OCRによる文字認識+大規模言語モデルによる修正OCRの標準的な文字認識機能でテキストを生成した後、大規模言語モデルで破綻した箇所を修正するアプローチを試してみます。 1. 標準的なOCRのみを使う → ×筆者は、以下のスキャナーで専門書、数百冊以上を自炊した経験があります。 このスキャナーには、標準的な文字起こし機能がついていますので、まずはこれで文字起こし
2024/11/05 リンク