エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
第6回 音声書き起こしとプロンプト処理を連携する
どちらも書き起こし精度は悪くなく、性能差はそこまで感じられません。そのままでも十分使えますが、や... どちらも書き起こし精度は悪くなく、性能差はそこまで感じられません。そのままでも十分使えますが、やはり固有名詞などには弱い場合などもあり、Cloud Speech-to-Textや事前の辞書データを組み合わせて精度を上げる例などもあるようです。 GeminiとSpeech-to-Textで実現する高精度な文字起こし WhisperとGeminiを比較してみると、最大のファイルサイズに大きな差があります。Whisperは1リクエストで25MBまでなので、mp3等で圧縮しても大体30分程度の音声までが限界です。一方、Geminiは1リクエストで8.4時間以下または最大100万トークンなので、殆どのユースケースに置いて十分なサイズではないかと思います。 Dev Genius[1]の音声書き起こし機能では、Gemini 1.5 Proを使用しています。 事前のプロンプトを設定可能にする 音声を書き起
2025/01/10 リンク