第6回音声書き起こしとプロンプト処理を連携する

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/ubie_dev

1 userがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

Kesin Geminiってそんなに長い時間の書き起こしできるのか。8.4時間もの音声を渡すことはないだろうけど

LLM

2025/01/10 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

第6回音声書き起こしとプロンプト処理を連携する

どちらも書き起こし精度は悪くなく、性能差はそこまで感じられません。そのままでも十分使えますが、や... どちらも書き起こし精度は悪くなく、性能差はそこまで感じられません。そのままでも十分使えますが、やはり固有名詞などには弱い場合などもあり、Cloud Speech-to-Textや事前の辞書データを組み合わせて精度を上げる例などもあるようです。 GeminiとSpeech-to-Textで実現する高精度な文字起こし WhisperとGeminiを比較してみると、最大のファイルサイズに大きな差があります。Whisperは1リクエストで25MBまでなので、mp3等で圧縮しても大体30分程度の音声までが限界です。一方、Geminiは1リクエストで8.4時間以下または最大100万トークンなので、殆どのユースケースに置いて十分なサイズではないかと思います。 Dev Genius[1]の音声書き起こし機能では、Gemini 1.5 Proを使用しています。事前のプロンプトを設定可能にする音声を書き起

ブックマークしたユーザー

Kesin2025/01/10

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx