Whisperは、ChatGPTで知られるOpenAIによって開発された非常に正確な音声認識モデルで、会話の音声をテキストに書き起こしてくれる。 100万時間以上のデータでトレーニングされた最新のAIモデルだが、驚くべきことにオープンソースで公開されているため、誰でも、無料で、簡単に利用することができる。 有料の音声書き起こしサービス・議事録書き起こしサービスは数多くあるが、実は無料のWhisperを使えば十分だ。 むしろ、Whisperの方が殆どの音声認識ソフトより精度が高いだろう。 とはいえ、プログラミングの知識がない人にとっては、少し利用するハードルがある。 そこで、Whisperの最新モデル(Whisper v3)を、簡単に使える小さなWebアプリにしてみたので、この記事で使い方を紹介する。 Whisperを、Google ColabというGoogleアカウントを持っている人なら誰
AI 業界の進化が著しい昨今、AI の研究開発企業として名高い OpenAI から Whisper というとんでもない自動音声認識モデルの発表がありました。(2022/09/22)Whisper は 68 万時間かけてトレーニングされた自動音声認識モデルでなんとオープンソース化されています。 公開されているサンプルでは早口や K-POP、フランス語、アクセントのある会話などを問題なく処理できることが示されています。また日本語に関しても高い精度を保持していることがグラフから見て取れます。 Whisper の GitHub リポジトリより引用 この記事で行うこと この記事では Whisper を Google が提供する Colaboratory で利用し、文字起こしツールを作成していきたいと思います。 今回やりたいことは以下の 3 つになります。 音声データから文字起こしができる 文字起こし
OpenAIが発表した音声認識モデル「Whisper」は、日本語の音声でも精度高く文字起こしできるツールとして知られています。今回はアイスマイリー編集部が「AIニュース原稿の読み上げ音声を素材にどのくらい精度高く文字起こしできるのか」や「生活騒音下における読み上げ音声でも結果は変わらないのか」について調べてみましたので是非やり方を真似して試してみてください。 記事後半ではWhisper APIおよびChatGPT APIを活用した文字起こしサービスである「writeout.ai」の紹介も行っていますので、業務への活用イメージとしてご活用ください。 生成AIについて詳しく知りたい方はこちらの記事もご覧ください。 生成AI(ジェネレーティブAI)とは?種類・使い方・できることをわかりやすく解説 音声認識モデルとは? 音声認識モデルとは、AIが人間の声を認識し、認識した音声をもとに何らかのデータ
株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://
はいえーとあの google の音声入力のテストをやってみてるんですけどこれめっちゃすごいですねなんかここまで認識精度良いと思わなかったあの文字の改行とかそこだけちょっと自分でやんないといけないんですけどそれ以外は全然不満がないですねこれなにかコマンドとかあるのかなやそうでもないか何がやりたいかというと discord でちょっと仕事で使ってみたくてボイスチャットチャンネルに没頭*1参加させて録音させてそのデータを google のドキュメントとして音声で食わせて文字起こしさせればあの会議とかねリモートワークとかですごい便利なんじゃないかなと思って文字認識 api ってちょっと公開されてるかわかんないんだけどこういう api って google あんまりね有料 api 脱退後悔*2しきれなかったりっていうイメージあるんだよねまあ google ドキュメントを使わせるためのインセンティブやっ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く