Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

音声に関するsh19910711のブックマーク (29)

  • 音声認識モデルWhisperを投機的デコーディングで高速化する - NTT Communications Engineers' Blog

    こんにちは、イノベーションセンターの加藤です。この記事では、Transformerベースの言語モデルで利用可能な高速化技術である投機的デコーディング(speculative decoding)を用いて、音声認識モデルのWhisperの高速化を検証したのでその結果を紹介します。 投機的デコーディングとは Whisperとは 実験 英語音声 (LibriSpeech) の結果 日語音声 (Common Voice 17.0 日語サブセット) の結果 まとめ 投機的デコーディングとは 大規模言語モデル(LLM)をはじめとするTransformerベースの言語モデルは、これまでの単語列から次に現れそうな単語を予測することを繰り返して文章生成を行なっています。 これに対し、元のモデルよりも軽量な言語モデルの出力を下書きとして利用することで、元のモデルの出力を完全に再現しながら文章生成を高速化する

    音声認識モデルWhisperを投機的デコーディングで高速化する - NTT Communications Engineers' Blog
    sh19910711
    sh19910711 2025/02/26
    "人間が予測変換を活用しながら文章を入力するのと似た流れ / 投機的デコーディング: 元のモデルよりも軽量な言語モデルの出力を下書きとして利用 + 数単語先まで予測してから元の大きなモデルでその予測を検証"
  • 独立ベクトル分析によるオンライン音源分離・追跡のための高速最適化 / Fast online algorithms for independent vector analysis

    sh19910711
    sh19910711 2024/10/03
    "1個の音源のみが移動する状況の音源分離 / AuxlVA: 分離行列の最適化 + 共分散行列の逐次更新 / 1音源追跡のための高速なステアリングベクトル更新" '23
  • Style-Bert-VITS2の差分マージで遊ぶ

    はじめに オープンソースな日音声合成 (TTS) であるStyle-Bert-VITS2の2024-06-16のver 2.6.0で、マージ機能に差分マージやヌルモデルマージが追加されました。 この記事は、これらのマージでできることをいろいろ紹介して、みんな実験して共有してみてね、という記事です。 注意 日語特化版 (JP-Extra版) とそうでないモデル同士のマージはできません。 このページで共有している結果やモデルは全てJP-Extra版のものです。 差分マージとは? 通常のマージについて SBV2では、今まで以下の点で2つのモデルをマージすることができました: 声質(誰が喋っているか) 声の高さ 話し方・感情表現 話すリズム・テンポ 具体的には、2つのモデルを A, B とすると、スカラー weight について、 を、上記4つの要素が入っていると思われるモデルの重みについて

    Style-Bert-VITS2の差分マージで遊ぶ
    sh19910711
    sh19910711 2024/09/06
    "差分マージのアイデア自体は単純に重みを足し引きするだけなので、SBV2含む音声モデルにも簡単に実装することが ~ / 差分のみをあらかじめ取り出しておいて、それを後から A に加えられるようにした"
  • 音声AIエージェントの世界とRetell AI入門 / Introduction to the World of Voice AI Agents and Retell AI

    StudyCo 【LT大会#8】LLMの活用・機械学習データ分析関係のいろいろな話題にふれようの資料です https://studyco.connpass.com/event/328389/ スライド内(P20)のデモ動画リンク: https://x.com/ry0_kaga/statu…

    音声AIエージェントの世界とRetell AI入門 / Introduction to the World of Voice AI Agents and Retell AI
    sh19910711
    sh19910711 2024/09/06
    "Retell: LLMをベースに音声AIに必要な要素をフルスタックに提供 / プロンプトベースでの挙動制御が可能 + フローも組める / 購入した電話番号を利用してインバウンド・アウトバウンドコールが可能"
  • 【ICASSP2024】音声変換に関する全論文まとめ【Parakeet株式会社】

    Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)

    【ICASSP2024】音声変換に関する全論文まとめ【Parakeet株式会社】
    sh19910711
    sh19910711 2024/06/22
    "SEF-VC: 話者埋め込みを使用せず対象話者音声を直接用いたZero-shot VCの提案 / 事前学習済み話者埋め込みモデルを使用する場合、短い音声の話者埋め込みは安定しない / 位置エンコーディングを使用しないcross attention"
  • T5を使用してWhisperの音声認識誤り訂正を行う

    音声認識誤りとは音声認識において、未知語に対する認識結果が誤ることがあります。これを音声認識誤りと呼びます。特に、医療用語など専門的な用語が誤りやすい傾向にあります。 これまでの実験弊社では、これまで、WhisperのFine Tuningによる訂正と、Whisperの認識結果に対する誤り訂正辞書のアプローチで音声認識結果の訂正を行いました。しかし、Fine Tuningにはモデルが壊れやすく通常の認識結果の精度が低下するという課題があり、誤り訂正辞書には誤り方の揺らぎに弱いという課題がありました。

    T5を使用してWhisperの音声認識誤り訂正を行う
    sh19910711
    sh19910711 2024/06/20
    "Whisper: 医療用語など専門的な用語が誤りやすい傾向 / Fine Tuningにはモデルが壊れやすく通常の認識結果の精度が低下するという課題 / 出力するテキストにT5を適用することで、音声認識誤り訂正を行う" 2023
  • 論文メモ: WaveFlow - 2次元畳み込みによる軽量なFlowベースの会話生成モデル

    論文 WaveFlow: A Compact Flow-based Model for Raw Audio 一言で WaveGlow[1]と同様のFlowベースの会話生成モデル。WaveGlowの1次元畳み込みを2次元畳み込みにしたり、アフィン変換レイヤの受容野を広げることで、精度を保ちつつパラメータ数を小さくすることに成功した。 何がすごいか? 音声品質を保ったまま、モデルのパラメータ数の削減を実現(WaveGlowの1/15) 既存の提案手法(WaveGlow, WaveNet/autoregressive flow (AF))を統一的に解釈する枠組みを示した 高効率で会話生成が可能(22.05 kHzのサンプルレートの高音質の音源をリアルタイムの40倍の速度で生成可能) 既存の研究に対する提案手法の位置付け Flowベースの会話生成モデル 各層における変換処理の違いによって以下のよう

    論文メモ: WaveFlow - 2次元畳み込みによる軽量なFlowベースの会話生成モデル
    sh19910711
    sh19910711 2024/06/19
    "Flowベースの会話生成モデル / 1次元畳み込みを2次元畳み込みにしたり、アフィン変換レイヤの受容野を広げることで、精度を保ちつつパラメータ数を小さくする / 高効率で会話生成が可能" 2022
  • Pythonで長い会議を見える化〜特徴量mfccを採用して全面リライト〜 - Qiita

    Pythonで長い会議を見える化」シリーズ、先日の動向記事で得た知識をもとに、全面リライトしてみました。 以下のような修正を加えました。 特徴量として、フーリエ変換した周波数成分を使っていたが、人間が聴く音の特徴量として基的に利用されているMFCC(メル周波数ケプストラム係数)を採用 無音有音のクラスタリングであるVAD(Voice Activity Detector)と、有音部の話者ダイアリゼーションを区別して、段階的に処理することに変更 全体的にクラスとメソッドに書き換えて、汎用性・再利用性を向上 来、話者ダイアリゼーションには、i-vecterやx-vectorといった特徴量を使うのですが、複雑になるため、それらの基礎となるMFCCを使っています。結果として12次元のMFCCでも、十分な結果を得られることができました。 なお、MFCCについては、前回の記事でもリンクしています、

    Pythonで長い会議を見える化〜特徴量mfccを採用して全面リライト〜 - Qiita
    sh19910711
    sh19910711 2024/06/18
    "話者ダイアリゼーションには、i-vecterやx-vectorといった特徴量を使う + それらの基礎となるMFCCを使って / 12次元のMFCCでも、十分な結果 / 人間の声同士を区別するのは、ある程度は可能ですがそれほど得意では無い" 2020
  • 【インターンレポート】擬音語テキストに基づく環境音抽出 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. はじめに 立命館大学大学院 情報理工学研究科の岡悠希です。2021/8/23~9/10の3週間,㈱ 日立製作所・研究開発グループの夏季インターンシップに参加しました。今回のインターンシップでは,環境音と呼ばれる音声や楽音に限らないあらゆる音を対象とした研究に取り組みました。その中でも特に,複数の混ざり合った環境音の中から,特定のある1音のみを抽出する“環境音抽出”という技術に取り組みましたので,実施した研究内容について紹介します。 *インターンシップでの研究成果はICASSP2022に採択されました。[link] 2. 研究背

    【インターンレポート】擬音語テキストに基づく環境音抽出 - Qiita
    sh19910711
    sh19910711 2024/06/13
    "インターネット上には音の種類などのラベルが付与されていない環境音データが大量に存在 / 擬音語は,音の長さ,高さ,音色などの特徴を表現するのに有効 / U-Netと呼ばれる深層学習モデルをベース" 2022
  • kotoba-whisper, ReazonSpeech, Nue-ASRの文字起こし性能を比較してみた | 株式会社AI Shift

    はじめに こんにちは、AIチームの大竹です。 最近、高性能な日音声認識モデルのリリースが相次いでいます。普段、音声認識を用いたプロダクト開発をしている中で、各モデルの音声認識性能や推論速度がどれくらいのものなのか気になったので簡単な実験をして性能を比較してみました。 書き起こしや評価周りの実装も記載しているので参考にしていただけたら幸いです。 モデルの直近のリリースをまとめると、以下のようになっています。ReazonSpeechコーパスのリリースを皮切りに日語に特化した音声認識モデルの開発の勢いが加速しているように思えます。ReazonSpeechコーパスは、地上波テレビ放送から収集された音声に基づいて構築されています。v1では19,000時間、v2では35,000時間の音声が含まれていて、日音声認識モデルの学習リソースとしては世界一の規模となっています。 公開時期 モデル名 公

    kotoba-whisper, ReazonSpeech, Nue-ASRの文字起こし性能を比較してみた | 株式会社AI Shift
    sh19910711
    sh19910711 2024/06/12
    "いずれもReazonSpeechコーパスを用いて訓練 / どのモデルも音声認識性能が高く、CERやWERだけではその性能を十分に評価することが難しくなってる / 使用シナリオに適した書き起こしをしてくれるモデルを選択することが重要"
  • pyannote.audioを使った話者ダイアライゼーションをオフラインで動かす方法 | DevelopersIO

    こんちには。 データアナリティクス事業部 インテグレーション部 機械学習チームの中村です。 今回はpyannote.audioを使った話者ダイアライゼーションをオフラインで動かす方法を見ていこうと思います。 以下の記事のオフライン版となります。 こちらを以下の用途を目的としてオフラインモデルとして読み込めるように検討していきます ネットワーク的に閉じた環境でジョブを実行したい 推論時に毎回ダウンロードすることなしに高速に処理を開始できるようにしたい pyannote.audioとは pyannote.audioとは話者ダイアライゼーションを行うライブラリです。 GitHubは以下となります。 ベースのフレームワークはPyTorchとなっており、end-to-endの話者ダイアライゼーションを実現します。 話者ダイアライゼーションとは、どこの時間でどの話者がしゃべったのか、話者認識をせずに

    pyannote.audioを使った話者ダイアライゼーションをオフラインで動かす方法 | DevelopersIO
    sh19910711
    sh19910711 2024/06/09
    "speaker diarization: どこの時間でどの話者がしゃべったのか、話者認識をせずに実施する技術 / pyannote: ベースのフレームワークはPyTorch + end-to-endの話者ダイアライゼーションを実現" 2023
  • NVIDIA NeMo (GlowTTS) で日本語音声合成 - Qiita

    主に、機械学習とかよくわからないけど、とにかく NVIDIA/NeMo で TTS したい方向けのメモです(筆者がそれです)。Google Colab だけで試しています。 実行環境 2020/10/06 に出た NVIDIA/NeMo 1.0.0b1 以降を想定しています。 2020/10/05 Announcing NVIDIA NeMo: Fast Development of Speech and Language Models | NVIDIA Developer Blog 2020/10/06 Release NVIDIA Neural Modules 1.0.0b1 · NVIDIA/NeMo 2020/10/20 のマージで、2020/10/13 に出た Pytorch Lightning 1.0 系に対応しているので、最新の main を利用します。(PTL 0.9 系の

    NVIDIA NeMo (GlowTTS) で日本語音声合成 - Qiita
    sh19910711
    sh19910711 2024/06/07
    "NVIDIA NeMo: PyTorch Lightning を使ったツールキット + モデルの出力を他のモデルの入力にするような使い方が醍醐味 / 1_TTS_inference.ipynb を利用して音声出力" 2020
  • 日本語x-vectorから感情成分を分離するニューラルネットワークを構築してみた −感情分類に敵対的な損失関数の導入− - 備忘録

    はじめに 記事は前回記事の続編に相当する. 前回記事では声優統計コーパスの3話者・3感情の音声データに対してx-vector抽出器を適用し,UMAPで可視化を試みた. この可視化の実験を通じて,感情成分が分離できていない傾向が見られた.すなわち,来は話者3クラスにも関わらず,疑似的な9クラス(= 3話者 × 3感情) が存在するように見える,というものである(x-vector抽出器の学習データを考えてみれば,それはそうなのだが).せっかくx-vectorが手元にあるのだから,感情成分を分離/除去するフィルタの役割を果たす手法を実装してみたいと考えた.記事はその実装の詳細と簡単な検証実験に関する報告である. 感情成分を分離するニューラルネットワーク 先行研究と論文 今回の実装にあたり下記の論文を参考にした.論文では,音響特徴量(ベクトル系列)に含まれる話者成分とテキスト情報を表す成分

    日本語x-vectorから感情成分を分離するニューラルネットワークを構築してみた −感情分類に敵対的な損失関数の導入− - 備忘録
    sh19910711
    sh19910711 2024/05/29
    "本来は話者3クラスにも関わらず,疑似的な9クラス(= 3話者 × 3感情) が存在するように見える / 損失関数とネットワーク構造を工夫することで特徴量に含まれる特定の成分を分離" doi:10.1109/TASLP.2019.2960721 2023
  • mlxのwhisperでリアルタイム文字起こしを試してみる - Qiita

    Whisperでのリアルタイム文字起こしの手法は「Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介」を参考にした。 mlxのwhisperセットアップは前回の記事を参考ください。 題 ストリーミング処理を行うには音声の無音検知が必要となるので調べたところ、faster-whisperでもVAD(Voice Activity Detector)にSilero VADを使っている。 それのJS版であるricky0123/vadで書かれているコードがあったのでmlx用に一部書き直して試してみた。 ファイル構成 import os import time from flask import Flask, request, render_template import whisper import threading UPLOAD_FOLDER = 'uploads' ALLOWED

    mlxのwhisperでリアルタイム文字起こしを試してみる - Qiita
    sh19910711
    sh19910711 2024/05/27
    "ストリーミング処理を行うには音声の無音検知が必要 / 結構いい感じにかつシンプルなコードで作れることがわかった / mlxもv0.10.0で少し速くなった + 手元のM1 Macはメモリ8GBなのでlarge-v3を読み込むとスワップしまくり"
  • Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する

    概要 最近の音声認識技術の進歩はすごいですね! 特にOpenAIの最新モデルであるWhisper large-v3は、日語の音声データでもかなりの高精度で文字起こしを行うことができ、APIも公開されています。 ただし簡単に使用でき汎用性も高い一方で、大量に使用する場合の高コストやプライバシーの懸念もあるため、ローカル環境で効率よく高精度な文字起こしを実現するモデルが多数開発されています。 今回は、その中でもGPUを使用した高速推論が可能な「Faster Whisper」を用いて、AWS SageMakerでカスタム文字起こしエンドポイントを構築してみたので、手順を解説していきたいと思います。 実装コードは以下のリポジトリにあります。 順番通りJupyterNotebookを実行すると問題なく動作するはずです。 Faster Whisperとは Faster WhisperOpenAI

    Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する
    sh19910711
    sh19910711 2024/05/24
    "Faster Whisper: OpenAIのWhisperモデルを基に、翻訳モデル用の高速推論エンジンであるCTranslate2を使用して再実装 / 同等の精度を保ちながらもOpenAIのWhisperよりも最大4倍高速で、メモリ使用量も少ない"
  • 【音楽情報処理】Sonic Visualiserで音楽データのアノテーション 前編:Sonic visualiserの紹介 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Sonic visualiserを用いてアノテーションを行う方法の個人的な備忘録と,ラボの後輩がアノテーションに困った時用のとっかかりの記事として. 全2記事,前編(記事)ではSonic visualiserの紹介,後編ではアノテーションの具体的な手順について紹介する予定. アノテーション 音楽音源データの解析タスク(コード識別,メロディ検出,音楽構造解析,自動採譜etc...)を行うには, 音源そのものと,正解のラベルが必要です. その正解のラベルを1から作る方法として,アノテーションを行う必要があります. 音源に対してアノテーショ

    【音楽情報処理】Sonic Visualiserで音楽データのアノテーション 前編:Sonic visualiserの紹介 - Qiita
    sh19910711
    sh19910711 2024/05/23
    "音楽情報処理研究の世界では,Sonic Visualiserというソフトウェアが用いられ / Sonic Visualiser: 音楽分析に特化した様々な可視化・分析 / 可聴化機能: 見ながら&聴きながらのアノテーションが可能" 2022
  • 『Phase reconstruction based on recurrent phase unwrapping with deep neural networks』に基づく位相復元手法をPyTorchで実装した - 備忘録

    はじめに 手法 実装 実験 音声の分析条件 実験結果 おわりに 追記 はじめに Masuyama氏らによる位相復元手法 "Phase reconstruction based on recurrent phase unwrapping with deep neural networks"が2020年に提案されている. https://ieeexplore.ieee.org/document/9053234 arxiv.org 手法は,まずDNNで位相の微分(時間方向・周波数方向)を推定し,次に推定した微分に基づいて位相を再帰的に求める(積分する,アンラッピング)という2段階の処理からなる.位相が波形のずれに敏感という問題を回避しつつ,従来のDNNによる位相の直接推定(von Mises DNN)よりも高い精度で位相を推定することができる,というわけである.「位相を再帰的に求める」 rec

    『Phase reconstruction based on recurrent phase unwrapping with deep neural networks』に基づく位相復元手法をPyTorchで実装した - 備忘録
    sh19910711
    sh19910711 2024/05/22
    "RPU: DNNで位相の微分(時間方向・周波数方向)を推定 + 推定した微分に基づいて位相を再帰的に求める(積分する,アンラッピング) / 位相が波形のずれに敏感という問題を回避" arXiv:2002.05832
  • Amazon Connect の通話データの分析結果をバッチ処理で Word 文書にする – Amazon Connect アドベントカレンダー 2022 | DevelopersIO

    Amazon Connect の通話データの分析結果をバッチ処理で Word 文書にする – Amazon Connect アドベントカレンダー 2022 こんにちは!森田です。 この記事は「Amazon Connect アドベントカレンダー 2022」の15日目の記事となります! Amazon Connectアドベントカレンダー2022は、クラスメソッドと株式会社ギークフィードさんでチャレンジしている企画となっており、他にもAmazon Connect関する様々な記事がありますのでぜひご参照ください!! この記事では、Amazon Connect の通話データをバッチ処理で分析しその結果を Word 文書にする方法をご紹介します。 やりたいこと Amazon Connectの音声データの分析結果を AWS Lambda で Word 文書に変換し、 そのファイルパスを Amazon Co

    Amazon Connect の通話データの分析結果をバッチ処理で Word 文書にする – Amazon Connect アドベントカレンダー 2022 | DevelopersIO
    sh19910711
    sh19910711 2024/05/02
    "Amazon Connectの音声データの分析結果を AWS Lambda で Word 文書に変換 + wavファイルアップロードをトリガー / Amazon Transcribe をAPIとして呼び出す + AWSブログで紹介されていたamazon-transcribe-output-wordを利用" 2022
  • Kaggle音コンペで銅メダル獲得したときの手法解説 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 今年3月頃から機械学習(主にDeepLearning)とKaggleを始め、賞金のあるコンペ「Freesound Audio Tagging 2019(以下FAT2019)」に初めて挑戦しました。やるならばと金メダルを目指していましたが、結果はPrivateLB 89位で銅メダルに落ち着きました。苦労・工夫した点や、参考にした論文、記事、カーネルなども交えてここに記録したいと思います。 ちなみに以下が最終提出カーネルです。 定数で学習モードと推論モードを切り替えていたので、少し読みづらいですが…。なお、MixMatchなど一部の実装は実

    Kaggle音コンペで銅メダル獲得したときの手法解説 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける / 周波数軸に対してメルスケール、パワーに対して対数スケールで変換 / 推論時にもデータ水増しすると精度が向上することが知られ" 2019
  • 機械学習のための音声の特徴量ざっくりメモ (Librosa ,numpy) - Qiita

    #Introduction この記事は基的に自分用のメモみたいなもので、かなりあやふやな部分もあります。間違っている部分を指摘していただけると助かります。(やさしくしてね) ネット上にLibrosaの使い方、Pythonによる音声特徴量の抽出の情報が少なかったり、難しい記事ばかりだったので、かなり噛み砕いてメモするつもりでいます。 基的に機械学習に用いられている音声の特徴量について記述していきます。 (2019/8/20)勉強した分だけ載せました、ちょっとずつ更新していきます。 (2019/8/22)MFCCの分だけ更新しました。 (2019/8/23)ZCRについて書きました。 #紹介する特徴量 MFCC log-mel spectrum HNR ZCR #1.MFCC ##MFCCとの出会い 音声認識に広く使われている特徴量で、だいたいの音声における機械学習の代表的な特徴量というこ

    機械学習のための音声の特徴量ざっくりメモ (Librosa ,numpy) - Qiita
    sh19910711
    sh19910711 2024/04/29
    "MFCC: 人間の声道の特性(人間の声と聴覚の仕組み)をうまく反映している + 人間の低音に敏感で高音に鈍いという特徴を考慮 + この特徴量を使うと非力なマシンで機械学習をできる旨味がある" 2019