|
カテゴリ:ことばの処理
大量の文書を読んでいると、だんだん目が疲れてくる。音声合成を使って、寝っ転がりながら聞きたいときがある。やっぱり、音声合成のソフトが欲しくなった。以前 ピグマリオン・コンプレックス とか、簡単に使える音声合成プログラム とか、書いたときにあれこれためしてみたが、改めて試してみた。
フリーの音声合成ソフト Galatea Project は無償で使えるのはよいけど、うーん、やっぱり聞いて疲れる。 少々、お金払ってもいいやと、比較的安く入手できるものを探す。 Skyfish の JukeBox が、実用的に比較的使えそうな感じ。サンプルあり。個人向け製品の音声エンジンは富士通製(FineSpeech)だけど、デモを聞く限り、法人向け製品の日立KEシステムズの方がいい。 とりあえず、体験版をダウンロードして使ってみたが、なんとか使えそう。個人向けでも 18,900円 (法人向けのは 200,000円~)。ちょっと高いかなぁ。PDF ファイルとかも、そのまま食わせることができて便利。対応ファイルフォーマット一覧。これはポイントが高い。英語のところだけ、英語用の TTS (Text-to-Speach) を使うようにできるのもいい。 ちなみに青空文庫 のテキストを読み上げさせようとするとき、ルビが邪魔になるので ルビなしテキストの作り方 みたいなことをする必要がある。ルビつきの字を読みのみに変換するプログラム みたいのもある。もっと読ませる範囲が広がると、あれこれ処理を入れてやらないといけない。いろいろな形式のファイルから直接読めても、ゴミの文字が多いと聞いていて疲れるから、事前の処理が必要になる。となると、対応フォーマットの多さはあまりメリットでないとかいうことになるかもしれないが。そういう意味で、フィルタが欲しいところだな。ユーザ辞書程度じゃ、不足。 もっと安いのはないかということで、あらためて、Windows だと無償で使える AquesTalk を使ってみるかな。でも、読みを渡してやらないといけないので、茶筅や MeCab あたりで解析させて読みを取り出さないと。とはいえ、IPA DIC を使った解析結果を見てみると、読みがちゃんと付かないことが多くて、UniDic を使えばいいかなと思っているうちに面倒になって諦めてしまっていた。 と思っていたら、ドキュメントトーカ が AquesTalk を日本語合成エンジンとして使っていて無償で使えるのね (ダウンロード (DTALKERPV2115.EXE: 9.39MB))。 AquesTalk はそれなりによい線まで行っているので、なんとか使えるか。製品版「ドキュメントトーカ日本語音声合成エンジン for Windows」 は、無償版で付いている制限がはずれて、より実用的に使えるようだけど(無償版では、例えば、ときどき「ドキュメントトーカプラス フリー版で喋っております。」というメッセージが入ります。とかある)。サンプルは こんな感じ。SAPI に対応しているから、他の SAPI 対応のソフトからも使える。 でも、ペンタックス音声合成ソフトウェア: VoiceTextデモンストレーション と比べると、やっぱりなぁ。。。。。MISAKI の声が欲しい。このレベルのものがあるんだと分かっちゃうと、使いたくなるのが人情。Misaki の声も入っている xpNavo は、税込:¥26,040 か。 あれこれ探すうちに、電子かたりべ.com の電子かたりべプレーヤーをインストールして、高品質音声合成サービスを買えば、なんと VoiceText が使えるじゃんということに気づく。しかし、分かりにくいよなぁ、このサイト。。。。でも、Misaki の声には満足。とりあえず、一年で \3,150 をとりあえず購入した。ということで、Misaki にしゃべらせることができるようになった。現状で一番これがよい選択しかもしれない。 しゃべるんです。 (シェアウェア) なんかも、電子かたりべプレーヤーをインストールした後なら、ちゃんと Misaki の声でしゃべるようになる。読み上げソフト開発と音声学習 の Text To Wav も使える。 要するに、Microsoft の SAPI5 (Speech API) に対応しているソフトで VW Misaki が使えるようになるのね。自分でも何か SAPI 対応のソフトを作ればよいのだな。 PlaggerでSAPI5を使ってフィード読み上げ 的なこともよいかな。SAPI5の音声ファイルを作るWSHスクリプト、青空文庫のテキストを音声ファイルにするWSHスクリプト2 が便利か。みたいのもできるようになるわけね。 JavaScript などで英語を喋らせる方法 とか、Microsoft .NET Speech - 技術リソース とか参照。 日本語の TTS がインストールされていれば、例えば、次のように sample.js とかファイルを作って、
コマンドラインから
で、しゃべっちゃうのだな。なんか嬉しい。 Python だと pyTTS みたいのもある。Text to Speech in Python のような使い方。 でも、pyTTS はもう更新されてない。Speech API を使うだけだから特にバグもないからか不明。Text to Speech using COM (Python) みたいに win32com から直接 speak = win32com.client.Dispatch('Sapi.SpVoice') って、単純に使うのもいいか。A SAPI Module With Pitch and Create も参照。 NVDA日本語化のためのTTSの開発 とか見たら、オープンソースのWindows用スクリーンリーダNVDAってのは、Python 使っているのだな。NVDAJp の方々が日本語化を進めているのね。 MS SAPI を離れた世界では 日本語を音素に分解してくれるPythonスクリプト とかもあるのね。でも、「平成17年10月1日に調査された日本の総人口は、127,767,994人です。」のデモ(mp3) なので、研究用としてはおもしろいだろうけど、実用ですぐに使うのには辛い。でも、Microsoft 以外のプラットフォームで使えるところはいいけど。 そういえば、GalateaTalk は、NHK の TVML の TVML プレーヤー で使われているのね。TV4U 日本放送協会 放送技術研究所 : DigInfo (YouTube) ということか。TV4U(TV For You)。こういうの や、こういうの みたいのもできるわけね。 視覚的には iClone や CrazyTalkの方がインパクトあるなぁ。 そのうち試してみるかな、とか書いているときは、そのまま放置モードになることが多いのだけど。 話が逸れてしまったが、ペンタックス音声合成ソフトウェア: VoiceText は、とってもよい。実用で使ってみようという気になる。ただ、微妙に間をとって欲しいところで、間を取ってくれたりとかまではしてくれないときがあるから(変につながってしまうときがある)、癖をつかんで事前処理を入れた方が聞きやすくなりそう。あとは、やっぱり、ちゃんと読めないものは辞書を作るとか、書き換えをするとかも必要かな。とりあえず、たくさん使って癖をつかむか。 お気に入りの記事を「いいね!」で応援しよう
[ことばの処理] カテゴリの最新記事
|