人気ブログランキング | 話題のタグを見る
(moved to http://tmasada.cocolog-nifty.com/blog/)
音声認識だなぁ~
音声認識やります。幅を広げるためです。論文投稿できる学会の幅を。今のところMFCCはHTK任せ。その後をがんばってます。ちなみにHTKはCFLAGSをm64にして./configureしないとmake allできないことがあるので注意。

音声認識といっても、とりあえず、HTKのマニュアル読んで、真似しつつコーディングしてるだけ。いずれはベイズ化しよかな。その前に、普通にHMMで音素モデルをちゃんと作ってみよか、と。手はじめの実験のために用意したものは・・・。

まず、beep dictionary。たくさんの英単語を音素の列として書き下してあるデータ。次に、フリーの英単語読み上げWAVファイルデータ。でも、合成された音声なので、加えてexciteのオンライン英和辞典からほぼ全単語のwavファイルをクローリング(すいません)してリアルな音声も確保。さきほどのbeep辞書とこれらのwavファイルとの両方に出てくる単語を集めれば、英語の音素モデル作成実験用データ完成。
by tmasada2 | 2009-02-05 23:13 | らららルルル
<< 離家出走 / 丁噹 文化部、国庫1275億ウォン2... >>