ゆっくり(Aquestalk)とか古いボイスロイドとか、CoeFontとかCOEIROINKとかは口パク情報を取れない><!
wav2labがあるけど、量が多いと大変であんまり現実的じゃない…。
音声認識エンジンを拡張して.lab形式で取得できるようにするのがいいかも。
候補:
- Julius
- wav2labは多分これ
- 精度があんまり良くないっぽい
- Vosk
- 最近よく聞く
- 日本語対応している
- 音素情報が取れるforkがある
- Whisper
- これも最近よく聞く
- そもそも音素情報取れるの?調べてない…