口パク情報がとれない音声合成エンジン（ゆっくりAquestalkとか）対応

ゆっくり（Aquestalk）とか古いボイスロイドとか、CoeFontとかCOEIROINKとかは口パク情報を取れない＞＜！
wav2labがあるけど、量が多いと大変であんまり現実的じゃない…。

音声認識エンジンを拡張して.lab形式で取得できるようにするのがいいかも。

候補：
- Julius
  - wav2labは多分これ
  - 精度があんまり良くないっぽい
- Vosk
  - 最近よく聞く
  - 日本語対応している
  - 音素情報が取れるforkがある
- Whisper
  - これも最近よく聞く
  - そもそも音素情報取れるの？調べてない…