Skip to content

Guided API機能 #1774 の検証タスク #1795

@Hiroshiba

Description

@Hiroshiba

内容

#1774 (Guided API機能)の品質検証タスクです。
この機能は参照音声によるイントネーションや音素長のガイド付き音声生成を可能にします。
この機能を一言でいうと、自分の音声を録音してイントネーションを自動調整する機能です。

現在は「実験的機能」としての導入が検討されています。
マージ可否を判断するため、様々な条件・話者・環境での品質およびロバスト性を評価します。

なぜ検証するのか

イントネーションや音素長が参照音声に近づくことで音声生成の表現力向上が期待できる一方、イントネーションの不自然さやドメイン外音声での性能低下、キャラクターにどれくらい合うのかなど懸念もあるため。

実現方法

以下の音声リストとテスト条件に沿って検証を実施し、結果をまとめる。
(流石に検証するだけにしてはだいぶ重たいタスクなのですが、今後もテスト手法やコードを使い回せるかな~と思って気合い入れて作ってみました)

Guided APIの使い方は

  1. Guided API #1774 のブランチ(Patchethium:guided-1)をチェックアウト
  2. uv run run.py(README.mdに書いています)
  3. curlコマンドでAPIを叩く(見本。もちろんcurlじゃなくてpythonコードでもOK!)

テスト条件一覧

それぞれについて、zipでまとめてこのissueに添付する(ドラッグアンドドロップで添付できます)。
そのあとヒホが聞いてみます。(もしよかったらその視聴テストも付き合っていただければ!!聞いてみた感想で十分です🙏)

  1. 入力音声のロバスト性・出力話者違い
  • 同時に検証する
  • 音声リスト1~16の音声を入力
  • 出力話者は4人、ずんだもん・きりたん・龍星・虎太郎(男女の高め低め音声)
  • ファイル名に番号とか情報振ってわかりやすくしつつ、16×4の音声を生成
  1. ノイズ耐性テスト
  • 素人音声(ヒホの声)の3音声を使用
  • ホワイトノイズを付与(元音声の最大振幅の:1/32, 1/16, 1/8, 1/4, 1/2)して入力音声とする
  • 1/4くらいを耐えられれば超十分
  1. 音量耐性テスト
  • 素人音声(ヒホの声)の3音声を使用
  • 音量を0.1倍, 0.25倍, 0.5倍, 2倍, 4倍, 10倍にして入力音声とする
  • 振幅を √音量倍率 倍すればOK。音量4倍=振幅2倍。

以下が音声リストです:

  • 素人音声(ヒホの声):
    1. 平読み「おはようございます、こんにちは、こんばんは、さようなら」
    2. 早口「明日も23時ごろから放送したいと思うのでもしよかったらまたお会いしましょう」
    3. キャラ演技「僕の名前はずんだもんなのだ!」
  • スマホ録音音声(ヒホの声):
    4. 平読み「おはようございます、こんにちは、こんばんは、さようなら」
    5. 早口「明日も23時ごろから放送したいと思うのでもしよかったらまたお会いしましょう」
    6. キャラ演技「僕の名前はずんだもんなのだ!」
  • プロの通常音声(JVS corpus) :
    7. jvs079 UT-PARAPHRASE-sent046-phrase2「早稲田との駆け引きに負けたとは思わないが、布石にも後悔するところがある。」
    8. jvs099 UT-PARAPHRASE-sent235-phrase1.wav「皮膚では厚さを感じないが、体の芯部から温める。」
    9. jvs035 UT-PARAPHRASE-sent258-phrase1「中庭を囲むように建物を配置」
    10. jvs014 UT-PARAPHRASE-sent136-phrase2.wav「同じ歩いたり、ビールを飲むんでも、女らしくしとやかに行動するようになるでしょ?」
  • プロの感情音声(JVNV CC BY-SA 4.0):
    11. M1_happy_free_09「今日はフランス料理のお店で、デュパンのクロワッサンを食べたよお。うわあ、あんな美味しいクロワッサンは初めてだったあ。」
    12. M2_sad_free_04「くっ・・・。私の祖母は末期のがんで、もうすぐ別れの日が近づいていると思うと、本当に悲しい。」
    13. F1_surprise_free_02「あああ!彼らが和解したと聞いて驚きました。以前はあんなに仲が悪かったのに、何がきっかけで和解できたのでしょうか?」
    14. F2_fear_free_10「ひー!あの森に入るのは怖い!そこに住む奇妙な生き物がいると聞いたからだ。」
  • ずんだもん ROHAN4600データ(どの音声でも良いので2つ):
    15. [ROHAN4600_1194](長め)「ギュルビッチは、斜辺と角度から、造形の美しさを知覚できる。」
    16. [ROHAN4600_0259](普通)「ディスポーザーがあれば、生ゴミを気軽に処分できます」

検証してくださる方大募集中です!!!!!!!!!!!!!

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions