test tts runner, fix bugs, optim code

suchen-sci · suchen-sci · commit 3e1560be728f · 2025-01-22T15:47:41.000+08:00
diff --git a/configs/tts_infer.yaml b/configs/tts_infer.yaml
@@ -0,0 +1,14 @@
+custom:
+  bert_base_path: models/pretrained/chinese-roberta-wwm-ext-large
+  cnhuhbert_base_path: models/pretrained/chinese-hubert-base
+  device: cpu
+  is_half: false
+  t2s_weights_path: models/pretrained/gsv-v2final-pretrained/s1bert25hz-5kh-longer-epoch=12-step=369668.ckpt
+  vits_weights_path: models/pretrained/gsv-v2final-pretrained/s2G2333k.pth
+default:
+  bert_base_path: models/pretrained/chinese-roberta-wwm-ext-large
+  cnhuhbert_base_path: models/pretrained/chinese-hubert-base
+  device: cpu
+  is_half: false
+  t2s_weights_path: models/pretrained/gsv-v2final-pretrained/s1bert25hz-5kh-longer-epoch=12-step=369668.ckpt
+  vits_weights_path: models/pretrained/gsv-v2final-pretrained/s2G2333k.pth
diff --git a/pyproject.toml b/pyproject.toml
@@ -38,4 +38,5 @@ dependencies = [
     "pyjyutping",
     "cn2an",
     "python-mecab-ko",
+    "matplotlib",
 ]
diff --git a/requirements.txt b/requirements.txt
@@ -41,3 +41,4 @@ funasr==1.0.27
 torchaudio
 python-mecab-ko
 opencc
+matplotlib
diff --git a/src/easevoice/configs/.gitignore b/src/easevoice/configs/.gitignore
diff --git a/src/easevoice/configs/s2.json b/src/easevoice/configs/s2.json
diff --git a/src/easevoice/inference/__init__.py b/src/easevoice/inference/__init__.py
@@ -5,7 +5,7 @@
 import os
 import logging
 
-from ...utils.config.config import GlobalCFG
+from ...utils.path import get_base_path
 from ...logger import logger
 
 
@@ -22,7 +22,7 @@
 
 @dataclasses.dataclass
 class InferenceResult:
-    items: list = []
+    items: list = dataclasses.field(default_factory=list)
     seed: int = -1
     error: Optional[str] = None
 
@@ -35,7 +35,7 @@ class InferenceTaskData:
     prompt_text: str
     prompt_lang: str
     text_split_method: str
-    aux_ref_audio_paths: list = []
+    aux_ref_audio_paths: list = dataclasses.field(default_factory=list)
     seed = -1
     top_k = 5
     top_p = 1
@@ -65,20 +65,7 @@ class Runner:
     """
 
     def __init__(self, queue: multiprocessing.Queue):
-        cfg = GlobalCFG()
-
-        gpt_path = os.environ.get("gpt_path", None)
-        sovits_path = os.environ.get("sovits_path", None)
-        cnhubert_base_path = os.environ.get("cnhubert_base_path", None)
-        bert_path = os.environ.get("bert_path", None)
-
-        tts_config = TTSConfig("GPT_SoVITS/configs/tts_infer.yaml")
-        tts_config.device = cfg.device
-        tts_config.is_half = cfg.is_half
-        tts_config.t2s_weights_path = gpt_path if gpt_path is not None else tts_config.t2s_weights_path
-        tts_config.vits_weights_path = sovits_path if sovits_path is not None else tts_config.vits_weights_path
-        tts_config.cnhuhbert_base_path = cnhubert_base_path if cnhubert_base_path is not None else tts_config.cnhuhbert_base_path
-        tts_config.bert_base_path = bert_path if bert_path is not None else tts_config.bert_base_path
+        tts_config = TTSConfig(os.path.join(get_base_path(), "configs", "tts_infer.yaml"))
         logger.info(f"tts config: {tts_config}")
 
         self.tts_config = tts_config
diff --git a/src/easevoice/inference/tts.py b/src/easevoice/inference/tts.py
@@ -1,12 +1,15 @@
 
 import dataclasses
+
+from ...utils.config.config import GlobalCFG
+from ...utils.path import get_base_path
 from .preprocessor import TextPreprocessor
 from .segmentation import SPLITS
-from module.mel_processing import spectrogram_torch
+from ..module.mel_processing import spectrogram_torch
 from ...utils.audio import load_audio
 from time import time as ttime
 import librosa
-from module.models import SynthesizerTrn
+from ..module.models import SynthesizerTrn
 from ..feature_extractor.cnhubert import CNHubert
 from ..soundstorm.auto_reg.models.t2s_lightning_module import Text2SemanticLightningModule
 from transformers import AutoModelForMaskedLM, AutoTokenizer
@@ -54,16 +57,21 @@ def set_seed(seed: int):
     return seed
 
 
+def _get_default_configs():
+    global_config = GlobalCFG()
+    return {
+        "device": global_config.device,
+        "is_half": global_config.is_half,
+        "t2s_weights_path": global_config.gpt_path,
+        "vits_weights_path": global_config.sovits_path,
+        "cnhuhbert_base_path": global_config.cnhubert_path,
+        "bert_base_path": global_config.bert_path,
+    }
+
+
 class TTSConfig:
     default_configs = {
-        "default": {
-            "device": "cpu",
-            "is_half": False,
-            "t2s_weights_path": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s1bert25hz-5kh-longer-epoch=12-step=369668.ckpt",
-            "vits_weights_path": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth",
-            "cnhuhbert_base_path": "GPT_SoVITS/pretrained_models/chinese-hubert-base",
-            "bert_base_path": "GPT_SoVITS/pretrained_models/chinese-roberta-wwm-ext-large",
-        },
+        "default": _get_default_configs(),
     }
     languages: list = ["auto", "auto_yue", "en", "zh", "ja", "yue", "ko", "all_zh", "all_ja", "all_yue", "all_ko"]
     # "all_zh",#全部按中文识别
@@ -79,6 +87,8 @@ class TTSConfig:
     # "auto_yue",#多语种启动切分识别语种
 
     def __init__(self, configs: Union[dict, str, None] = None):  # pyright: ignore
+        global_config = GlobalCFG()
+
         configs_base_path = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))), "configs")
         os.makedirs(configs_base_path, exist_ok=True)
         self.configs_path: str = os.path.join(configs_base_path, "tts_infer.yaml")
@@ -97,8 +107,8 @@ def __init__(self, configs: Union[dict, str, None] = None):  # pyright: ignore
         self.default_configs["default"] = configs.get("default", self.default_configs["default"])
 
         self.configs: dict = configs.get("custom", deepcopy(self.default_configs["default"]))
-        self.device = self.configs.get("device", torch.device("cpu"))
-        self.is_half = self.configs.get("is_half", False)
+        self.device = self.configs.get("device", global_config.device)
+        self.is_half = self.configs.get("is_half", global_config.is_half)
 
         def get_path(key: str):
             path = self.configs.get(key, None)
@@ -180,7 +190,7 @@ def __init__(self, configs: Union[dict, str, TTSConfig]):
 
         self.t2s_model: Text2SemanticLightningModule = None  # pyright: ignore
         self.vits_model: SynthesizerTrn = None  # pyright: ignore
-        self.bert_tokenizer: = None  # pyright: ignore
+        self.bert_tokenizer: AutoTokenizer = None  # pyright: ignore
         self.bert_model: AutoModelForMaskedLM = None  # pyright: ignore
         self.cnhuhbert_model: CNHubert = None  # pyright: ignore
 
@@ -223,7 +233,7 @@ def init_cnhuhbert_weights(self, base_path: str):
 
     def init_bert_weights(self, base_path: str):
         logger.info(f"Loading BERT weights from {base_path}")
-        self.bert_tokenizer = AutoTokenizer.from_pretrained(base_path)
+        self.bert_tokenizer = AutoTokenizer.from_pretrained(base_path)  # pyright: ignore
         self.bert_model = AutoModelForMaskedLM.from_pretrained(base_path)
         self.bert_model = self.bert_model.eval()  # pyright: ignore
         self.bert_model = self.bert_model.to(self.configs.device)  # pyright: ignore
diff --git a/src/easevoice/module/data_utils.py b/src/easevoice/module/data_utils.py
@@ -1,21 +1,14 @@
-import time
-import logging
 import os
 import random
 import traceback
-import numpy as np
 import torch
 import torch.utils.data
 from tqdm import tqdm
 
-from module import commons
-from module.mel_processing import spectrogram_torch
+from . import commons
+from .mel_processing import spectrogram_torch
 from text import cleaned_text_to_sequence
 import torch.nn.functional as F
-from functools import lru_cache
-import requests
-from scipy.io import wavfile
-from io import BytesIO
 from ...utils.audio import load_audio
 version = os.environ.get('version', None)
 # ZeroDivisionError fixed by Tybost (https://github.com/RVC-Boss/GPT-SoVITS/issues/79)
diff --git a/src/easevoice/module/mel_processing.py b/src/easevoice/module/mel_processing.py
@@ -1,16 +1,5 @@
-import math
-import os
-import random
 import torch
-from torch import nn
-import torch.nn.functional as F
 import torch.utils.data
-import numpy as np
-import librosa
-import librosa.util as librosa_util
-from librosa.util import normalize, pad_center, tiny
-from scipy.signal import get_window
-from scipy.io.wavfile import read
 from librosa.filters import mel as librosa_mel_fn
 
 MAX_WAV_VALUE = 32768.0
diff --git a/src/easevoice/module/models.py b/src/easevoice/module/models.py
@@ -1,21 +1,16 @@
 import contextlib
 from torch.cuda.amp import autocast
 from ..text.symbols import SYMBOLS
-from module.quantize import ResidualVectorQuantizer
-from module.mrte_model import MRTE
-from module.commons import init_weights, get_padding
+from .quantize import ResidualVectorQuantizer
+from .mrte_model import MRTE
+from .commons import init_weights, get_padding
 from torch.nn.utils import weight_norm, remove_weight_norm, spectral_norm
 from torch.nn import Conv1d, ConvTranspose1d, AvgPool1d, Conv2d
-from module import attentions
-from module import modules
-from module import commons
+from . import attentions, modules, commons
 from torch.nn import functional as F
 from torch import nn
 import torch
-import pdb
-import os
 import math
-import copy
 import warnings
 warnings.filterwarnings("ignore")
 
diff --git a/src/easevoice/module/models_onnx.py b/src/easevoice/module/models_onnx.py
@@ -1,20 +1,18 @@
-import copy
 import math
 from typing import Optional
 import torch
 from torch import nn
 from torch.nn import functional as F
 
-from module import commons
-from module import modules
-from module import attentions_onnx as attentions
+from . import commons
+from . import modules
+from . import attentions_onnx as attentions
 
-from torch.nn import Conv1d, ConvTranspose1d, AvgPool1d, Conv2d
+from torch.nn import Conv1d, ConvTranspose1d, Conv2d
 from torch.nn.utils import weight_norm, remove_weight_norm, spectral_norm
-from module.commons import init_weights, get_padding
-from module.quantize import ResidualVectorQuantizer
+from .commons import init_weights, get_padding
+from .quantize import ResidualVectorQuantizer
 from ..text.symbols import SYMBOLS
-from torch.cuda.amp import autocast
 
 
 class StochasticDurationPredictor(nn.Module):
diff --git a/src/easevoice/module/modules.py b/src/easevoice/module/modules.py
@@ -7,9 +7,9 @@
 from torch.nn import Conv1d
 from torch.nn.utils import weight_norm, remove_weight_norm
 
-from module import commons
-from module.commons import init_weights, get_padding
-from module.transforms import piecewise_rational_quadratic_transform
+from . import commons
+from .commons import init_weights, get_padding
+from .transforms import piecewise_rational_quadratic_transform
 import torch.distributions as D
 
 
diff --git a/src/easevoice/module/mrte_model.py b/src/easevoice/module/mrte_model.py
@@ -3,7 +3,7 @@
 import torch
 from torch import nn
 from torch.nn.utils import remove_weight_norm, weight_norm
-from module.attentions import MultiHeadAttention
+from .attentions import MultiHeadAttention
 
 
 class MRTE(nn.Module):
diff --git a/src/easevoice/module/quantize.py b/src/easevoice/module/quantize.py
@@ -7,13 +7,12 @@
 """Residual vector quantizer implementation."""
 
 from dataclasses import dataclass, field
-import math
 import typing as tp
 
 import torch
 from torch import nn
 
-from module.core_vq import ResidualVectorQuantization
+from .core_vq import ResidualVectorQuantization
 
 
 @dataclass
diff --git a/src/utils/config/config.py b/src/utils/config/config.py
diff --git a/tests/easevoice/tts_test.py b/tests/easevoice/tts_test.py
diff --git a/uv.lock b/uv.lock

Original file line number	Diff line number	Diff line change
`@@ -38,4 +38,5 @@ dependencies = [`
`38`	`38`	`"pyjyutping",`
`39`	`39`	`"cn2an",`
`40`	`40`	`"python-mecab-ko",`
	`41`	`+ "matplotlib",`
`41`	`42`	`]`