docs: code review sth

zhzLuke96 · zhzLuke96 · commit d240309d17bb · 2025-07-07T21:23:22.000+08:00
- 修改默认分割器参数 100 =&gt; 30
diff --git a/modules/core/handler/AudioHandler.py b/modules/core/handler/AudioHandler.py
@@ -123,6 +123,7 @@ async def enqueue_to_stream(self) -> AsyncGenerator[bytes, None]:
                     yield chunk_data
                     chunk_data = encoder.read()
 
+            # wait to finish
             encoder.close()
 
             chunk_data = encoder.read()
diff --git a/modules/core/handler/datacls/tts_model.py b/modules/core/handler/datacls/tts_model.py
@@ -19,8 +19,11 @@ class TTSConfig(BaseModel):
 
 
 class InferConfig(BaseModel):
-    batch_size: int = 4
-    spliter_threshold: int = 100
+    # NOTE: batch_size * spliter_threshold = 预计最大vram面积 * 不同模型的系数
+    # 大概 batch_sise=2 spliter_threshold=30 可以保证在8gb显存正常推理
+    batch_size: int = 2
+    spliter_threshold: int = 30
+
     # end_of_sentence
     eos: str = "。"
     seed: int = 42
diff --git a/modules/core/models/TTSModel.py b/modules/core/models/TTSModel.py
@@ -5,9 +5,11 @@
 from modules.core.models.tts.InferCache import InferCache
 from modules.core.pipeline.dcls import TTSSegment
 from modules.core.pipeline.processor import NP_AUDIO, TTSPipelineContext
+from modules.core.spk.TTSSpeaker import TTSSpeaker
 from modules.devices import devices
 from modules.utils import audio_utils
 
+import numpy.typing as npt
 
 class TTSModel(BaseZooModel):
 
@@ -26,6 +28,16 @@ def get_sample_rate(self) -> int:
     def generate(self, segment: TTSSegment, context: TTSPipelineContext) -> NP_AUDIO:
         return self.generate_batch([segment], context=context)[0]
 
+    def compute_spk_features(self, spk: TTSSpeaker) -> npt.NDArray:
+        """
+        计算说话人特征，只有部分模型支持
+
+        用于音色合并或者其他用途
+        """
+        raise NotImplementedError(
+            f"Model {self.model_id} is not support extracting speaker features"
+        )
+
     # NOTE: 这里会有假设，所有的 segments 除了文本以外所有配置相同，具体调用逻辑在 core.pipeline.generate 中
     def generate_batch(
         self, segments: list[TTSSegment], context: TTSPipelineContext
diff --git a/modules/core/pipeline/generate/SynthSteamer.py b/modules/core/pipeline/generate/SynthSteamer.py
@@ -16,14 +16,19 @@ def __init__(
         self.output_wav = np.empty(0)
 
     def flush(self):
+        """
+        刷新合并音频
+        """
         output_wav = np.empty(0)
 
         for seg in self.segments:
             data = seg.data
             if data.size == 0 and not seg.done:
+                # 空检查
                 break
             output_wav = np.concatenate((output_wav, data), axis=0)
             if not seg.done:
+                # 未完成的块，退出，因为只需要合并已经完成的块
                 break
 
         self.output_wav = output_wav