update:优化速度

openrz · openrz · commit 728a76987556 · 2025-07-04T15:42:43.000+08:00
diff --git a/README.md b/README.md
@@ -11,6 +11,7 @@
 conda remove -n voiceprint-api --all -y
 conda create -n voiceprint-api python=3.10 -y
 conda activate voiceprint-api
+pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
 
 pip install -r requirements.txt
 ```
diff --git a/app/services/voiceprint_service.py b/app/services/voiceprint_service.py
@@ -32,7 +32,7 @@ def _init_pipeline(self) -> None:
         try:
             # 检查CUDA可用性
             if torch.cuda.is_available():
-                device = "cuda"
+                device = "gpu"
                 logger.info(f"使用GPU设备: {torch.cuda.get_device_name(0)}")
             else:
                 device = "cpu"
@@ -64,27 +64,6 @@ def _to_numpy(self, x) -> np.ndarray:
         """
         return x.cpu().numpy() if torch.is_tensor(x) else np.asarray(x)
 
-    def _log_system_resources(self, stage: str):
-        """记录系统资源使用情况"""
-        try:
-            cpu_percent = psutil.cpu_percent(interval=1)
-            memory = psutil.virtual_memory()
-            disk = psutil.disk_usage("/")
-
-            logger.info(
-                f"[{stage}] 系统资源 - CPU: {cpu_percent}%, "
-                f"内存: {memory.percent}% ({memory.used//1024//1024}MB/{memory.total//1024//1024}MB), "
-                f"磁盘: {disk.percent}%"
-            )
-
-            # 检查当前进程资源使用
-            process = psutil.Process(os.getpid())
-            process_memory = process.memory_info()
-            logger.info(f"[{stage}] 进程内存使用: {process_memory.rss//1024//1024}MB")
-
-        except Exception as e:
-            logger.warning(f"获取系统资源信息失败: {e}")
-
     def extract_voiceprint(self, audio_path: str) -> np.ndarray:
         """
         从音频文件中提取声纹特征
@@ -98,30 +77,24 @@ def extract_voiceprint(self, audio_path: str) -> np.ndarray:
         start_time = time.time()
         logger.info(f"开始提取声纹特征，音频文件: {audio_path}")
 
-        # 记录推理前系统资源
-        self._log_system_resources("推理前")
-
         try:
             # 使用线程锁确保模型推理的线程安全
             with self._pipeline_lock:
                 pipeline_start = time.time()
-                logger.info("开始模型推理...")
+                logger.debug("开始模型推理...")
 
                 # 检查pipeline是否可用
                 if self._pipeline is None:
                     raise RuntimeError("声纹模型未初始化")
 
                 result = self._pipeline([audio_path], output_emb=True)
                 pipeline_time = time.time() - pipeline_start
-                logger.info(f"模型推理完成，耗时: {pipeline_time:.3f}秒")
-
-            # 记录推理后系统资源
-            self._log_system_resources("推理后")
+                logger.debug(f"模型推理完成，耗时: {pipeline_time:.3f}秒")
 
             convert_start = time.time()
             emb = self._to_numpy(result["embs"][0]).astype(np.float32)
             convert_time = time.time() - convert_start
-            logger.info(f"数据转换完成，耗时: {convert_time:.3f}秒")
+            logger.debug(f"数据转换完成，耗时: {convert_time:.3f}秒")
 
             total_time = time.time() - start_time
             logger.info(
@@ -167,9 +140,9 @@ def register_voiceprint(self, speaker_id: str, audio_bytes: bytes) -> bool:
         """
         audio_path = None
         try:
-            # 验证音频文件
-            if not audio_processor.validate_audio_file(audio_bytes):
-                logger.warning(f"音频文件验证失败: {speaker_id}")
+            # 简化音频验证，只做基本检查
+            if len(audio_bytes) < 1000:  # 文件太小
+                logger.warning(f"音频文件过小: {speaker_id}")
                 return False
 
             # 处理音频文件
@@ -214,33 +187,30 @@ def identify_voiceprint(
 
         audio_path = None
         try:
-            # 验证音频文件
-            validation_start = time.time()
-            if not audio_processor.validate_audio_file(audio_bytes):
-                logger.warning("音频文件验证失败")
+            # 简化音频验证
+            if len(audio_bytes) < 1000:
+                logger.warning("音频文件过小")
                 return "", 0.0
-            validation_time = time.time() - validation_start
-            logger.info(f"音频文件验证完成，耗时: {validation_time:.3f}秒")
 
             # 处理音频文件
             audio_process_start = time.time()
             audio_path = audio_processor.ensure_16k_wav(audio_bytes)
             audio_process_time = time.time() - audio_process_start
-            logger.info(f"音频文件处理完成，耗时: {audio_process_time:.3f}秒")
+            logger.debug(f"音频文件处理完成，耗时: {audio_process_time:.3f}秒")
 
             # 提取声纹特征
             extract_start = time.time()
-            logger.info("开始提取声纹特征...")
+            logger.debug("开始提取声纹特征...")
             test_emb = self.extract_voiceprint(audio_path)
             extract_time = time.time() - extract_start
-            logger.info(f"声纹特征提取完成，耗时: {extract_time:.3f}秒")
+            logger.debug(f"声纹特征提取完成，耗时: {extract_time:.3f}秒")
 
             # 获取候选声纹特征
             db_query_start = time.time()
-            logger.info("开始查询数据库获取候选声纹特征...")
+            logger.debug("开始查询数据库获取候选声纹特征...")
             voiceprints = voiceprint_db.get_voiceprints(speaker_ids)
             db_query_time = time.time() - db_query_start
-            logger.info(
+            logger.debug(
                 f"数据库查询完成，获取到{len(voiceprints)}个声纹特征，耗时: {db_query_time:.3f}秒"
             )
 
@@ -250,13 +220,13 @@ def identify_voiceprint(
 
             # 计算相似度
             similarity_start = time.time()
-            logger.info("开始计算相似度...")
+            logger.debug("开始计算相似度...")
             similarities = {}
             for name, emb in voiceprints.items():
                 similarity = self.calculate_similarity(test_emb, emb)
                 similarities[name] = similarity
             similarity_time = time.time() - similarity_start
-            logger.info(
+            logger.debug(
                 f"相似度计算完成，共计算{len(similarities)}个，耗时: {similarity_time:.3f}秒"
             )
 
diff --git a/app/utils/audio_utils.py b/app/utils/audio_utils.py
@@ -31,7 +31,7 @@ def ensure_16k_wav(self, audio_bytes: bytes) -> str:
             str: 临时文件路径
         """
         start_time = time.time()
-        logger.info(f"开始音频处理，输入大小: {len(audio_bytes)}字节")
+        logger.debug(f"开始音频处理，输入大小: {len(audio_bytes)}字节")
 
         with tempfile.NamedTemporaryFile(
             delete=False, suffix=".wav", dir=self.tmp_dir
@@ -44,14 +44,14 @@ def ensure_16k_wav(self, audio_bytes: bytes) -> str:
             read_start = time.time()
             data, sr = sf.read(tmp_path)
             read_time = time.time() - read_start
-            logger.info(
+            logger.debug(
                 f"音频文件读取完成，采样率: {sr}Hz，时长: {len(data)/sr:.2f}秒，耗时: {read_time:.3f}秒"
             )
 
             if sr != self.target_sample_rate:
                 # librosa重采样，支持多通道
                 resample_start = time.time()
-                logger.info(f"开始音频重采样: {sr}Hz -> {self.target_sample_rate}Hz")
+                logger.debug(f"开始音频重采样: {sr}Hz -> {self.target_sample_rate}Hz")
 
                 if data.ndim == 1:
                     data_rs = librosa.resample(
@@ -70,16 +70,16 @@ def ensure_16k_wav(self, audio_bytes: bytes) -> str:
                     ).T
 
                 resample_time = time.time() - resample_start
-                logger.info(f"音频重采样完成，耗时: {resample_time:.3f}秒")
+                logger.debug(f"音频重采样完成，耗时: {resample_time:.3f}秒")
 
                 # 写入重采样后的音频
                 write_start = time.time()
                 sf.write(tmp_path, data_rs, self.target_sample_rate)
                 write_time = time.time() - write_start
-                logger.info(f"重采样音频写入完成，耗时: {write_time:.3f}秒")
+                logger.debug(f"重采样音频写入完成，耗时: {write_time:.3f}秒")
 
             total_time = time.time() - start_time
-            logger.info(f"音频处理完成，总耗时: {total_time:.3f}秒")
+            logger.debug(f"音频处理完成，总耗时: {total_time:.3f}秒")
             return tmp_path
 
         except Exception as e:
@@ -92,7 +92,7 @@ def ensure_16k_wav(self, audio_bytes: bytes) -> str:
 
     def validate_audio_file(self, audio_bytes: bytes) -> bool:
         """
-        验证音频文件格式是否有效
+        验证音频文件格式是否有效（简化版本）
 
         Args:
             audio_bytes: 音频字节数据
@@ -101,7 +101,7 @@ def validate_audio_file(self, audio_bytes: bytes) -> bool:
             bool: 音频文件是否有效
         """
         start_time = time.time()
-        logger.info(f"开始音频文件验证，输入大小: {len(audio_bytes)}字节")
+        logger.debug(f"开始音频文件验证，输入大小: {len(audio_bytes)}字节")
 
         try:
             with tempfile.NamedTemporaryFile(
@@ -114,7 +114,7 @@ def validate_audio_file(self, audio_bytes: bytes) -> bool:
             read_start = time.time()
             data, sr = sf.read(tmp_path)
             read_time = time.time() - read_start
-            logger.info(
+            logger.debug(
                 f"音频文件读取完成，采样率: {sr}Hz，数据长度: {len(data)}，耗时: {read_time:.3f}秒"
             )
 
@@ -138,7 +138,7 @@ def validate_audio_file(self, audio_bytes: bytes) -> bool:
                 return False
 
             total_time = time.time() - start_time
-            logger.info(
+            logger.debug(
                 f"音频验证通过: {duration:.2f}秒, {sr}Hz，总耗时: {total_time:.3f}秒"
             )
             return True
@@ -164,7 +164,7 @@ def cleanup_temp_file(self, file_path: str) -> None:
                 os.remove(file_path)
                 logger.debug(f"临时文件已清理: {file_path}")
         except Exception as e:
-            logger.warning(f"清理临时文件失败 {file_path}: {e}")
+            logger.debug(f"清理临时文件失败 {file_path}: {e}")
 
 
 # 全局音频处理器实例