Update TTS Server

HardCodeDev777 · HardCodeDev777 · commit 5416b2845105 · 2025-07-27T15:40:38.000+04:00
- Fix requirements.txt
- Fix run_server.bat
- Enable debug for main.py
- Improve main.py code readability
diff --git a/batch/run_server.bat b/batch/run_server.bat
@@ -1,12 +1,6 @@
 @echo off
 cd /d %~dp0\Server
 
-echo *************************************************
-echo UnityNeuroSpeech Text-To-Speech server is running!
-echo UnityNeuroSpeech official GitHub repository: https://github.com/HardCodeDev777/UnityNeuroSpeech
-echo *************************************************
-
-call .venv\Scripts\activate
-python main.py
+.venv\Scripts\python.exe main.py
 
 pause
diff --git a/server/main.py b/server/main.py
@@ -1,16 +1,13 @@
 import torch, io, sys, os, logging, warnings
 from flask import Flask, request, Response, render_template
 from langdetect import detect
-from torch.serialization import add_safe_globals
 from TTS.api import TTS
-from TTS.tts.configs.xtts_config import XttsConfig
-from TTS.tts.models.xtts import XttsAudioConfig, XttsArgs
-from TTS.config.shared_configs import BaseDatasetConfig
-add_safe_globals([XttsConfig, XttsAudioConfig, XttsArgs, BaseDatasetConfig])
 
-warnings.simplefilter(action='ignore', category=FutureWarning)
-sys.stdout = open(os.devnull, 'w')
-logging.disable(logging.CRITICAL)
+# warnings.simplefilter(action='ignore', category=FutureWarning)
+# sys.stdout = open(os.devnull, 'w')
+# logging.disable(logging.CRITICAL)
+
+print(f"Python executable(for gebug): {sys.executable}")
 
 device = "cuda" if torch.cuda.is_available() else "cpu"
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
@@ -19,25 +16,29 @@
 tts = TTS(model_path=MODEL_PATH, config_path=CONFIG_PATH, progress_bar=False)
 tts.to(device)
 
-EN_VOICE = "./Voices/en_voice.wav"
-ES_VOICE = "./Voices/es_voice.wav"
-FR_VOICE = "./Voices/fr_voice.wav"
-DE_VOICE = "./Voices/de_voice.wav"
-IT_VOICE = "./Voices/it_voice.wav"
-PT_VOICE = "./Voices/pt_voice.wav"
-PL_VOICE = "./Voices/pl_voice.wav"
-TR_VOICE = "./Voices/tr_voice.wav"
-RU_VOICE = "./Voices/ru_voice.wav"
-NL_VOICE = "./Voices/nl_voice.wav"
-CS_VOICE = "./Voices/cs_voice.wav"
-AR_VOICE = "./Voices/ar_voice.wav"
-ZH_CN_VOICE = "./Voices/zh_cn_voice.wav"
-HU_VOICE = "./Voices/hu_voice.wav"
-KO_VOICE = "./Voices/ko_voice.wav"
-JA_VOICE = "./Voices/ja_voice.wav"
-HI_VOICE = "./Voices/hi_voice.wav"
+VOICES = {
+    'en': "./Voices/en_voice.wav",
+    'es': "./Voices/es_voice.wav",
+    'fr': "./Voices/fr_voice.wav",
+    'de': "./Voices/de_voice.wav",
+    'it': "./Voices/it_voice.wav",
+    'pt': "./Voices/pt_voice.wav",
+    'pl': "./Voices/pl_voice.wav",
+    'tr': "./Voices/tr_voice.wav",
+    'ru': "./Voices/ru_voice.wav",
+    'nl': "./Voices/nl_voice.wav",
+    'cs': "./Voices/cs_voice.wav",
+    'ar': "./Voices/ar_voice.wav",
+    'zh-cn': "./Voices/zh_cn_voice.wav",
+    'hu': "./Voices/hu_voice.wav",
+    'ko': "./Voices/ko_voice.wav",
+    'ja': "./Voices/ja_voice.wav",
+    'hi': "./Voices/hi_voice.wav"
+}
+
 app = Flask(__name__)
 
+
 @app.route('/')
 def index():
     return render_template("index.html")
@@ -49,43 +50,9 @@ def speak():
         lang = detect(text)
     except:
         lang = "en"
-    if lang not in ['en', 'es', 'fr', 'de', 'it', 'pt', 'pl', 'tr', 'ru', 'nl', 'cs', 'ar', 'zh-cn', 'hu', 'ko', 'ja', 'hi']:
-        lang = "en"
 
-    if(lang == "en"):
-        speaker_file = EN_VOICE
-    elif(lang == "es"):
-        speaker_file = ES_VOICE
-    elif(lang == "fr"):
-        speaker_file = FR_VOICE
-    elif(lang == "de"):
-        speaker_file = DE_VOICE
-    elif(lang == "it"):
-        speaker_file = IT_VOICE
-    elif(lang == "pt"):
-        speaker_file = PT_VOICE
-    elif(lang == "pl"):
-        speaker_file = PL_VOICE
-    elif(lang == "tr"):
-        speaker_file = TR_VOICE
-    elif(lang == "ru"):
-        speaker_file = RU_VOICE
-    elif(lang == "nl"):
-        speaker_file = NL_VOICE
-    elif(lang == "cs"):
-        speaker_file = CS_VOICE
-    elif(lang == "ar"):
-        speaker_file = AR_VOICE
-    elif(lang == "zh-cn"):
-        speaker_file = ZH_CN_VOICE
-    elif(lang == "hu"):
-        speaker_file = HU_VOICE
-    elif(lang == "ko"):
-        speaker_file = KO_VOICE
-    elif(lang == "ja"):
-        speaker_file = JA_VOICE
-    elif(lang == "hi"):
-        speaker_file = HI_VOICE
+    # Default to English if language not supported
+    speaker_file = VOICES.get(lang, VOICES['en'])
 
     buf = io.BytesIO()
     with torch.inference_mode():
@@ -101,5 +68,6 @@ def speak():
 
     return Response(data, mimetype="audio/wav")
 
-if __name__=="__main__":
+
+if __name__ == "__main__":
     app.run(port=7777, threaded=True)
diff --git a/server/requirements.txt b/server/requirements.txt
@@ -1,60 +1,45 @@
-# core deps
-numpy==1.22.0;python_version<="3.10"
-numpy>=1.24.3;python_version>"3.10"
+# Core dependencies
+torch==2.1.0
+torchaudio==2.1.0
+transformers==4.33.0
+TTS==0.21.2
+
+# Additional critical dependencies
+numpy>=1.24.3
 cython>=0.29.30
 scipy>=1.11.2
-torch>=2.1
-torchaudio
 soundfile>=0.12.0
 librosa>=0.10.0
 scikit-learn>=1.3.0
-numba==0.55.1;python_version<"3.9"
-numba>=0.57.0;python_version>="3.9"
+numba>=0.57.0
 inflect>=5.6.0
 tqdm>=4.64.1
 anyascii>=0.3.0
 pyyaml>=6.0
-fsspec>=2023.6.0 # <= 2023.9.1 makes aux tests fail
+fsspec>=2023.6.0
 aiohttp>=3.8.1
 packaging>=23.1
 mutagen==1.47.0
-# deps for examples
 flask>=2.0.1
-# deps for inference
 pysbd>=0.3.4
-# deps for notebooks
 umap-learn>=0.5.1
 pandas>=1.4,<2.0
-# deps for training
 matplotlib>=3.7.0
-# coqui stack
 trainer>=0.0.36
-# config management
 coqpit>=0.0.16
-# chinese g2p deps
 jieba
 pypinyin
-# korean
 hangul_romanize
-# gruut+supported langs
 gruut[de,es,fr]==2.2.3
-# deps for korean
 jamo
 nltk
 g2pkk>=0.1.1
-# deps for bangla
 bangla
 bnnumerizer
 bnunicodenormalizer
-#deps for tortoise
 einops>=0.6.0
-
-# UnityNeuroSpeech's developer note - "I HATE IT"
-transformers==4.33.0
-
-#deps for bark
 encodec>=0.1.1
-# deps for XTTS
 unidecode>=1.3.2
 num2words
-spacy[ja]>=3
+spacy[ja]>=3
+langdetect>=1.0.9