split lang

DataBoySu · DataBoySu · commit 910c8ed5680d · 2025-12-26T18:38:16.000+05:30
diff --git a/.github/workflows/translate.yml b/.github/workflows/translate.yml
@@ -48,7 +48,7 @@ jobs:
           wget -O models/aya-expanse-8b-q4_k_s.gguf https://huggingface.co/matrixportalx/aya-expanse-8b-Q4_K_S-GGUF/resolve/main/aya-expanse-8b-q4_k_s.gguf
 
       - name: Run Translation Script
-        run: python scripts/translate.py --lang ${{ matrix.lang }}
+        run: python scripts/translate_western.py --lang ${{ matrix.lang }}
 
       - name: Upload Translation Artifact
         uses: actions/upload-artifact@v4
@@ -120,7 +120,7 @@ jobs:
           wget -O models/aya-expanse-8b-q4_k_s.gguf https://huggingface.co/matrixportalx/aya-expanse-8b-Q4_K_S-GGUF/resolve/main/aya-expanse-8b-q4_k_s.gguf
       
       - name: Run Translation Script
-        run: python scripts/translate.py --lang ${{ matrix.lang }}
+        run: python scripts/translate_eastern.py --lang ${{ matrix.lang }}
 
       - name: Upload Translation Artifact
         uses: actions/upload-artifact@v4
diff --git a/README.md b/README.md
@@ -6,7 +6,7 @@
   <a href="locales/README.ja.md">🇯🇵 日本語</a> |
   <a href="locales/README.zh.md">🇨🇳 中文</a> |
   <a href="locales/README.pt.md">🇵🇹 Português</a> |
-  <a href="locales/README.ko.md">🇰🇷 한국어</a> | 
+  <a href="locales/README.ko.md">🇰🇷 한국어</a> |
   <a href="README.hi.md">🇮🇳 Hindi</a>
 </div>
 
diff --git a/scripts/translate_eastern.py b/scripts/translate_eastern.py
@@ -0,0 +1,116 @@
+import os
+import re
+import argparse
+from llama_cpp import Llama
+
+LANG_MAP = {
+    "ja": "Japanese", 
+    "zh": "Chinese(Simplified)",
+    "ko": "Korean",
+    "hi": "Hindi",
+}
+
+parser = argparse.ArgumentParser()
+parser.add_argument("--lang", type=str, required=True)
+args = parser.parse_args()
+target_lang_name = LANG_MAP.get(args.lang, "English")
+
+BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
+README_PATH = os.path.join(BASE_DIR, "README.md")
+OUTPUT_DIR = os.path.join(BASE_DIR, "locales")
+OUTPUT_PATH = os.path.join(OUTPUT_DIR, f"README.{args.lang}.md")
+MODEL_PATH = os.path.join(BASE_DIR, "models", "aya-expanse-8b-q4_k_s.gguf")
+
+os.makedirs(OUTPUT_DIR, exist_ok=True)
+llm = Llama(model_path=MODEL_PATH, n_ctx=6144, n_threads=2, verbose=False)
+
+with open(README_PATH, "r", encoding="utf-8") as f:
+    original_text = f.read()
+
+# --- PRE-PROCESSING ---
+protected_blocks = []
+
+def protect_match(match):
+    placeholder = f"__PB_{len(protected_blocks)}__" 
+    protected_blocks.append(match.group(0))
+    return placeholder
+
+text_to_translate = original_text
+
+# 1. Protect Navigation Bar
+text_to_translate = re.sub(r'(<div\s+[^>]*align=["\']center["\'][^>]*>.*?</div>)', protect_match, text_to_translate, flags=re.DOTALL | re.IGNORECASE)
+# 2. Protect Logo Block
+text_to_translate = re.sub(r'(<div\s+[^>]*style=["\'][^"\']*text-align:\s*center[^"\']*["\'][^>]*>.*?</div>)', protect_match, text_to_translate, flags=re.DOTALL | re.IGNORECASE)
+# 3. Protect ALL Images (Badges + Gallery)
+text_to_translate = re.sub(r'(!\[[^\]\r\n]*\]\([^)\r\n]+\))', protect_match, text_to_translate)
+
+# Specialized Prompt for CJK/Eastern Languages
+prompt = f"""<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>
+You are a professional technical {target_lang_name} translator. Translate the provided GitHub README into {target_lang_name}.
+
+CRITICAL RULES:
+1. **Placeholders**: You will see tags like __PB_0__, __PB_1__. 
+   - DO NOT translate them.
+   - DO NOT remove them.
+   - DO NOT convert underscores (_) to full-width characters. Keep them as it is.
+2. **Formatting**: Preserve all Markdown structure exactly.
+3. **Terminology**: Keep English technical terms (GPU, CLI, VRAM, Docker, CUDA) in English.
+4. **Context**: 
+   - 'Enforcement' = Policy restriction (e.g., JA: 制限/強制).
+   - 'Headless' = Server without display.
+5. **Output**: ONLY the translated text. No explanations.
+<|END_OF_TURN_TOKEN|>
+<|START_OF_TURN_TOKEN|><|USER_TOKEN|>
+{text_to_translate}<|END_OF_TURN_TOKEN|>
+<|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>"""
+
+response = llm(prompt, max_tokens=6144, temperature=0, stop=["<|END_OF_TURN_TOKEN|>"])
+translated_content = response['choices'][0]['text'].strip()
+
+# --- POST-PROCESSING: Chain Restoration ---
+
+for i, block in enumerate(protected_blocks):
+    placeholder = f"__PB_{i}__"
+    
+    # 1. Direct replacement
+    if placeholder in translated_content:
+        translated_content = translated_content.replace(placeholder, block)
+        continue
+    
+    # 2. Loose Regex Fallback (Handles CJK full-width issues like ＿PB＿0＿)
+    # Matches __PB_0__, ＿PB_0＿, [PB_0], etc.
+    loose_pattern = re.compile(rf"[\[［]?\s*[__＿]+\s*PB_{i}\s*[__＿]+\s*[\]］]?", re.IGNORECASE)
+    if loose_pattern.search(translated_content):
+        translated_content = loose_pattern.sub(lambda m: block, translated_content)
+        continue
+
+    # 3. CRITICAL FALLBACK: Chain Insertion
+    if i == 0: 
+        translated_content = block + "\n\n" + translated_content
+    else:
+        prev_block = protected_blocks[i-1]
+        if prev_block in translated_content:
+            # Insert current block immediately after the previous one
+            translated_content = translated_content.replace(prev_block, prev_block + "\n" + block, 1)
+        else:
+            translated_content = block + "\n\n" + translated_content
+
+# 4. Path Correction
+# Remove 'locales/' hallucination
+translated_content = re.sub(r'(\[.*?\]\()locales/', r'\1', translated_content)
+translated_content = re.sub(r'((?:src|href)=["\'])locales/', r'\1', translated_content)
+
+# Prepend ../ to relative paths
+translated_content = re.sub(r'(\[.*?\]\()(?!(?:http|/|#|\.\./))', r'\1../', translated_content)
+translated_content = re.sub(r'((?:src|href)=["\'])(?!(?:http|/|#|\.\./))', r'\1../', translated_content)
+
+# 5. Cleanup
+translated_content = re.sub(r'^<!--\s*|(?:\s*)?-->$', '', translated_content).strip()
+if translated_content.startswith("```"):
+    lines = translated_content.splitlines()
+    if lines[0].startswith("```"): lines = lines[1:]
+    if lines and lines[-1].strip().startswith("```"): lines = lines[:-1]
+    translated_content = "\n".join(lines).strip()
+
+with open(OUTPUT_PATH, "w", encoding="utf-8") as f:
+    f.write(translated_content)
diff --git a/scripts/translate_western.py b/scripts/translate_western.py
@@ -0,0 +1,113 @@
+import os
+import re
+import argparse
+from llama_cpp import Llama
+
+LANG_MAP = {
+    "de": "German", 
+    "fr": "French", 
+    "es": "Spanish",
+    "pt": "Portuguese", 
+}
+
+parser = argparse.ArgumentParser()
+parser.add_argument("--lang", type=str, required=True)
+args = parser.parse_args()
+target_lang_name = LANG_MAP.get(args.lang, "English")
+
+BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
+README_PATH = os.path.join(BASE_DIR, "README.md")
+OUTPUT_DIR = os.path.join(BASE_DIR, "locales")
+OUTPUT_PATH = os.path.join(OUTPUT_DIR, f"README.{args.lang}.md")
+MODEL_PATH = os.path.join(BASE_DIR, "models", "aya-expanse-8b-q4_k_s.gguf")
+
+os.makedirs(OUTPUT_DIR, exist_ok=True)
+llm = Llama(model_path=MODEL_PATH, n_ctx=6144, n_threads=2, verbose=False)
+
+with open(README_PATH, "r", encoding="utf-8") as f:
+    original_text = f.read()
+
+# --- PRE-PROCESSING: Protect Sensitive Blocks ---
+protected_blocks = []
+
+def protect_match(match):
+    # Use underscores to look like code variables, which LLMs respect more
+    placeholder = f"__PB_{len(protected_blocks)}__" 
+    protected_blocks.append(match.group(0))
+    return placeholder
+
+text_to_translate = original_text
+
+# 1. Protect Navigation Bar
+text_to_translate = re.sub(r'(<div\s+[^>]*align=["\']center["\'][^>]*>.*?</div>)', protect_match, text_to_translate, flags=re.DOTALL | re.IGNORECASE)
+# 2. Protect Logo Block
+text_to_translate = re.sub(r'(<div\s+[^>]*style=["\'][^"\']*text-align:\s*center[^"\']*["\'][^>]*>.*?</div>)', protect_match, text_to_translate, flags=re.DOTALL | re.IGNORECASE)
+# 3. Protect ALL Images (Badges + Gallery)
+# This prevents the gallery from disappearing or badges being translated
+text_to_translate = re.sub(r'(!\[[^\]\r\n]*\]\([^)\r\n]+\))', protect_match, text_to_translate)
+
+prompt = f"""<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>
+You are a professional technical translator. Translate the provided README into professional developer-level {target_lang_name}.
+CRITICAL RULES:
+1. **Structure**: Keep the layout exactly the same.
+2. **Placeholders**: You will see placeholders like __PB_0__, __PB_1__. These are images or layout blocks. KEEP THEM EXACTLY AS IS. Do not move or translate them.
+3. **Terminology**: Preserve terms like GPU, CLI, VRAM, SSH, Docker, API, CUDA.
+4. **No Talk**: Output ONLY the translated text.
+<|END_OF_TURN_TOKEN|>
+<|START_OF_TURN_TOKEN|><|USER_TOKEN|>
+{text_to_translate}<|END_OF_TURN_TOKEN|>
+<|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>"""
+
+response = llm(prompt, max_tokens=6144, temperature=0, stop=["<|END_OF_TURN_TOKEN|>"])
+translated_content = response['choices'][0]['text'].strip()
+
+# --- POST-PROCESSING: Chain Restoration ---
+
+for i, block in enumerate(protected_blocks):
+    placeholder = f"__PB_{i}__"
+    
+    # 1. Direct replacement (Best case)
+    if placeholder in translated_content:
+        translated_content = translated_content.replace(placeholder, block)
+        continue
+    
+    # 2. Loose Regex Fallback (Handles spacing issues)
+    loose_pattern = re.compile(rf"\[?\s*__\s*PB_{i}\s*__\s*\]?", re.IGNORECASE)
+    if loose_pattern.search(translated_content):
+        translated_content = loose_pattern.sub(lambda m: block, translated_content)
+        continue
+
+    # 3. CRITICAL FALLBACK: Chain Insertion
+    # If a block is missing, insert it immediately after the previous block.
+    # This ensures Nav -> Logo -> Badge1 -> Badge2 order is preserved even if the LLM drops them.
+    
+    if i == 0: 
+        # Nav missing? Prepend to file.
+        translated_content = block + "\n\n" + translated_content
+    else:
+        # Insert after the previous block (which is guaranteed to be in the text now)
+        prev_block = protected_blocks[i-1]
+        if prev_block in translated_content:
+            # Replace the previous block with "Previous + New"
+            # We use a specific check to avoid duplicating if the previous block appears multiple times (unlikely for these headers)
+            translated_content = translated_content.replace(prev_block, prev_block + "\n" + block, 1)
+        else:
+            # If previous block is somehow missing (shouldn't happen due to loop order), just prepend
+            translated_content = block + "\n\n" + translated_content
+
+# 4. Path Correction
+# Remove 'locales/' hallucination
+translated_content = re.sub(r'(\[.*?\]\()locales/', r'\1', translated_content)
+translated_content = re.sub(r'((?:src|href)=["\'])locales/', r'\1', translated_content)
+
+# Prepend ../ to relative paths
+translated_content = re.sub(r'(\[.*?\]\()(?!(?:http|/|#|\.\./))', r'\1../', translated_content)
+translated_content = re.sub(r'((?:src|href)=["\'])(?!(?:http|/|#|\.\./))', r'\1../', translated_content)
+
+# 5. Cleanup
+translated_content = re.sub(r'^<!--\s*|(?:\s*)?-->$', '', translated_content).strip()
+if translated_content.startswith("```"):
+    translated_content = "\n".join(translated_content.splitlines()[1:-1]).strip()
+
+with open(OUTPUT_PATH, "w", encoding="utf-8") as f:
+    f.write(translated_content)