Merge pull request #555 from qazxcdswe123/disable-same-input-output-fallback

awwaawwa · web-flow · commit 258a92b3abc5 · 2025-12-29T10:18:34.000+08:00
Add a (off-by-default) option to disable same input output fallback, update logging format
diff --git a/README.md b/README.md
@@ -195,6 +195,7 @@ uv run babeldoc --files example.pdf --files example2.pdf --openai --openai-model
 - `--openai`: Use OpenAI for translation (default: False)
 - `--custom-system-prompt`: Custom system prompt for translation.
 - `--add-formula-placehold-hint`: Add formula placeholder hint for translation. (Currently not recommended, it may affect translation quality, default: False)
+- `--disable-same-text-fallback`: Disable fallback translation when LLM output matches input text. (default: False)
 - `--pool-max-workers`: Maximum number of worker threads for internal task processing pools. If not specified, defaults to QPS value. This parameter directly sets the worker count, replacing previous QPS-based dynamic calculations.
 - `--no-auto-extract-glossary`: Disable automatic term extraction. If this flag is present, the step is skipped. Defaults to enabled.
 
@@ -305,6 +306,7 @@ openai-model = "gpt-4o-mini"
 openai-base-url = "https://api.openai.com/v1"
 openai-api-key = "your-api-key-here"
 enable-json-mode-if-requested = false  # Enable JSON mode when requested (default: false)
+disable_same_text_fallback = false # Disable fallback translation when LLM output matches input text (default: false)
 pool-max-workers = 8  # Maximum worker threads for task processing (defaults to QPS value if not set)
 
 # Glossary Options (Optional)
diff --git a/babeldoc/format/pdf/document_il/midend/il_translator_llm_only.py b/babeldoc/format/pdf/document_il/midend/il_translator_llm_only.py
@@ -761,7 +761,12 @@ def translate_paragraph(
                     input_token_count = self.calc_token_count(trimed_input)
                     output_token_count = self.calc_token_count(output_unicode)
 
-                    if trimed_input == output_unicode and input_token_count > 10:
+                    same_as_input = trimed_input == output_unicode
+                    if (
+                        same_as_input
+                        and input_token_count > 10
+                        and not self.translation_config.disable_same_text_fallback
+                    ):
                         llm_translate_tracker.set_error_message(
                             "Translation result is the same as input, fallback."
                         )
@@ -781,16 +786,19 @@ def translate_paragraph(
                         llm_translate_tracker.set_placeholder_full_match()
                         continue
 
-                    edit_distance = Levenshtein.distance(input_unicode, output_unicode)
-                    if edit_distance < 5 and input_token_count > 20:
-                        llm_translate_tracker.set_error_message(
-                            f"Translation result edit distance is too small. distance: {edit_distance}, input: {input_unicode}, output: {output_unicode}"
-                        )
-                        logger.warning(
-                            f"Translation result edit distance is too small. distance: {edit_distance}, input: {input_unicode}, output: {output_unicode}"
+                    if not self.translation_config.disable_same_text_fallback:
+                        edit_distance = Levenshtein.distance(
+                            input_unicode, output_unicode
                         )
-                        llm_translate_tracker.set_placeholder_full_match()
-                        continue
+                        if edit_distance < 5 and input_token_count > 20:
+                            llm_translate_tracker.set_error_message(
+                                f"Translation result edit distance is too small. distance: {edit_distance}, input: {input_unicode}, output: {output_unicode}"
+                            )
+                            logger.warning(
+                                f"Translation result edit distance is too small. distance: {edit_distance}, input: {input_unicode}, output: {output_unicode}"
+                            )
+                            llm_translate_tracker.set_placeholder_full_match()
+                            continue
                     # Apply the translation to the paragraph
                     self.il_translator.post_translate_paragraph(
                         inputs[id_][2],
diff --git a/babeldoc/format/pdf/translation_config.py b/babeldoc/format/pdf/translation_config.py
@@ -199,6 +199,7 @@ def __init__(
         term_extraction_translator: BaseTranslator | None = None,
         metadata_extra_data: str | None = None,
         term_pool_max_workers: int | None = None,
+        disable_same_text_fallback: bool = False,
     ):
         self.translator = translator
         self.term_extraction_translator = term_extraction_translator or translator
@@ -354,6 +355,7 @@ def __init__(
             "completion_tokens": 0,
             "cache_hit_prompt_tokens": 0,
         }
+        self.disable_same_text_fallback = disable_same_text_fallback
 
         if self.ocr_workaround:
             self.remove_non_formula_lines = False
diff --git a/babeldoc/main.py b/babeldoc/main.py
@@ -269,6 +269,12 @@ def create_parser():
         default=False,
         help="Add formula placeholder hint for translation. (Currently not recommended, it may affect translation quality, default: False)",
     )
+    translation_group.add_argument(
+        "--disable-same-text-fallback",
+        action="store_true",
+        default=False,
+        help="Disable fallback translation when LLM output matches input text. (default: False)",
+    )
     translation_group.add_argument(
         "--glossary-files",
         type=str,
@@ -703,6 +709,7 @@ async def main():
             custom_system_prompt=args.custom_system_prompt,
             working_dir=working_dir,
             add_formula_placehold_hint=args.add_formula_placehold_hint,
+            disable_same_text_fallback=args.disable_same_text_fallback,
             glossaries=loaded_glossaries,
             pool_max_workers=args.pool_max_workers,
             auto_extract_glossary=args.auto_extract_glossary,
diff --git a/uv.lock b/uv.lock