hydropix
diff --git a/‎.env.example‎
Lines changed: 2 additions & 2 deletions b/‎.env.example‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎benchmark/cli.py‎
Lines changed: 115 additions & 12 deletions b/‎benchmark/cli.py‎
Lines changed: 115 additions & 12 deletions
diff --git a/‎benchmark/config.py‎
Lines changed: 23 additions & 4 deletions b/‎benchmark/config.py‎
Lines changed: 23 additions & 4 deletions
diff --git a/‎benchmark/runner.py‎
Lines changed: 25 additions & 11 deletions b/‎benchmark/runner.py‎
Lines changed: 25 additions & 11 deletions
@@ -26,7 +26,7 @@ OPENROUTER_MODEL=anthropic/claude-sonnet-4
 # Translation Settings
 DEFAULT_SOURCE_LANGUAGE=English  # Default source language (can be any language name)
 DEFAULT_TARGET_LANGUAGE=Chinese  # Default target language (can be any language name)
-MAIN_LINES_PER_CHUNK=25  # Target lines per chunk (may be auto-adjusted)
+MAIN_LINES_PER_CHUNK=50  # Target lines per chunk (may be auto-adjusted)
 MAIN_CHUNK_SIZE=1000      # Maximum characters per chunk
 REQUEST_TIMEOUT=900       # API timeout in seconds
 
@@ -59,7 +59,7 @@ SIGNATURE_ENABLED=true
 # Images are inserted between paragraphs at their original positions.
 # Set to 'false' to strip all images (reduces output file size).
 # Can also be disabled via CLI with --no-images flag.
-FAST_MODE_PRESERVE_IMAGES=true
+FAST_MODE_PRESERVE_IMAGES=false
 
 # Debug Mode
 # Enable verbose logging for troubleshooting configuration and connection issues.
 
@@ -16,7 +16,7 @@
 from benchmark.runner import BenchmarkRunner, quick_benchmark, full_benchmark
 from benchmark.results.storage import ResultsStorage
 from benchmark.wiki.generator import WikiGenerator
-from benchmark.translator import get_available_ollama_models
+from benchmark.translator import get_available_ollama_models, get_available_openrouter_models
 
 
 # ANSI color codes for terminal output
@@ -68,11 +68,15 @@ def cmd_run(args: argparse.Namespace) -> int:
     """Execute benchmark run command."""
     print_banner()
 
+    # Determine provider
+    provider = getattr(args, 'provider', 'ollama') or 'ollama'
+
     # Build configuration
     config = BenchmarkConfig.from_cli_args(
         openrouter_key=args.openrouter_key,
         evaluator_model=args.evaluator,
         ollama_endpoint=args.ollama_endpoint,
+        translation_provider=provider,
     )
 
     # Validate configuration
@@ -82,15 +86,28 @@ def cmd_run(args: argparse.Namespace) -> int:
             log_callback("error", error)
         return 1
 
-    # Get models
+    # Get models based on provider
     models = args.models
     if not models:
-        print(colored("Detecting available Ollama models...", Colors.CYAN))
-        models = asyncio.run(get_available_ollama_models(config))
-        if not models:
-            log_callback("error", "No Ollama models found. Run 'ollama pull <model>' first.")
-            return 1
-        print(colored(f"Found {len(models)} models: {', '.join(models[:5])}...", Colors.GREEN))
+        if provider == "openrouter":
+            print(colored("Fetching available OpenRouter models...", Colors.CYAN))
+            models_data = asyncio.run(get_available_openrouter_models(config))
+            if not models_data:
+                log_callback("error", "No OpenRouter models available.")
+                return 1
+            # Extract model IDs
+            models = [m["id"] if isinstance(m, dict) else m for m in models_data[:10]]
+            print(colored(f"Found {len(models_data)} models. Using top 10: {', '.join(models[:3])}...", Colors.GREEN))
+        else:
+            print(colored("Detecting available Ollama models...", Colors.CYAN))
+            models = asyncio.run(get_available_ollama_models(config))
+            if not models:
+                log_callback("error", "No Ollama models found. Run 'ollama pull <model>' first.")
+                return 1
+            print(colored(f"Found {len(models)} models: {', '.join(models[:5])}...", Colors.GREEN))
+
+    # Show provider info
+    print(colored(f"Translation provider: {provider.upper()}", Colors.YELLOW))
 
     # Determine languages
     if args.full:
@@ -264,6 +281,63 @@ def cmd_export(args: argparse.Namespace) -> int:
         return 1
 
 
+def cmd_models(args: argparse.Namespace) -> int:
+    """List available models for benchmarking."""
+    print_banner()
+
+    config = BenchmarkConfig.from_cli_args(openrouter_key=args.openrouter_key)
+    provider = args.provider
+
+    if provider == "openrouter":
+        print(colored("Fetching OpenRouter models...\n", Colors.CYAN))
+        models = asyncio.run(get_available_openrouter_models(config))
+
+        if not models:
+            log_callback("error", "Failed to fetch OpenRouter models")
+            return 1
+
+        print(colored(f"Available OpenRouter Models ({len(models)} text-only models):\n", Colors.BOLD))
+
+        # Table header
+        print(f"{'Model ID':<50} {'Price (per 1M tokens)':<25}")
+        print("-" * 75)
+
+        for model in models[:50]:  # Limit to 50 for readability
+            if isinstance(model, dict):
+                model_id = model.get("id", "unknown")
+                pricing = model.get("pricing", {})
+                prompt_price = pricing.get("prompt_per_million", 0)
+                completion_price = pricing.get("completion_per_million", 0)
+                price_str = f"${prompt_price:.2f} / ${completion_price:.2f}"
+            else:
+                model_id = model
+                price_str = "N/A"
+
+            print(f"{model_id:<50} {price_str:<25}")
+
+        print()
+        print(colored("Tip: Use -m to specify models, e.g.:", Colors.YELLOW))
+        print("  python -m benchmark.cli run -p openrouter -m anthropic/claude-sonnet-4 openai/gpt-4o")
+
+    else:
+        print(colored("Detecting Ollama models...\n", Colors.CYAN))
+        models = asyncio.run(get_available_ollama_models(config))
+
+        if not models:
+            log_callback("error", "No Ollama models found. Is Ollama running? Try 'ollama pull <model>'")
+            return 1
+
+        print(colored(f"Available Ollama Models ({len(models)}):\n", Colors.BOLD))
+        for model in models:
+            print(f"  - {model}")
+
+        print()
+        print(colored("Tip: Use -m to specify models, e.g.:", Colors.YELLOW))
+        print("  python -m benchmark.cli run -m llama3:8b qwen2.5:14b")
+
+    return 0
+
+
 def cmd_delete(args: argparse.Namespace) -> int:
     """Delete a benchmark run."""
     config = BenchmarkConfig()
@@ -489,15 +563,21 @@ def create_parser() -> argparse.ArgumentParser:
         formatter_class=argparse.RawDescriptionHelpFormatter,
         epilog="""
 Examples:
-  # Quick benchmark (7 test languages)
+  # Quick benchmark with Ollama (local models)
   python -m benchmark.cli run --openrouter-key YOUR_KEY
 
+  # Quick benchmark with OpenRouter (cloud models)
+  python -m benchmark.cli run --provider openrouter --openrouter-key YOUR_KEY
+
   # Full benchmark (all 40+ languages)
   python -m benchmark.cli run --full --openrouter-key YOUR_KEY
 
-  # Specific models and languages
+  # Specific Ollama models and languages
   python -m benchmark.cli run -m llama3:8b qwen2.5:14b -l fr de ja zh
 
+  # Specific OpenRouter models
+  python -m benchmark.cli run -p openrouter -m anthropic/claude-sonnet-4 openai/gpt-4o -l fr de ja
+
   # Generate wiki pages
   python -m benchmark.cli wiki
 
@@ -513,7 +593,9 @@ def create_parser() -> argparse.ArgumentParser:
     run_parser.add_argument(
         "-m", "--models",
         nargs="+",
-        help="Ollama models to benchmark. If not specified, uses all available models."
+        help="Models to benchmark. For Ollama: model names (e.g., llama3:8b). "
+             "For OpenRouter: model IDs (e.g., anthropic/claude-sonnet-4). "
+             "If not specified, auto-detects available models."
     )
     run_parser.add_argument(
         "-l", "--languages",
@@ -525,9 +607,16 @@ def create_parser() -> argparse.ArgumentParser:
         action="store_true",
         help="Run full benchmark with all 40+ languages"
     )
+    run_parser.add_argument(
+        "-p", "--provider",
+        choices=["ollama", "openrouter"],
+        default="ollama",
+        help="Translation provider: 'ollama' (local, default) or 'openrouter' (cloud, 200+ models)"
+    )
     run_parser.add_argument(
         "--openrouter-key",
-        help="OpenRouter API key for evaluation. Can also be set via OPENROUTER_API_KEY env var."
+        help="OpenRouter API key (for evaluation, and translation if using --provider openrouter). "
+             "Can also be set via OPENROUTER_API_KEY env var."
     )
     run_parser.add_argument(
         "--evaluator",
@@ -591,6 +680,20 @@ def create_parser() -> argparse.ArgumentParser:
     list_parser = subparsers.add_parser("list", help="List available benchmark runs")
     list_parser.set_defaults(func=cmd_list)
 
+    # Models command
+    models_parser = subparsers.add_parser("models", help="List available models for benchmarking")
+    models_parser.add_argument(
+        "-p", "--provider",
+        choices=["ollama", "openrouter"],
+        default="ollama",
+        help="Provider to list models for (default: ollama)"
+    )
+    models_parser.add_argument(
+        "--openrouter-key",
+        help="OpenRouter API key (required for listing OpenRouter models)"
+    )
+    models_parser.set_defaults(func=cmd_models)
+
     # Show command
     show_parser = subparsers.add_parser("show", help="Show details of a benchmark run")
     show_parser.add_argument("run_id", help="Run ID to show")
 
@@ -143,6 +143,9 @@ class BenchmarkConfig:
     source_language: str = "English"
     quick_languages: list = field(default_factory=lambda: DEFAULT_QUICK_LANGUAGES.copy())
 
+    # Translation provider ("ollama" or "openrouter")
+    translation_provider: str = "ollama"
+
     # Retry settings
     max_retries: int = 3
     retry_delay: float = 2.0
@@ -158,6 +161,7 @@ def from_cli_args(
         openrouter_key: Optional[str] = None,
         evaluator_model: Optional[str] = None,
         ollama_endpoint: Optional[str] = None,
+        translation_provider: Optional[str] = None,
         **kwargs
     ) -> "BenchmarkConfig":
         """Create configuration from CLI arguments with env fallbacks."""
@@ -172,24 +176,39 @@ def from_cli_args(
         if ollama_endpoint:
             config.ollama.endpoint = ollama_endpoint
 
+        if translation_provider:
+            config.translation_provider = translation_provider.lower()
+
         return config
 
     def validate(self) -> list[str]:
         """Validate configuration and return list of errors."""
         errors = []
 
+        # OpenRouter API key is required for evaluation (always)
+        # and for translation if using OpenRouter provider
         if not self.openrouter.api_key:
-            errors.append(
-                "OpenRouter API key not configured. "
-                "Set OPENROUTER_API_KEY in .env or use --openrouter-key"
-            )
+            if self.translation_provider == "openrouter":
+                errors.append(
+                    "OpenRouter API key not configured. Required for both translation and evaluation. "
+                    "Set OPENROUTER_API_KEY in .env or use --openrouter-key"
+                )
+            else:
+                errors.append(
+                    "OpenRouter API key not configured. Required for evaluation. "
+                    "Set OPENROUTER_API_KEY in .env or use --openrouter-key"
+                )
 
         if not self.paths.languages_file.exists():
             errors.append(f"Languages file not found: {self.paths.languages_file}")
 
         if not self.paths.reference_texts_file.exists():
             errors.append(f"Reference texts file not found: {self.paths.reference_texts_file}")
 
+        # Validate translation provider
+        if self.translation_provider not in ("ollama", "openrouter"):
+            errors.append(f"Invalid translation provider: {self.translation_provider}. Must be 'ollama' or 'openrouter'")
+
         return errors
 
 
 
@@ -24,7 +24,8 @@
 )
 from benchmark.translator import (
     BenchmarkTranslator, TranslationRequest,
-    test_ollama_connection, get_available_ollama_models
+    test_ollama_connection, get_available_ollama_models,
+    test_openrouter_translation_connection, get_available_openrouter_models
 )
 from benchmark.evaluator import (
     TranslationEvaluator, test_openrouter_connection
@@ -197,19 +198,28 @@ async def validate_setup(self) -> tuple[bool, list[str]]:
         config_errors = self.config.validate()
         errors.extend(config_errors)
 
-        # Test Ollama connection
-        ollama_ok, ollama_msg = await test_ollama_connection(self.config)
-        if not ollama_ok:
-            errors.append(f"Ollama: {ollama_msg}")
+        # Test translation provider connection
+        if self.config.translation_provider == "openrouter":
+            # Test OpenRouter for translation
+            or_trans_ok, or_trans_msg = await test_openrouter_translation_connection(self.config)
+            if not or_trans_ok:
+                errors.append(f"OpenRouter (translation): {or_trans_msg}")
+            else:
+                self._log("info", f"OpenRouter (translation): {or_trans_msg}")
         else:
-            self._log("info", f"Ollama: {ollama_msg}")
-
-        # Test OpenRouter connection
+            # Test Ollama connection
+            ollama_ok, ollama_msg = await test_ollama_connection(self.config)
+            if not ollama_ok:
+                errors.append(f"Ollama: {ollama_msg}")
+            else:
+                self._log("info", f"Ollama: {ollama_msg}")
+
+        # Test OpenRouter connection (for evaluation - always required)
         openrouter_ok, openrouter_msg = await test_openrouter_connection(self.config)
         if not openrouter_ok:
-            errors.append(f"OpenRouter: {openrouter_msg}")
+            errors.append(f"OpenRouter (evaluation): {openrouter_msg}")
         else:
-            self._log("info", f"OpenRouter: {openrouter_msg}")
+            self._log("info", f"OpenRouter (evaluation): {openrouter_msg}")
 
         return len(errors) == 0, errors
 
@@ -310,7 +320,11 @@ async def run(
         self._log("info", f"Total translations: {run.total_expected}")
 
         # Initialize translator and evaluator
-        self._translator = BenchmarkTranslator(self.config, self.log_callback)
+        self._translator = BenchmarkTranslator(
+            self.config,
+            self.log_callback,
+            provider_type=self.config.translation_provider
+        )
         self._evaluator = TranslationEvaluator(self.config, self.log_callback)
 
         try: