note about cli commands added to readme

DzmitryPihulski · DzmitryPihulski · commit 5e8ed792afa9 · 2025-12-08T15:30:44.000+01:00
diff --git a/README.md b/README.md
@@ -138,9 +138,128 @@ print(report)
 ```
 
 
+## Command Line Interface (CLI)
 
+LLMSQL also exposes all inference and evaluation capabilities through a convenient command-line interface.
+After installing the package:
 
+```bash
+pip install llmsql
+```
+
+you can run:
+
+```bash
+llmsql --help
+```
 
+to view the top-level commands:
+
+```
+LLMSQL: LLM-powered SQL generation toolkit
+
+Top-level commands:
+  inference    Run SQL generation using a chosen LLM backend
+  evaluate     Evaluate predictions against the LLMSQL benchmark
+```
+
+### CLI Inference
+
+You can run inference with **Transformers** or **vLLM** directly from the CLI.
+
+### Transformers backend
+
+```bash
+llmsql inference --method transformers \
+    --model-or-model-name-or-path Qwen/Qwen2.5-1.5B-Instruct \
+    --output-file outputs/preds_transformers.jsonl \
+    --batch-size 8 \
+    --num-fewshots 5
+```
+
+With custom model init arguments:
+
+```bash
+llmsql inference --method transformers \
+    --model-or-model-name-or-path meta-llama/Llama-3-8b-instruct \
+    --output-file outputs/llama_preds.jsonl \
+    --model-kwargs '{"attn_implementation": "flash_attention_2", "torch_dtype": "bfloat16"}'
+```
+
+Override generation parameters:
+
+```bash
+llmsql inference --method transformers \
+    --model-or-model-name-or-path Qwen/Qwen2.5-1.5B-Instruct \
+    --output-file outputs/temp_0.9.jsonl \
+    --temperature 0.9 \
+    --generation-kwargs '{"do_sample": true, "top_p": 0.9, "top_k": 40}'
+```
+
+
+### vLLM backend (recommended for speed)
+
+Install the vLLM optional dependencies:
+
+```bash
+pip install llmsql[vllm]
+```
+
+Then run:
+
+```bash
+llmsql inference --method vllm \
+    --model-name Qwen/Qwen2.5-1.5B-Instruct \
+    --output-file outputs/preds_vllm.jsonl \
+    --batch-size 20000 \
+    --num-fewshots 5 \
+    --do-sample false
+```
+
+With `llm-kwargs`:
+
+```bash
+llmsql inference --method vllm \
+    --model-name mistralai/Mixtral-8x7B-Instruct-v0.1 \
+    --output-file outputs/mixtral_preds.jsonl \
+    --llm-kwargs '{"max_model_len": 4096, "gpu_memory_utilization": 0.9}'
+```
+
+
+### CLI Evaluation
+
+You can evaluate model predictions (either from a file or inline JSON):
+
+```bash
+llmsql evaluate \
+    --outputs outputs/preds_vllm.jsonl
+```
+
+Evaluate inline JSON:
+
+```bash
+llmsql evaluate \
+    --outputs '[{"id": 1, "sql": "SELECT ..."}]'
+```
+
+Specify custom paths:
+
+```bash
+llmsql evaluate \
+    --outputs outputs/preds.jsonl \
+    --questions-path data/questions.jsonl \
+    --db-path data/database.sqlite \
+    --show-mismatches true \
+    --max-mismatches 10
+```
+
+Specify where to save the evaluation report:
+
+```bash
+llmsql evaluate \
+    --outputs outputs/preds.jsonl \
+    --save-report results/eval_report.json
+```
 
 
 ## Suggested Workflow
diff --git a/llmsql/_cli/inference.py b/llmsql/_cli/inference.py
@@ -1,168 +1,3 @@
-# import argparse
-# import json
-# import textwrap
-# from typing import Any
-
-# from llmsql import inference_transformers, inference_vllm
-# from llmsql.loggers.logging_config import log
-
-
-# def _json_arg(value: str) -> dict[str, Any]:
-#     """Parse a JSON string into dict."""
-#     if value is None:
-#         return None
-#     try:
-#         return json.loads(value)
-#     except json.JSONDecodeError:
-#         return json.JSONDecodeError(f"Invalid JSON: {value}")
-
-
-# class InferenceCommand:
-#     """CLI registration + dispatch for `llmsql inference`."""
-
-#     @staticmethod
-#     def register(subparsers):
-#         inference_examples = textwrap.dedent("""
-#     Examples:
-
-#       # 1️⃣ Run inference with Transformers backend
-#       llmsql inference --method transformers \\
-#           --model-or-model-name-or-path Qwen/Qwen2.5-1.5B-Instruct \\
-#           --output-file outputs/preds_transformers.jsonl \\
-#           --batch-size 8 \\
-#           --num-fewshots 5
-
-#       # 2️⃣ Run inference with vLLM backend
-#       llmsql inference --method vllm \\
-#           --model-name Qwen/Qwen2.5-1.5B-Instruct \\
-#           --output-file outputs/preds_vllm.jsonl \\
-#           --batch-size 8 \\
-#           --num-fewshots 5
-
-#       # 3️⃣ Pass model init kwargs (Transformers)
-#       llmsql inference --method transformers \\
-#           --model-or-model-name-or-path meta-llama/Llama-3-8b-instruct \\
-#           --output-file outputs/llama_preds.jsonl \\
-#           --model-kwargs '{"attn_implementation": "flash_attention_2", "torch_dtype": "bfloat16"}'
-
-#       # 4️⃣ Pass LLM init kwargs (vLLM)
-#       llmsql inference --method vllm \\
-#           --model-name mistralai/Mixtral-8x7B-Instruct-v0.1 \\
-#           --output-file outputs/mixtral_preds.jsonl \\
-#           --llm-kwargs '{"max_model_len": 4096, "gpu_memory_utilization": 0.9}'
-
-#       # 5️⃣ Override generation parameters dynamically (Transformers)
-#       llmsql inference --method transformers \\
-#           --model-or-model-name-or-path Qwen/Qwen2.5-1.5B-Instruct \\
-#           --output-file outputs/temp_0.9.jsonl \\
-#           --temperature 0.9 \\
-#           --generation-kwargs '{"do_sample": true, "top_p": 0.9, "top_k": 40}'
-
-# See the `llmsql.inference_transformers()` and `llmsql.inference_vllm()` for more information about the arguments.
-# """)
-
-#         parser = subparsers.add_parser(
-#             "inference",
-#             help="Run inference using Transformers or vLLM backend.",
-#             description="Run SQL generation using a chosen inference backend.",
-#             epilog=inference_examples,
-#             formatter_class=argparse.RawTextHelpFormatter,
-#         )
-
-#         parser.add_argument(
-#             "--method",
-#             required=True,
-#             choices=["vllm", "transformers"],
-#             help="Backend: 'vllm' or 'transformers'",
-#         )
-
-#         # This parser only parses --method. The backend-specific parsers come later.
-#         parser.set_defaults(func=InferenceCommand.dispatch)
-
-#     # ------------------------------------------------------------------
-#     @staticmethod
-#     def dispatch(args):
-#         """Dispatch to vLLM or Transformers backend."""
-#         if args.method == "vllm":
-#             InferenceCommand._run_vllm()
-#         else:
-#             InferenceCommand._run_transformers()
-
-#     # ------------------------------------------------------------------
-#     @staticmethod
-#     def _run_vllm():
-#         parser = argparse.ArgumentParser(
-#             prog="llmsql inference --method vllm",
-#             description="Inference using vLLM backend",
-#             help="Something for vllm",
-#         )
-
-#         parser.add_argument("--model-name", required=True)
-
-#         parser.add_argument("--trust-remote-code", action="store_true", default=True)
-#         parser.add_argument("--tensor-parallel-size", type=int, default=1)
-#         parser.add_argument("--hf-token", type=str, default=None)
-#         parser.add_argument("--llm-kwargs", type=_json_arg, default=None)
-#         parser.add_argument("--use-chat-template", action="store_true", default=True)
-
-#         parser.add_argument("--max-new-tokens", type=int, default=256)
-#         parser.add_argument("--temperature", type=float, default=1.0)
-#         parser.add_argument("--do-sample", action="store_true", default=True)
-#         parser.add_argument("--sampling-kwargs", type=_json_arg, default=None)
-
-#         parser.add_argument("--output-file", default="llm_sql_predictions.jsonl")
-#         parser.add_argument("--questions-path", type=str, default=None)
-#         parser.add_argument("--tables-path", type=str, default=None)
-#         parser.add_argument("--workdir-path", default=None)
-#         parser.add_argument("--num-fewshots", type=int, default=5)
-#         parser.add_argument("--batch-size", type=int, default=8)
-#         parser.add_argument("--seed", type=int, default=42)
-
-#         args = parser.parse_args()
-#         results = inference_vllm(**vars(args))
-#         log.info(f"Generated {len(results)} results.")
-
-#     # ------------------------------------------------------------------
-#     @staticmethod
-#     def _run_transformers():
-#         parser = argparse.ArgumentParser(
-#             prog="llmsql inference --method transformers",
-#             description="Inference using Transformers backend",
-#             help="Something for transformers",
-#         )
-
-#         parser.add_argument("--model-or-model-name-or-path", required=True)
-#         parser.add_argument("--tokenizer-or-name", default=None)
-
-#         parser.add_argument("--trust-remote-code", action="store_true", default=True)
-#         parser.add_argument("--dtype", default="float16")
-#         parser.add_argument("--device-map", default="auto")
-#         parser.add_argument("--hf-token", type=str, default=None)
-#         parser.add_argument("--model-kwargs", type=_json_arg, default=None)
-
-#         parser.add_argument("--tokenizer-kwargs", type=_json_arg, default=None)
-
-#         parser.add_argument("--chat-template", type=str, default=None)
-
-#         parser.add_argument("--max-new-tokens", type=int, default=256)
-#         parser.add_argument("--temperature", type=float, default=0.0)
-#         parser.add_argument("--do-sample", action="store_true", default=False)
-#         parser.add_argument("--top-p", type=float, default=1.0)
-#         parser.add_argument("--top-k", type=int, default=50)
-#         parser.add_argument("--generation-kwargs", type=_json_arg, default=None)
-
-#         parser.add_argument("--output-file", default="llm_sql_predictions.jsonl")
-#         parser.add_argument("--questions-path", type=str, default=None)
-#         parser.add_argument("--tables-path", type=str, default=None)
-#         parser.add_argument("--workdir-path", default=None)
-#         parser.add_argument("--num-fewshots", type=int, default=5)
-#         parser.add_argument("--batch-size", type=int, default=8)
-#         parser.add_argument("--seed", type=int, default=42)
-
-#         args = parser.parse_args()
-#         results = inference_transformers(**vars(args))
-#         print(f"Generated {len(results)} results.")
-
 import argparse
 import json
 import textwrap