simplify the example

thewh1teagle · thewh1teagle · commit 97a3e2c0ee87 · 2025-10-05T00:56:33.000+03:00
diff --git a/examples/gemma3.py b/examples/gemma3.py
@@ -1,9 +1,7 @@
-"""Simple example script for Gemma3 270M text generation using ONNX.
-
-Installation:
-    uv pip install onnxruntime
+"""Simple example: Export Gemma3 270M to ONNX and generate text.
 
 Usage:
+    uv pip install onnxruntime
     uv run examples/gemma3.py
 """
 
@@ -14,40 +12,14 @@
 
 model_id = "google/gemma-3-270m-it"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = ORTModelForCausalLM.from_pretrained(model_id, export=True)
 
-# Export to ONNX
-model = ORTModelForCausalLM.from_pretrained(
-    model_id,
-    export=True,
-    use_cache=True,
-)
-
-# Inference
-conversation = [
-    {"role": "user", "content": "Hello! How are you?"}
-]
-
-# Apply chat template
-prompt = tokenizer.apply_chat_template(
-    conversation,
-    tokenize=False,
-    add_generation_prompt=True
-)
-
+# Chat with instruction-tuned model
+conversation = [{"role": "user", "content": "Hello! How are you?"}]
+prompt = tokenizer.apply_chat_template(conversation, tokenize=False, add_generation_prompt=True)
 inputs = tokenizer(prompt, return_tensors="pt")
 
-outputs = model.generate(
-    **inputs,
-    max_new_tokens=100,
-    do_sample=True,
-    temperature=0.7,
-    top_p=0.9,
-    pad_token_id=tokenizer.eos_token_id,
-)
-
-# Decode
+outputs = model.generate(**inputs, max_new_tokens=50, pad_token_id=tokenizer.eos_token_id)
 response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-if prompt in response:
-    response = response[len(prompt):].strip()
 
-print(f"Response: {response}\n")
+print(response)