Remove token count printing

jackzhxng · jackzhxng · commit 116376973e2a · 2024-11-13T13:12:21.000-08:00
diff --git a/examples/models/llama/runner/generation.py b/examples/models/llama/runner/generation.py
@@ -110,9 +110,7 @@ def generate(  # noqa: C901
         print(f"{self.tokenizer.decode_token(current_token)}", end="", flush=True)
         tokens = prompt_tokens + [current_token]
 
-        i = 0
         while len(tokens) < max_seq_len:
-            print(f"{i} out of {self.max_seq_len} max tokens generated")
             if self.use_kv_cache:
                 logits = self.forward(
                     tokens=torch.tensor(
@@ -142,7 +140,6 @@ def generate(  # noqa: C901
             ):
                 break
 
-            i += 1
             print(f"{self.tokenizer.decode_token(current_token)}", end="", flush=True)
         print("\n")