Update on "fix eager run for cuda"

helunwencser · helunwencser · commit 13a3ade04954 · 2024-10-21T13:54:48.000-07:00
[ghstack-poisoned]
diff --git a/examples/models/llama/runner/generation.py b/examples/models/llama/runner/generation.py
@@ -101,7 +101,8 @@ def generate(  # noqa: C901
                 )
             current_token = next_token(logits, temperature, top_p)
             if current_token == self.tokenizer.eos_id or (
-                hasattr(self, "stop_tokens") and current_token in self.stop_tokens
+                hasattr(self.tokenizer, "stop_tokens")
+                and current_token in self.tokenizer.stop_tokens
             ):
                 break
             tokens.append(current_token)