I don't think I need these bits

riedgar-ms · riedgar-ms · commit 822f8e17a95b · 2024-05-08T14:00:57.000-04:00
diff --git a/guidance/models/_model.py b/guidance/models/_model.py
@@ -204,9 +204,6 @@ def __init__(self, tokenizer, compute_log_probs=False):
         )
         self._token_trie.match = True
         self._token_trie.match_version = 0
-        # Any time get_logits is called, it should update this
-        # This does add to the list of "Thread Unsafety"
-        self.metrics = GuidanceEngineMetrics()
 
     def start(self, parser, grammar, ensure_bos_token=True):
         """Start processing parser state executed through the grammar.
@@ -687,7 +684,6 @@ def next(self, logits):
                     self._sampled_token = self.tokenizer.tokens[self._sampled_token_ind]
                     self._new_bytes_prob = 1.0
                     self._was_forced = True
-                    self.metrics.forced_tokens += 1
 
                 # we are at the end of the grammar
                 elif next_byte_mask_sum == 0:
@@ -758,6 +754,8 @@ def __call__(self, parser, grammar, ensure_bos_token=True):
                     response_new_token_count,
                 ) = response_state
 
+                print(f"{response_is_generated=} {response_new_token_count=} {response_new_bytes=}")
+
                 yield EngineCallResponse(
                     new_bytes=response_new_bytes,
                     is_generated=response_is_generated,
@@ -1382,9 +1380,6 @@ def _run_stateless(self, stateless_function, temperature=0.0, top_p=1.0, n=1):
         # we will return a new extended version of ourselves, which we track as `lm`
         lm = self
 
-        # Prepare our metrics update. This is part of our Thread Unsafety programme
-        metrics_before = lm.engine.metrics.model_copy(deep=True)
-
         # single generation
         if n == 1:
             generated_value = ""
@@ -1398,6 +1393,11 @@ def _run_stateless(self, stateless_function, temperature=0.0, top_p=1.0, n=1):
                 # if not self.engine.compute_log_probs:
                 #     chunk.new_bytes_prob = 1.0
 
+                if chunk.is_generated:
+                    self.engine_metrics.generated_tokens += chunk.new_token_count
+                else:
+                    self.engine_metrics.forced_tokens += chunk.new_token_count
+
                 # convert the bytes to a string (delaying if we don't yet have a valid unicode string)
                 lm.token_count += chunk.new_token_count
                 chunk.new_bytes = delayed_bytes + chunk.new_bytes
@@ -1466,17 +1466,6 @@ def _run_stateless(self, stateless_function, temperature=0.0, top_p=1.0, n=1):
 
         unreplace_model_variables(replacements)
 
-        # Now update our metrics while maintaining Thread Unsafety
-        lm.engine_metrics.prompt_tokens += (
-            self.engine.metrics.prompt_tokens - metrics_before.prompt_tokens
-        )
-        lm.engine_metrics.generated_tokens += (
-            self.engine.metrics.generated_tokens - metrics_before.generated_tokens
-        )
-        lm.engine_metrics.forced_tokens += (
-            self.engine.metrics.forced_tokens - metrics_before.forced_tokens
-        )
-
         logger.debug("finish Model._run_stateless")
 
         return lm
diff --git a/guidance/models/transformers/_transformers.py b/guidance/models/transformers/_transformers.py
@@ -269,10 +269,6 @@ def get_logits(self, token_ids, forced_bytes, current_temp):
                 model_out.logits[0, -1, : len(self.tokenizer.tokens)].cpu().numpy()
             )
 
-        # Update metrics
-        self.metrics.prompt_tokens += len(new_token_ids)
-        self.metrics.generated_tokens += 1
-
         return self._cached_logits
 
 

Original file line number	Diff line number	Diff line change
`@@ -269,10 +269,6 @@ def get_logits(self, token_ids, forced_bytes, current_temp):`
`269`	`269`	`model_out.logits[0, -1, : len(self.tokenizer.tokens)].cpu().numpy()`
`270`	`270`	`)`
`271`	`271`
`272`		`- # Update metrics`
`273`		`- self.metrics.prompt_tokens += len(new_token_ids)`
`274`		`- self.metrics.generated_tokens += 1`
`275`		`-`
`276`	`272`	`return self._cached_logits`
`277`	`273`
`278`	`274`