Hook metrics into llamacpp

riedgar-ms · riedgar-ms · commit 4d851b07690f · 2024-05-09T16:04:44.000-04:00
diff --git a/guidance/models/llama_cpp/_llama_cpp.py b/guidance/models/llama_cpp/_llama_cpp.py
@@ -193,9 +193,12 @@ def get_logits(self, token_ids, forced_bytes, current_temp):
                 batch.logits[n_tokens - 1] = True
 
             ret = llama_cpp.llama_decode(self.model_obj.ctx, batch)
+            self.metrics.engine_input_tokens += n_tokens
             if ret != 0:
                 raise Exception(f"Call to llama_cpp.llama_decode returned {ret}.")
 
+        self.metrics.engine_output_tokens += 1
+
         # get the logits
         logits = llama_cpp.llama_get_logits(self.model_obj.ctx)
         if llama_cpp.__version__ < "0.2.58":