Support llm token counting using llama index response (#63)

gaya3-zipstack · Deepak-Kesavan · web-flow · commit 388651047900 · 2024-06-24T22:57:56.000+05:30
Co-authored-by: Deepak K &lt;89829542+Deepak-Kesavan@users.noreply.github.com&gt;
diff --git a/src/unstract/sdk/audit.py b/src/unstract/sdk/audit.py
@@ -1,11 +1,12 @@
-from typing import Any
+from typing import Any, Union
 
 import requests
 from llama_index.core.callbacks import CBEventType, TokenCountingHandler
 
 from unstract.sdk.constants import LogLevel, ToolEnv
 from unstract.sdk.helper import SdkHelper
 from unstract.sdk.tool.stream import StreamMixin
+from unstract.sdk.utils.token_counter import TokenCounter
 
 
 class Audit(StreamMixin):
@@ -25,7 +26,7 @@ def __init__(self, log_level: LogLevel = LogLevel.INFO) -> None:
     def push_usage_data(
         self,
         platform_api_key: str,
-        token_counter: TokenCountingHandler = None,
+        token_counter: Union[TokenCountingHandler, TokenCounter] = None,
         model_name: str = "",
         event_type: CBEventType = None,
         kwargs: dict[Any, Any] = None,
@@ -105,4 +106,5 @@ def push_usage_data(
             )
 
         finally:
-            token_counter.reset_counts()
+            if isinstance(token_counter, TokenCountingHandler):
+                token_counter.reset_counts()
diff --git a/src/unstract/sdk/utils/callback_manager.py b/src/unstract/sdk/utils/callback_manager.py
@@ -6,7 +6,6 @@
 from llama_index.core.callbacks import TokenCountingHandler
 from llama_index.core.embeddings import BaseEmbedding
 from llama_index.core.llms import LLM
-from transformers import AutoTokenizer
 from typing_extensions import deprecated
 
 from unstract.sdk.utils.usage_handler import UsageHandler
@@ -77,24 +76,35 @@ def get_callback_manager(
         platform_api_key: str,
         kwargs,
     ) -> LlamaIndexCallbackManager:
-        tokenizer = CallbackManager.get_tokenizer(model)
-        token_counter = TokenCountingHandler(tokenizer=tokenizer, verbose=True)
         llm = None
         embedding = None
+        handler_list = []
         if isinstance(model, LLM):
             llm = model
+            usage_handler = UsageHandler(
+                platform_api_key=platform_api_key,
+                llm_model=llm,
+                embed_model=embedding,
+                kwargs=kwargs,
+            )
+            handler_list.append(usage_handler)
         elif isinstance(model, BaseEmbedding):
             embedding = model
-        usage_handler = UsageHandler(
-            token_counter=token_counter,
-            platform_api_key=platform_api_key,
-            llm_model=llm,
-            embed_model=embedding,
-            kwargs=kwargs,
-        )
+            # Get a tokenizer
+            tokenizer = CallbackManager.get_tokenizer(model)
+            token_counter = TokenCountingHandler(tokenizer=tokenizer, verbose=True)
+            usage_handler = UsageHandler(
+                token_counter=token_counter,
+                platform_api_key=platform_api_key,
+                llm_model=llm,
+                embed_model=embedding,
+                kwargs=kwargs,
+            )
+            handler_list.append(token_counter)
+            handler_list.append(usage_handler)
 
         callback_manager: LlamaIndexCallbackManager = LlamaIndexCallbackManager(
-            handlers=[token_counter, usage_handler]
+            handlers=handler_list
         )
         return callback_manager
 
@@ -124,11 +134,11 @@ def get_tokenizer(
             elif isinstance(model, BaseEmbedding):
                 model_name = model.model_name
 
-            tokenizer: Callable[[str], list] = AutoTokenizer.from_pretrained(
+            tokenizer: Callable[[str], list] = tiktoken.encoding_for_model(
                 model_name
             ).encode
             return tokenizer
-        except OSError as e:
+        except ValueError as e:
             logger.warning(str(e))
             return fallback_tokenizer
 
@@ -145,8 +155,6 @@ def set_callback_manager(
             CallbackManager.set_callback(platform_api_key, model=llm, **kwargs)
             callback_manager = llm.callback_manager
         if embedding:
-            CallbackManager.set_callback_manager(
-                platform_api_key, model=embedding, **kwargs
-            )
+            CallbackManager.set_callback(platform_api_key, model=embedding, **kwargs)
             callback_manager = embedding.callback_manager
         return callback_manager
diff --git a/src/unstract/sdk/utils/token_counter.py b/src/unstract/sdk/utils/token_counter.py
@@ -0,0 +1,108 @@
+from typing import Any
+
+from llama_index.core.callbacks.schema import EventPayload
+from llama_index.core.utilities.token_counting import TokenCounter
+
+
+class Constants:
+    KEY_USAGE = "usage"
+    KEY_USAGE_METADATA = "usage_metadata"
+    KEY_EVAL_COUNT = "eval_count"
+    KEY_PROMPT_EVAL_COUNT = "prompt_eval_count"
+    KEY_RAW_RESPONSE = "_raw_response"
+    INPUT_TOKENS = "input_tokens"
+    OUTPUT_TOKENS = "output_tokens"
+    PROMPT_TOKENS = "prompt_tokens"
+    COMPLETION_TOKENS = "completion_tokens"
+    DEFAULT_TOKEN_COUNT = 0
+
+
+class TokenCounter:
+    prompt_llm_token_count: int
+    completion_llm_token_count: int
+    total_llm_token_count: int = 0
+    total_embedding_token_count: int = 0
+
+    def __init__(self, input_tokens, output_tokens):
+        self.prompt_llm_token_count = input_tokens
+        self.completion_llm_token_count = output_tokens
+        self.total_llm_token_count = (
+            self.prompt_llm_token_count + self.completion_llm_token_count
+        )
+
+    @staticmethod
+    def get_llm_token_counts(payload: dict[str, Any]) -> TokenCounter:
+        token_counter = TokenCounter(
+            input_tokens=Constants.DEFAULT_TOKEN_COUNT,
+            output_tokens=Constants.DEFAULT_TOKEN_COUNT,
+        )
+        if EventPayload.PROMPT in payload:
+            completion_raw = payload.get(EventPayload.COMPLETION).raw
+            if completion_raw:
+                if completion_raw.get(Constants.KEY_USAGE):
+                    token_counts: dict[
+                        str, int
+                    ] = TokenCounter._get_prompt_completion_tokens(completion_raw)
+                    token_counter = TokenCounter(
+                        input_tokens=token_counts[Constants.PROMPT_TOKENS],
+                        output_tokens=token_counts[Constants.COMPLETION_TOKENS],
+                    )
+                elif completion_raw.get(Constants.KEY_RAW_RESPONSE):
+                    if hasattr(
+                        completion_raw.get(Constants.KEY_RAW_RESPONSE),
+                        Constants.KEY_USAGE_METADATA,
+                    ):
+                        usage = completion_raw.get(
+                            Constants.KEY_RAW_RESPONSE
+                        ).usage_metadata
+                        token_counter = TokenCounter(
+                            input_tokens=usage.prompt_token_count,
+                            output_tokens=usage.candidates_token_count,
+                        )
+                else:
+                    prompt_tokens = Constants.DEFAULT_TOKEN_COUNT
+                    completion_tokens = Constants.DEFAULT_TOKEN_COUNT
+                    if completion_raw.get(Constants.KEY_PROMPT_EVAL_COUNT):
+                        prompt_tokens = completion_raw.get(
+                            Constants.KEY_PROMPT_EVAL_COUNT
+                        )
+                    if completion_raw.get(Constants.KEY_EVAL_COUNT):
+                        completion_tokens = completion_raw.get(Constants.KEY_EVAL_COUNT)
+                    token_counter = TokenCounter(
+                        input_tokens=prompt_tokens,
+                        output_tokens=completion_tokens,
+                    )
+        elif EventPayload.MESSAGES in payload:
+            response_raw = payload.get(EventPayload.RESPONSE).raw
+            if response_raw:
+                token_counts: dict[
+                    str, int
+                ] = TokenCounter._get_prompt_completion_tokens(response_raw)
+                token_counter = TokenCounter(
+                    input_tokens=token_counts[Constants.PROMPT_TOKENS],
+                    output_tokens=token_counts[Constants.COMPLETION_TOKENS],
+                )
+
+        return token_counter
+
+    @staticmethod
+    def _get_prompt_completion_tokens(response) -> dict[str, int]:
+        prompt_tokens = Constants.DEFAULT_TOKEN_COUNT
+        completion_tokens = Constants.DEFAULT_TOKEN_COUNT
+
+        usage = response.get(Constants.KEY_USAGE)
+        if usage:
+            if hasattr(usage, Constants.INPUT_TOKENS):
+                prompt_tokens = usage.input_tokens
+            elif hasattr(usage, Constants.PROMPT_TOKENS):
+                prompt_tokens = usage.prompt_tokens
+
+            if hasattr(usage, Constants.OUTPUT_TOKENS):
+                completion_tokens = usage.output_tokens
+            elif hasattr(usage, Constants.COMPLETION_TOKENS):
+                completion_tokens = usage.completion_tokens
+
+        token_counts: dict[str, int] = dict()
+        token_counts[Constants.PROMPT_TOKENS] = prompt_tokens
+        token_counts[Constants.COMPLETION_TOKENS] = completion_tokens
+        return token_counts
diff --git a/src/unstract/sdk/utils/usage_handler.py b/src/unstract/sdk/utils/usage_handler.py
@@ -8,6 +8,7 @@
 from unstract.sdk.audit import Audit
 from unstract.sdk.constants import LogLevel
 from unstract.sdk.tool.stream import StreamMixin
+from unstract.sdk.utils.token_counter import TokenCounter
 
 
 class UsageHandler(StreamMixin, BaseCallbackHandler):
@@ -32,8 +33,8 @@ class UsageHandler(StreamMixin, BaseCallbackHandler):
 
     def __init__(
         self,
-        token_counter: TokenCountingHandler,
         platform_api_key: str,
+        token_counter: Optional[TokenCountingHandler] = None,
         llm_model: LLM = None,
         embed_model: BaseEmbedding = None,
         event_starts_to_ignore: Optional[list[CBEventType]] = None,
@@ -90,9 +91,10 @@ def on_event_end(
             model_name = self.llm_model.metadata.model_name
             # Need to push the data to via platform service
             self.stream_log(log=f"Pushing llm usage for model {model_name}")
+            llm_token_counter: TokenCounter = TokenCounter.get_llm_token_counts(payload)
             Audit(log_level=self.log_level).push_usage_data(
                 platform_api_key=self.platform_api_key,
-                token_counter=self.token_counter,
+                token_counter=llm_token_counter,
                 event_type=event_type,
                 model_name=self.llm_model.metadata.model_name,
                 kwargs=self.kwargs,
@@ -113,3 +115,4 @@ def on_event_end(
                 model_name=self.embed_model.model_name,
                 kwargs=self.kwargs,
             )
+            self.token_counter.reset_counts()