measure tps via impersonation by stamping start/stop

getnamo · getnamo · commit ab11fb9adf82 · 2025-04-03T02:10:29.000-07:00
- not perfectly accurate, but should be close
diff --git a/Source/LlamaCore/Private/LlamaNative.cpp b/Source/LlamaCore/Private/LlamaNative.cpp
@@ -491,12 +491,17 @@ void FLlamaNative::ImpersonateTemplatedToken(const FString& Token, EChatTemplate
 
         ModelState.ChatHistory.History.Add(Message);
 
+        ThenTimeStamp = FPlatformTime::Seconds();
+        ImpersonationTokenCount = 1;
+
+
         CurrentReplyText += Token;
     }
     else
     {
         FStructuredChatMessage& Message = ModelState.ChatHistory.History.Last();
         Message.Content += Token;
+        ImpersonationTokenCount++;
 
         CurrentReplyText += Message.Content;
     }
@@ -537,6 +542,14 @@ void FLlamaNative::ImpersonateTemplatedToken(const FString& Token, EChatTemplate
     //full response reply on finish
     if (bEoS)
     {
+        double Duration = FPlatformTime::Seconds() - ThenTimeStamp;
+        double TotalTokens = ImpersonationTokenCount;
+        ImpersonationTokenCount = 0;
+
+        ModelState.LastPromptProcessingSpeed = 0;   //this can't be measured without more imput
+        ModelState.LastTokenGenerationSpeed = TotalTokens / Duration;
+        ModelState.LastRole = EChatTemplateRole::Assistant;
+
         if (OnModelStateChanged)
         {
             OnModelStateChanged(ModelState);
diff --git a/Source/LlamaCore/Public/LlamaNative.h b/Source/LlamaCore/Public/LlamaNative.h
@@ -86,6 +86,10 @@ class LLAMACORE_API FLlamaNative
 	FLLMModelState ModelState;
 	bool bModelLoadInitiated = false; //tracking model load attempts
 
+	//Temp states
+	double ThenTimeStamp = 0.f;
+	int32 ImpersonationTokenCount = 0;
+
 	//BG State - do not read/write on GT
 	FString CombinedPieceText;	//accumulates tokens into full string during per-token inference.
 

Original file line number	Diff line number	Diff line change
`@@ -491,12 +491,17 @@ void FLlamaNative::ImpersonateTemplatedToken(const FString& Token, EChatTemplate`
`491`	`491`
`492`	`492`	`ModelState.ChatHistory.History.Add(Message);`
`493`	`493`
	`494`	`+ ThenTimeStamp = FPlatformTime::Seconds();`
	`495`	`+ ImpersonationTokenCount = 1;`
	`496`	`+`
	`497`	`+`
`494`	`498`	`CurrentReplyText += Token;`
`495`	`499`	`}`
`496`	`500`	`else`
`497`	`501`	`{`
`498`	`502`	`FStructuredChatMessage& Message = ModelState.ChatHistory.History.Last();`
`499`	`503`	`Message.Content += Token;`
	`504`	`+ ImpersonationTokenCount++;`
`500`	`505`
`501`	`506`	`CurrentReplyText += Message.Content;`
`502`	`507`	`}`
`@@ -537,6 +542,14 @@ void FLlamaNative::ImpersonateTemplatedToken(const FString& Token, EChatTemplate`
`537`	`542`	`//full response reply on finish`
`538`	`543`	`if (bEoS)`
`539`	`544`	`{`
	`545`	`+ double Duration = FPlatformTime::Seconds() - ThenTimeStamp;`
	`546`	`+ double TotalTokens = ImpersonationTokenCount;`
	`547`	`+ ImpersonationTokenCount = 0;`
	`548`	`+`
	`549`	`+ ModelState.LastPromptProcessingSpeed = 0; //this can't be measured without more imput`
	`550`	`+ ModelState.LastTokenGenerationSpeed = TotalTokens / Duration;`
	`551`	`+ ModelState.LastRole = EChatTemplateRole::Assistant;`
	`552`	`+`
`540`	`553`	`if (OnModelStateChanged)`
`541`	`554`	`{`
`542`	`555`	`OnModelStateChanged(ModelState);`