fix sending latency metrics, use WriteToChannel function

mayabar · mayabar · commit 9e6f8c1e54e1 · 2025-10-28T12:56:10.000+02:00
Signed-off-by: Maya Barnea &lt;mayab@il.ibm.com&gt;
diff --git a/pkg/llm-d-inference-sim/simulator.go b/pkg/llm-d-inference-sim/simulator.go
@@ -492,7 +492,7 @@ func (s *VllmSimulator) addRequestToQueue(reqCtx *openaiserverapi.CompletionReqC
 func (s *VllmSimulator) handleCompletions(ctx *fasthttp.RequestCtx, isChatCompletion bool) {
 	startTime := time.Now()
 	defer func() {
-		s.metrics.e2eReqLatencyChan <- time.Since(startTime).Seconds()
+		common.WriteToChannel(s.metrics.e2eReqLatencyChan, time.Since(startTime).Seconds(), s.logger, "metrics.e2eReqLatencyChan")
 	}()
 
 	// Check if we should inject a failure
@@ -623,7 +623,7 @@ func (s *VllmSimulator) sendResponse(reqCtx *openaiserverapi.CompletionReqCtx, r
 		// report tpot in seconds
 		common.WriteToChannel(s.metrics.tpotChan, (float64(perTokenLatency) / 1000), s.logger, "metrics.tpotChan")
 	}
-	s.metrics.reqDecodeTimeChan <- time.Since(startDecode).Seconds()
+	common.WriteToChannel(s.metrics.reqDecodeTimeChan, time.Since(startDecode).Seconds(), s.logger, "metrics.reqDecodeTimeChan")
 
 	s.sendCompletionResponse(reqCtx.HTTPReqCtx, resp)
 	s.responseSentCallback(modelName, reqCtx.IsChatCompletion, reqCtx.CompletionReq.GetRequestID())
@@ -683,7 +683,7 @@ func (s *VllmSimulator) dequeue() *openaiserverapi.CompletionReqCtx {
 		if ok && item.reqCtx != nil && s.loraIsLoaded(item.reqCtx.CompletionReq.GetModel()) {
 			s.waitingQueue.Remove(elem)
 			s.incrementLora(item.reqCtx.CompletionReq.GetModel())
-			s.metrics.reqQueueTimeChan <- time.Since(item.enqueueTime).Seconds()
+			common.WriteToChannel(s.metrics.reqQueueTimeChan, time.Since(item.enqueueTime).Seconds(), s.logger, "metrics.reqQueueTimeChan")
 			return item.reqCtx
 		}
 	}
@@ -693,7 +693,7 @@ func (s *VllmSimulator) dequeue() *openaiserverapi.CompletionReqCtx {
 		item, ok := elem.Value.(waitingQueueItem)
 		if ok && item.reqCtx != nil && s.loadLora(item.reqCtx.CompletionReq.GetModel()) {
 			s.waitingQueue.Remove(elem)
-			s.metrics.reqQueueTimeChan <- time.Since(item.enqueueTime).Seconds()
+			common.WriteToChannel(s.metrics.reqQueueTimeChan, time.Since(item.enqueueTime).Seconds(), s.logger, "metrics.reqQueueTimeChan")
 			return item.reqCtx
 		}
 	}
diff --git a/pkg/llm-d-inference-sim/streaming.go b/pkg/llm-d-inference-sim/streaming.go
@@ -151,7 +151,7 @@ func (s *VllmSimulator) sendTokenChunks(context *streamingContext, w *bufio.Writ
 		}
 	}
 
-	s.metrics.reqDecodeTimeChan <- time.Since(startDecode).Seconds()
+	common.WriteToChannel(s.metrics.reqDecodeTimeChan, time.Since(startDecode).Seconds(), s.logger, "metrics.reqDecodeTimeChan")
 
 	// send the last chunk if finish reason is stop
 	var chunk openaiserverapi.CompletionRespChunk
diff --git a/pkg/llm-d-inference-sim/worker.go b/pkg/llm-d-inference-sim/worker.go
@@ -62,7 +62,7 @@ type requestProcessor interface {
 func (s *VllmSimulator) processRequest(reqCtx *openaiserverapi.CompletionReqCtx) {
 	start := time.Now()
 	defer func() {
-		s.metrics.reqInferenceTimeChan <- time.Since(start).Seconds()
+		common.WriteToChannel(s.metrics.reqInferenceTimeChan, time.Since(start).Seconds(), s.logger, "metrics.reqInferenceTimeChan")
 	}()
 
 	req := reqCtx.CompletionReq

Original file line number	Diff line number	Diff line change
`@@ -151,7 +151,7 @@ func (s VllmSimulator) sendTokenChunks(context streamingContext, w *bufio.Writ`
`151`	`151`	`}`
`152`	`152`	`}`
`153`	`153`
`154`		`- s.metrics.reqDecodeTimeChan <- time.Since(startDecode).Seconds()`
	`154`	`+ common.WriteToChannel(s.metrics.reqDecodeTimeChan, time.Since(startDecode).Seconds(), s.logger, "metrics.reqDecodeTimeChan")`
`155`	`155`
`156`	`156`	`// send the last chunk if finish reason is stop`
`157`	`157`	`var chunk openaiserverapi.CompletionRespChunk`