Fix streamed request being called one final time after request complete, add predictor check to the beginning of each requestcontrol hook

BenjaminBraunDev · BenjaminBraunDev · commit 04db6e9f5fb9 · 2025-11-20T20:06:30.000Z
diff --git a/pkg/epp/requestcontrol/director.go b/pkg/epp/requestcontrol/director.go
@@ -307,8 +307,9 @@ func (d *Director) HandleResponseBodyStreaming(ctx context.Context, reqCtx *hand
 	logger := log.FromContext(ctx).WithValues("stage", "bodyChunk")
 	logger.V(logutil.TRACE).Info("Entering HandleResponseBodyChunk")
 	response := &Response{
-		RequestId: reqCtx.Request.Headers[requtil.RequestIdHeaderKey],
-		Headers:   reqCtx.Response.Headers,
+		RequestId:   reqCtx.Request.Headers[requtil.RequestIdHeaderKey],
+		Headers:     reqCtx.Response.Headers,
+		EndOfStream: reqCtx.ResponseComplete,
 	}
 
 	d.runResponseStreamingPlugins(ctx, reqCtx.SchedulingRequest, response, reqCtx.TargetPod)
diff --git a/pkg/epp/scheduling/framework/plugins/multi/slo_aware_router/requestcontrol_hooks.go b/pkg/epp/scheduling/framework/plugins/multi/slo_aware_router/requestcontrol_hooks.go
@@ -114,7 +114,11 @@ func (t *SLOAwareRouter) PreRequest(ctx context.Context, request *schedulingtype
 	}
 
 	targetPod := schedulingResult.ProfileResults[schedulingResult.PrimaryProfileName].TargetPods[0].GetPod()
+<<<<<<< HEAD
 	if !t.checkPredictor(logger, targetPod) {
+=======
+	if !t.CheckPredictor(logger, targetPod) {
+>>>>>>> b2a7d45 (Fix streamed request being called one final time after request complete, add predictor check to the beginning of each requestcontrol hook)
 		return
 	}
 
@@ -157,7 +161,11 @@ func (t *SLOAwareRouter) PreRequest(ctx context.Context, request *schedulingtype
 
 func (t *SLOAwareRouter) ResponseReceived(ctx context.Context, request *schedulingtypes.LLMRequest, response *requestcontrol.Response, targetPod *backend.Pod) {
 	logger := log.FromContext(ctx)
+<<<<<<< HEAD
 	if !t.checkPredictor(logger, targetPod) {
+=======
+	if !t.CheckPredictor(logger, targetPod) {
+>>>>>>> b2a7d45 (Fix streamed request being called one final time after request complete, add predictor check to the beginning of each requestcontrol hook)
 		return
 	}
 
@@ -169,15 +177,23 @@ func (t *SLOAwareRouter) ResponseReceived(ctx context.Context, request *scheduli
 		return
 	}
 
+<<<<<<< HEAD
 	if err := processHeaderForLatencyPrediction(ctx, t.latencypredictor, sloCtx); err != nil {
+=======
+	if err := ProcessHeaderForLatencyPrediction(ctx, t.latencypredictor, sloCtx); err != nil {
+>>>>>>> b2a7d45 (Fix streamed request being called one final time after request complete, add predictor check to the beginning of each requestcontrol hook)
 		logger.V(logutil.DEBUG).Error(err, "ProcessHeader in latencypredictor failed")
 	}
 
 }
 
 func (t *SLOAwareRouter) ResponseStreaming(ctx context.Context, request *schedulingtypes.LLMRequest, response *requestcontrol.Response, pod *backend.Pod) {
 	logger := log.FromContext(ctx)
+<<<<<<< HEAD
 	if !t.checkPredictor(logger, pod) || response.EndOfStream {
+=======
+	if !t.CheckPredictor(logger, pod) || response.EndOfStream {
+>>>>>>> b2a7d45 (Fix streamed request being called one final time after request complete, add predictor check to the beginning of each requestcontrol hook)
 		return
 	}
 

Original file line number	Diff line number	Diff line change
`@@ -114,7 +114,11 @@ func (t SLOAwareRouter) PreRequest(ctx context.Context, request schedulingtype`
`114`	`114`	`}`
`115`	`115`
`116`	`116`	`targetPod := schedulingResult.ProfileResults[schedulingResult.PrimaryProfileName].TargetPods[0].GetPod()`
	`117`	`+<<<<<<< HEAD`
`117`	`118`	`if !t.checkPredictor(logger, targetPod) {`
	`119`	`+=======`
	`120`	`+ if !t.CheckPredictor(logger, targetPod) {`
	`121`	`+>>>>>>> b2a7d45 (Fix streamed request being called one final time after request complete, add predictor check to the beginning of each requestcontrol hook)`
`118`	`122`	`return`
`119`	`123`	`}`
`120`	`124`
`@@ -157,7 +161,11 @@ func (t SLOAwareRouter) PreRequest(ctx context.Context, request schedulingtype`
`157`	`161`
`158`	`162`	`func (t SLOAwareRouter) ResponseReceived(ctx context.Context, request schedulingtypes.LLMRequest, response requestcontrol.Response, targetPod backend.Pod) {`
`159`	`163`	`logger := log.FromContext(ctx)`
	`164`	`+<<<<<<< HEAD`
`160`	`165`	`if !t.checkPredictor(logger, targetPod) {`
	`166`	`+=======`
	`167`	`+ if !t.CheckPredictor(logger, targetPod) {`
	`168`	`+>>>>>>> b2a7d45 (Fix streamed request being called one final time after request complete, add predictor check to the beginning of each requestcontrol hook)`
`161`	`169`	`return`
`162`	`170`	`}`
`163`	`171`
`@@ -169,15 +177,23 @@ func (t SLOAwareRouter) ResponseReceived(ctx context.Context, request scheduli`
`169`	`177`	`return`
`170`	`178`	`}`
`171`	`179`
	`180`	`+<<<<<<< HEAD`
`172`	`181`	`if err := processHeaderForLatencyPrediction(ctx, t.latencypredictor, sloCtx); err != nil {`
	`182`	`+=======`
	`183`	`+ if err := ProcessHeaderForLatencyPrediction(ctx, t.latencypredictor, sloCtx); err != nil {`
	`184`	`+>>>>>>> b2a7d45 (Fix streamed request being called one final time after request complete, add predictor check to the beginning of each requestcontrol hook)`
`173`	`185`	`logger.V(logutil.DEBUG).Error(err, "ProcessHeader in latencypredictor failed")`
`174`	`186`	`}`
`175`	`187`
`176`	`188`	`}`
`177`	`189`
`178`	`190`	`func (t SLOAwareRouter) ResponseStreaming(ctx context.Context, request schedulingtypes.LLMRequest, response requestcontrol.Response, pod backend.Pod) {`
`179`	`191`	`logger := log.FromContext(ctx)`
	`192`	`+<<<<<<< HEAD`
`180`	`193`	`if !t.checkPredictor(logger, pod) \|\| response.EndOfStream {`
	`194`	`+=======`
	`195`	`+ if !t.CheckPredictor(logger, pod) \|\| response.EndOfStream {`
	`196`	`+>>>>>>> b2a7d45 (Fix streamed request being called one final time after request complete, add predictor check to the beginning of each requestcontrol hook)`
`181`	`197`	`return`
`182`	`198`	`}`
`183`	`199`