BenjaminBraunDev
diff --git a/‎cmd/epp/runner/runner.go‎
Lines changed: 1 addition & 3 deletions b/‎cmd/epp/runner/runner.go‎
Lines changed: 1 addition & 3 deletions
diff --git a/‎pkg/epp/backend/metrics/fake.go‎
Lines changed: 3 additions & 96 deletions b/‎pkg/epp/backend/metrics/fake.go‎
Lines changed: 3 additions & 96 deletions
diff --git a/‎pkg/epp/backend/metrics/metrics.go‎
Lines changed: 4 additions & 8 deletions b/‎pkg/epp/backend/metrics/metrics.go‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎pkg/epp/backend/metrics/metrics_test.go‎
Lines changed: 4 additions & 3 deletions b/‎pkg/epp/backend/metrics/metrics_test.go‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎pkg/epp/backend/metrics/pod_metrics.go‎
Lines changed: 4 additions & 104 deletions b/‎pkg/epp/backend/metrics/pod_metrics.go‎
Lines changed: 4 additions & 104 deletions
diff --git a/‎pkg/epp/backend/metrics/pod_metrics_test.go‎
Lines changed: 8 additions & 9 deletions b/‎pkg/epp/backend/metrics/pod_metrics_test.go‎
Lines changed: 8 additions & 9 deletions
@@ -208,7 +208,7 @@ func (r *Runner) Run(ctx context.Context) error {
 	if err != nil {
 		return err
 	}
-	datastore := datastore.NewDatastore(ctx, epf)
+	datastore := datastore.NewDatastore(ctx, epf, int32(*modelServerMetricsPort))
 
 	// --- Setup Metrics Server ---
 	customCollectors := []prometheus.Collector{collectors.NewInferencePoolMetricsCollector(datastore)}
@@ -514,7 +514,6 @@ func setupMetricsV1(setupLog logr.Logger) (datalayer.EndpointFactory, error) {
 
 	pmf := backendmetrics.NewPodMetricsFactory(&backendmetrics.PodMetricsClientImpl{
 		MetricMapping:            mapping,
-		ModelServerMetricsPort:   int32(*modelServerMetricsPort),
 		ModelServerMetricsPath:   *modelServerMetricsPath,
 		ModelServerMetricsScheme: *modelServerMetricsScheme,
 		Client:                   metricsHttpClient,
@@ -529,7 +528,6 @@ func setupDatalayer() (datalayer.EndpointFactory, error) {
 	// this (and registering the sources with the endpoint factory) should
 	// be moved accordingly.
 	source := dlmetrics.NewDataSource(*modelServerMetricsScheme,
-		int32(*modelServerMetricsPort), // start with (optional) command line port value
 		*modelServerMetricsPath,
 		*modelServerMetricsHttpsInsecureSkipVerify,
 		nil)
 
@@ -22,7 +22,6 @@ import (
 	"sync"
 	"time"
 
-	corev1 "k8s.io/api/core/v1"
 	"k8s.io/apimachinery/pkg/types"
 	"sigs.k8s.io/controller-runtime/pkg/log"
 
@@ -52,100 +51,8 @@ func (fpm *FakePodMetrics) GetMetrics() *MetricsState {
 	return fpm.Metrics
 }
 
-func (fpm *FakePodMetrics) UpdatePod(pod *corev1.Pod) {
-	fpm.Pod = toInternalPod(pod, nil)
-}
-
-func (f *FakePodMetrics) StopRefreshLoop() {
-	f.mu.Lock()
-	defer f.mu.Unlock()
-	f.stopped = true
-}
-
-func (f *FakePodMetrics) GetRunningRequests() *datalayer.RequestPriorityQueue {
-	f.mu.RLock()
-	defer f.mu.RUnlock()
-	if f.stopped {
-		return nil // Return nil for stopped pod metrics
-	}
-	return f.runningRequests
-}
-
-func (f *FakePodMetrics) AddRequest(requestID string, tpot float64) bool {
-	f.mu.RLock()
-	defer f.mu.RUnlock()
-	if f.stopped {
-		return false // Reject operations after stopped
-	}
-	return f.runningRequests.Add(requestID, tpot)
-}
-
-func (f *FakePodMetrics) RemoveRequest(requestID string) bool {
-	f.mu.RLock()
-	defer f.mu.RUnlock()
-	if f.stopped {
-		return false // Reject operations after stopped
-	}
-	_, success := f.runningRequests.Remove(requestID)
-	return success
-}
-
-func (f *FakePodMetrics) UpdateRequest(requestID string, tpot float64) bool {
-	f.mu.RLock()
-	defer f.mu.RUnlock()
-	if f.stopped {
-		return false // Reject operations after stopped
-	}
-	return f.runningRequests.Update(requestID, tpot)
-}
-
-func (f *FakePodMetrics) GetRequestCount() int {
-	f.mu.RLock()
-	defer f.mu.RUnlock()
-	if f.stopped {
-		return 0 // Return 0 after stopped
-	}
-	return f.runningRequests.GetSize()
-}
-
-func (f *FakePodMetrics) ContainsRequest(requestID string) bool {
-	pod := f.GetPod()
-	if pod == nil || pod.RunningRequests == nil {
-		return false
-	}
-	return pod.RunningRequests.Contains(requestID)
-}
-
-func (srv *FakePodMetrics) PeekRequestPriorityQueue() *datalayer.Request {
-	pod := srv.GetPod()
-	if pod == nil || pod.RunningRequests == nil {
-		return nil
-	}
-	return pod.RunningRequests.Peek()
-}
-
-func NewFakePodMetrics(k8sPod *corev1.Pod) *FakePodMetrics {
-	labels := make(map[string]string)
-	for k, v := range k8sPod.Labels {
-		labels[k] = v
-	}
-
-	pod := &backend.Pod{
-		NamespacedName: types.NamespacedName{
-			Name:      k8sPod.Name,
-			Namespace: k8sPod.Namespace,
-		},
-		Address:         k8sPod.Status.PodIP,
-		Labels:          labels,
-		RunningRequests: datalayer.NewRequestPriorityQueue(),
-	}
-
-	return &FakePodMetrics{
-		Pod:             pod,
-		Metrics:         &MetricsState{UpdateTime: time.Now()},
-		runningRequests: datalayer.NewRequestPriorityQueue(),
-		stopped:         false,
-	}
+func (fpm *FakePodMetrics) UpdatePod(pod *datalayer.PodInfo) {
+	fpm.Pod = pod
 }
 
 func (*FakePodMetrics) Put(string, datalayer.Cloneable)        {}
@@ -164,7 +71,7 @@ type FakePodMetricsClient struct {
 	Res   map[types.NamespacedName]*MetricsState
 }
 
-func (f *FakePodMetricsClient) FetchMetrics(ctx context.Context, pod *backend.Pod, existing *MetricsState, _ int32) (*MetricsState, error) {
+func (f *FakePodMetricsClient) FetchMetrics(ctx context.Context, pod *backend.Pod, existing *MetricsState) (*MetricsState, error) {
 	f.errMu.RLock()
 	err, ok := f.Err[pod.NamespacedName]
 	f.errMu.RUnlock()
 
@@ -42,16 +42,15 @@ const (
 
 type PodMetricsClientImpl struct {
 	MetricMapping            *MetricMapping
-	ModelServerMetricsPort   int32
 	ModelServerMetricsPath   string
 	ModelServerMetricsScheme string
 
 	Client *http.Client
 }
 
 // FetchMetrics fetches metrics from a given pod, clones the existing metrics object and returns an updated one.
-func (p *PodMetricsClientImpl) FetchMetrics(ctx context.Context, pod *backend.Pod, existing *MetricsState, port int32) (*MetricsState, error) {
-	url := p.getMetricEndpoint(pod, port)
+func (p *PodMetricsClientImpl) FetchMetrics(ctx context.Context, pod *backend.Pod, existing *MetricsState) (*MetricsState, error) {
+	url := p.getMetricEndpoint(pod)
 	req, err := http.NewRequestWithContext(ctx, http.MethodGet, url, nil)
 	if err != nil {
 		return nil, fmt.Errorf("failed to create request: %v", err)
@@ -76,11 +75,8 @@ func (p *PodMetricsClientImpl) FetchMetrics(ctx context.Context, pod *backend.Po
 	return p.promToPodMetrics(metricFamilies, existing)
 }
 
-func (p *PodMetricsClientImpl) getMetricEndpoint(pod *backend.Pod, targetPortNumber int32) string {
-	if p.ModelServerMetricsPort == 0 {
-		p.ModelServerMetricsPort = targetPortNumber
-	}
-	return fmt.Sprintf("%s://%s:%d%s", p.ModelServerMetricsScheme, pod.Address, p.ModelServerMetricsPort, p.ModelServerMetricsPath)
+func (p *PodMetricsClientImpl) getMetricEndpoint(pod *backend.Pod) string {
+	return p.ModelServerMetricsScheme + "://" + pod.GetMetricsHost() + p.ModelServerMetricsPath
 }
 
 // promToPodMetrics updates internal pod metrics with scraped Prometheus metrics.
 
@@ -489,7 +489,9 @@ func TestPromToPodMetrics(t *testing.T) {
 func TestFetchMetrics(t *testing.T) {
 	ctx := logutil.NewTestLoggerIntoContext(context.Background())
 	pod := &backend.Pod{
-		Address: "127.0.0.1",
+		Address:     "127.0.0.1",
+		Port:        "9999",
+		MetricsHost: "127.0.0.1:9999",
 		NamespacedName: types.NamespacedName{
 			Namespace: "test",
 			Name:      "pod",
@@ -499,12 +501,11 @@ func TestFetchMetrics(t *testing.T) {
 	// No MetricMapping needed for this basic test
 	p := &PodMetricsClientImpl{
 		ModelServerMetricsScheme: "http",
-		ModelServerMetricsPort:   9999,
 		ModelServerMetricsPath:   "/metrics",
 		Client:                   http.DefaultClient,
 	}
 
-	_, err := p.FetchMetrics(ctx, pod, existing, 9999) // Use a port that's unlikely to be in use
+	_, err := p.FetchMetrics(ctx, pod, existing) // Use a port that's unlikely to be in use
 	if err == nil {
 		t.Errorf("FetchMetrics() expected error, got nil")
 	}
 
@@ -24,8 +24,6 @@ import (
 	"time"
 
 	"github.com/go-logr/logr"
-	corev1 "k8s.io/api/core/v1"
-	"k8s.io/apimachinery/pkg/types"
 
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/backend"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/datalayer"
@@ -51,7 +49,7 @@ type podMetrics struct {
 }
 
 type PodMetricsClient interface {
-	FetchMetrics(ctx context.Context, pod *backend.Pod, existing *MetricsState, port int32) (*MetricsState, error)
+	FetchMetrics(ctx context.Context, pod *backend.Pod, existing *MetricsState) (*MetricsState, error)
 }
 
 func (pm *podMetrics) String() string {
@@ -66,98 +64,8 @@ func (pm *podMetrics) GetMetrics() *MetricsState {
 	return pm.metrics.Load()
 }
 
-// New methods for priority queue integration
-func (pm *podMetrics) GetRunningRequests() *datalayer.RequestPriorityQueue {
-	pod := pm.GetPod()
-	if pod == nil {
-		return nil
-	}
-	return pod.RunningRequests
-}
-
-func (pm *podMetrics) AddRequest(requestID string, tpot float64) bool {
-	pod := pm.GetPod()
-	if pod == nil || pod.RunningRequests == nil {
-		return false
-	}
-	success := pod.RunningRequests.Add(requestID, tpot)
-	// No need to update metrics since we removed ActualRunningRequests
-	return success
-}
-
-func (pm *podMetrics) RemoveRequest(requestID string) bool {
-	pod := pm.GetPod()
-	if pod == nil || pod.RunningRequests == nil {
-		return false
-	}
-	_, success := pod.RunningRequests.Remove(requestID)
-	// No need to update metrics since we removed ActualRunningRequests
-	return success
-}
-
-func (pm *podMetrics) UpdateRequest(requestID string, tpot float64) bool {
-	pod := pm.GetPod()
-	if pod == nil || pod.RunningRequests == nil {
-		return false
-	}
-	return pod.RunningRequests.Update(requestID, tpot)
-}
-
-func (pm *podMetrics) GetRequestCount() int {
-	pod := pm.GetPod()
-	if pod == nil || pod.RunningRequests == nil {
-		return 0
-	}
-	return pod.RunningRequests.GetSize()
-}
-
-func (pm *podMetrics) ContainsRequest(requestID string) bool {
-	pod := pm.GetPod()
-	if pod == nil || pod.RunningRequests == nil {
-		return false
-	}
-	return pod.RunningRequests.Contains(requestID)
-}
-
-func (pm *podMetrics) PeekRequestPriorityQueue() *datalayer.Request {
-	pod := pm.GetPod()
-	if pod == nil || pod.RunningRequests == nil {
-		return nil
-	}
-	return pod.RunningRequests.Peek()
-}
-
-func (pm *podMetrics) UpdatePod(k8sPod *corev1.Pod) {
-	currentPod := pm.GetPod()
-	updatedPod := toInternalPod(k8sPod, currentPod.GetRunningRequests())
-
-	// Preserve the existing running requests queue if it exists
-	if currentPod != nil && currentPod.GetRunningRequests() != nil {
-		updatedPod.RunningRequests = currentPod.GetRunningRequests()
-	}
-
-	pm.pod.Store(updatedPod)
-}
-func toInternalPod(pod *corev1.Pod, existingQueue *datalayer.RequestPriorityQueue) *backend.Pod {
-	labels := make(map[string]string, len(pod.GetLabels()))
-	for key, value := range pod.GetLabels() {
-		labels[key] = value
-	}
-
-	queue := existingQueue
-	if queue == nil {
-		queue = datalayer.NewRequestPriorityQueue()
-	}
-
-	return &backend.Pod{
-		NamespacedName: types.NamespacedName{
-			Name:      pod.Name,
-			Namespace: pod.Namespace,
-		},
-		Address:         pod.Status.PodIP,
-		Labels:          labels,
-		RunningRequests: queue,
-	}
+func (pm *podMetrics) UpdatePod(pod *datalayer.PodInfo) {
+	pm.pod.Store(pod)
 }
 
 // start starts a goroutine exactly once to periodically update metrics. The goroutine will be
@@ -185,17 +93,9 @@ func (pm *podMetrics) startRefreshLoop(ctx context.Context) {
 }
 
 func (pm *podMetrics) refreshMetrics() error {
-	pool, err := pm.ds.PoolGet()
-	if err != nil {
-		// No inference pool or not initialize.
-		return err
-	}
 	ctx, cancel := context.WithTimeout(context.Background(), fetchMetricsTimeout)
 	defer cancel()
-	if len(pool.Spec.TargetPorts) != 1 {
-		return fmt.Errorf("expected 1 target port, got %d", len(pool.Spec.TargetPorts))
-	}
-	updated, err := pm.pmc.FetchMetrics(ctx, pm.GetPod(), pm.GetMetrics(), int32(pool.Spec.TargetPorts[0].Number))
+	updated, err := pm.pmc.FetchMetrics(ctx, pm.GetPod(), pm.GetMetrics())
 	if err != nil {
 		pm.logger.V(logutil.TRACE).Info("Failed to refreshed metrics:", "err", err)
 	}
 
@@ -25,23 +25,23 @@ import (
 	"github.com/google/go-cmp/cmp"
 	"github.com/google/go-cmp/cmp/cmpopts"
 	"github.com/stretchr/testify/assert"
-	corev1 "k8s.io/api/core/v1"
-	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
 	"k8s.io/apimachinery/pkg/types"
 
 	v1 "sigs.k8s.io/gateway-api-inference-extension/api/v1"
+	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/datalayer"
 )
 
 var (
-	pod1 = &corev1.Pod{
-		ObjectMeta: metav1.ObjectMeta{
-			Name:      "pod1",
+	pod1Info = &datalayer.PodInfo{
+		NamespacedName: types.NamespacedName{
+			Name:      "pod1-rank-0",
 			Namespace: "default",
 			Labels:    map[string]string{"app": "test"},
 		},
 		Status: corev1.PodStatus{
 			PodIP: "192.168.1.1",
 		},
+		PodName: "pod1",
 	}
 	initial = &MetricsState{
 		WaitingQueueSize:    0,
@@ -71,12 +71,11 @@ func TestMetricsRefresh(t *testing.T) {
 	pmf := NewPodMetricsFactory(pmc, time.Millisecond)
 
 	// The refresher is initialized with empty metrics.
-	pm := pmf.NewEndpoint(ctx, pod1, &fakeDataStore{})
+	pm := pmf.NewEndpoint(ctx, pod1Info, &fakeDataStore{})
 
-	namespacedName := types.NamespacedName{Name: pod1.Name, Namespace: pod1.Namespace}
 	// Use SetRes to simulate an update of metrics from the pod.
 	// Verify that the metrics are updated.
-	pmc.SetRes(map[types.NamespacedName]*MetricsState{namespacedName: initial})
+	pmc.SetRes(map[types.NamespacedName]*MetricsState{pod1Info.NamespacedName: initial})
 	condition := func(collect *assert.CollectT) {
 		assert.True(collect, cmp.Equal(pm.GetMetrics(), initial, cmpopts.IgnoreFields(MetricsState{}, "UpdateTime")))
 	}
@@ -86,7 +85,7 @@ func TestMetricsRefresh(t *testing.T) {
 	// new update.
 	pmf.ReleaseEndpoint(pm)
 	time.Sleep(pmf.refreshMetricsInterval * 2 /* small buffer for robustness */)
-	pmc.SetRes(map[types.NamespacedName]*MetricsState{namespacedName: updated})
+	pmc.SetRes(map[types.NamespacedName]*MetricsState{pod1Info.NamespacedName: updated})
 	// Still expect the same condition (no metrics update).
 	assert.EventuallyWithT(t, condition, time.Second, time.Millisecond)
 }