run-ai
diff --git a/‎Dockerfile‎
Lines changed: 10 additions & 3 deletions b/‎Dockerfile‎
Lines changed: 10 additions & 3 deletions
diff --git a/‎Makefile‎
Lines changed: 1 addition & 1 deletion b/‎Makefile‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎cmd/status-exporter-kwok/main.go‎
Lines changed: 11 additions & 0 deletions b/‎cmd/status-exporter-kwok/main.go‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎deploy/fake-gpu-operator/templates/status-exporter/kwok-deployment.yaml‎
Lines changed: 43 additions & 0 deletions b/‎deploy/fake-gpu-operator/templates/status-exporter/kwok-deployment.yaml‎
Lines changed: 43 additions & 0 deletions
diff --git a/‎deploy/fake-gpu-operator/values.yaml‎
Lines changed: 9 additions & 0 deletions b/‎deploy/fake-gpu-operator/values.yaml‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎internal/status-exporter/export/labels/exporter.go‎
Lines changed: 1 addition & 10 deletions b/‎internal/status-exporter/export/labels/exporter.go‎
Lines changed: 1 addition & 10 deletions
diff --git a/‎internal/status-exporter/export/labels/labels_builder.go‎
Lines changed: 19 additions & 0 deletions b/‎internal/status-exporter/export/labels/labels_builder.go‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎internal/status-exporter/export/labels/multi_node_exporter.go‎
Lines changed: 66 additions & 0 deletions b/‎internal/status-exporter/export/labels/multi_node_exporter.go‎
Lines changed: 66 additions & 0 deletions
diff --git a/‎internal/status-exporter/export/metrics/exporter.go‎
Lines changed: 1 addition & 12 deletions b/‎internal/status-exporter/export/metrics/exporter.go‎
Lines changed: 1 addition & 12 deletions
diff --git a/‎internal/status-exporter/export/metrics/metrics_labels_builder.go‎
Lines changed: 22 additions & 0 deletions b/‎internal/status-exporter/export/metrics/metrics_labels_builder.go‎
Lines changed: 22 additions & 0 deletions
@@ -25,8 +25,9 @@ RUN --mount=type=cache,target=/root/.cache/go-build make build OS=$TARGETOS ARCH
 
 FROM common-builder AS status-exporter-builder
 COPY ./cmd/status-exporter/ ./cmd/status-exporter/
+COPY ./cmd/status-exporter-kwok/ ./cmd/status-exporter-kwok/
 COPY ./internal/ ./internal/
-RUN --mount=type=cache,target=/root/.cache/go-build make build OS=$TARGETOS ARCH=$TARGETARCH COMPONENTS=status-exporter
+RUN --mount=type=cache,target=/root/.cache/go-build make build OS=$TARGETOS ARCH=$TARGETARCH COMPONENTS="status-exporter status-exporter-kwok"
 
 FROM common-builder AS topology-server-builder
 COPY ./cmd/topology-server/ ./cmd/topology-server/
@@ -71,8 +72,14 @@ COPY --from=status-updater-builder /go/src/github.com/run-ai/fake-gpu-operator/b
 ENTRYPOINT ["/bin/status-updater"]
 
 FROM ubuntu AS status-exporter
-COPY --from=status-exporter-builder /go/src/github.com/run-ai/fake-gpu-operator/bin/status-exporter /bin/
-ENTRYPOINT ["/bin/status-exporter"]
+COPY --from=status-exporter-builder /go/src/github.com/run-ai/fake-gpu-operator/bin/status-exporter /usr/local/bin/
+COPY --from=status-exporter-builder /go/src/github.com/run-ai/fake-gpu-operator/bin/status-exporter-kwok /usr/local/bin/
+ENTRYPOINT ["/usr/local/bin/status-exporter"]
+
+FROM ubuntu AS status-exporter-kwok
+COPY --from=status-exporter-builder /go/src/github.com/run-ai/fake-gpu-operator/bin/status-exporter /usr/local/bin/
+COPY --from=status-exporter-builder /go/src/github.com/run-ai/fake-gpu-operator/bin/status-exporter-kwok /usr/local/bin/
+ENTRYPOINT ["/usr/local/bin/status-exporter-kwok"]
 
 FROM ubuntu AS topology-server
 COPY --from=topology-server-builder /go/src/github.com/run-ai/fake-gpu-operator/bin/topology-server /bin/
 
@@ -1,5 +1,5 @@
 BUILD_DIR=$(shell pwd)/bin
-COMPONENTS?=device-plugin dra-plugin-gpu status-updater kwok-gpu-device-plugin kwok-dra-plugin status-exporter topology-server mig-faker
+COMPONENTS?=device-plugin dra-plugin-gpu status-updater kwok-gpu-device-plugin kwok-dra-plugin status-exporter status-exporter-kwok topology-server mig-faker
 
 DOCKER_REPO_BASE=ghcr.io/run-ai/fake-gpu-operator
 DOCKER_TAG?=0.0.0-dev
 
@@ -0,0 +1,11 @@
+package main
+
+import (
+	"github.com/run-ai/fake-gpu-operator/internal/common/app"
+	status_exporter "github.com/run-ai/fake-gpu-operator/internal/status-exporter"
+)
+
+func main() {
+	appRunner := app.NewAppRunner(&status_exporter.KWOKStatusExporterApp{})
+	appRunner.Run()
+}
@@ -0,0 +1,43 @@
+{{- if .Values.statusExporter.enabled }}
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nvidia-dcgm-exporter-kwok
+  labels:
+    app: nvidia-dcgm-exporter
+    component: status-exporter-kwok
+    app.kubernetes.io/name: nvidia-container-toolkit
+spec:
+  selector:
+    matchLabels:
+      app: nvidia-dcgm-exporter
+      component: status-exporter-kwok
+  replicas: 1
+  template:
+    metadata:
+      labels:
+        app: nvidia-dcgm-exporter
+        component: status-exporter-kwok
+        app.kubernetes.io/name: nvidia-container-toolkit
+    spec:
+      containers:
+        - name: nvidia-dcgm-exporter-kwok
+          image: "{{ .Values.statusExporter.image.repository }}:{{ .Values.statusExporter.image.tag | default .Chart.AppVersion }}"
+          imagePullPolicy: "{{ .Values.statusExporter.image.pullPolicy }}"
+          command: ["/usr/local/bin/status-exporter-kwok"]
+          resources:
+            {{- toYaml .Values.statusExporter.kwok.resources | nindent 12 }}
+          env:
+            - name: TOPOLOGY_CM_NAME
+              value: topology
+            - name: TOPOLOGY_CM_NAMESPACE
+              value: "{{ .Release.Namespace }}"
+          ports:
+            - containerPort: 9400
+              name: http
+      restartPolicy: Always
+      serviceAccountName: status-exporter
+      imagePullSecrets:
+        - name: gcr-secret
+{{- end }}
+
@@ -59,6 +59,15 @@ statusExporter:
       cpu: "200m"
       memory: "200Mi"
   topologyMaxExportInterval: 10s
+  # If using many KWOK nodes, you may need to increase the resources for the KWOK status-exporter
+  kwok:
+    resources:
+      requests:
+        cpu: "50m"
+        memory: "100Mi"
+      limits:
+        cpu: "500m"
+        memory: "256Mi"
 
 kwokGpuDevicePlugin:
   enabled: true
 
@@ -3,7 +3,6 @@ package labels
 import (
 	"fmt"
 	"log"
-	"strconv"
 
 	"github.com/run-ai/fake-gpu-operator/internal/common/kubeclient"
 	"github.com/run-ai/fake-gpu-operator/internal/common/topology"
@@ -43,15 +42,7 @@ func (e *LabelsExporter) Run(stopCh <-chan struct{}) {
 }
 
 func (e *LabelsExporter) export(nodeTopology *topology.NodeTopology) error {
-
-	labels := map[string]string{
-		"nvidia.com/gpu.memory":   strconv.Itoa(nodeTopology.GpuMemory),
-		"nvidia.com/gpu.product":  nodeTopology.GpuProduct,
-		"nvidia.com/mig.strategy": nodeTopology.MigStrategy,
-		"nvidia.com/gpu.count":    strconv.Itoa(len(nodeTopology.Gpus)),
-		"nvidia.com/gpu.present":  "true",
-		"run.ai/fake.gpu":         "true",
-	}
+	labels := BuildNodeLabels(nodeTopology)
 
 	err := e.kubeclient.SetNodeLabels(labels)
 	if err != nil {
 
@@ -0,0 +1,19 @@
+package labels
+
+import (
+	"strconv"
+
+	"github.com/run-ai/fake-gpu-operator/internal/common/topology"
+)
+
+// BuildNodeLabels creates the standard node labels from a topology
+func BuildNodeLabels(nodeTopology *topology.NodeTopology) map[string]string {
+	return map[string]string{
+		"nvidia.com/gpu.memory":   strconv.Itoa(nodeTopology.GpuMemory),
+		"nvidia.com/gpu.product":  nodeTopology.GpuProduct,
+		"nvidia.com/mig.strategy": nodeTopology.MigStrategy,
+		"nvidia.com/gpu.count":    strconv.Itoa(len(nodeTopology.Gpus)),
+		"nvidia.com/gpu.present":  "true",
+		"run.ai/fake.gpu":         "true",
+	}
+}
@@ -0,0 +1,66 @@
+package labels
+
+import (
+	"context"
+	"fmt"
+	"log"
+
+	"k8s.io/apimachinery/pkg/api/errors"
+	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
+	"k8s.io/client-go/kubernetes"
+	"k8s.io/client-go/util/retry"
+
+	"github.com/run-ai/fake-gpu-operator/internal/common/topology"
+	"github.com/run-ai/fake-gpu-operator/internal/status-exporter/watch"
+)
+
+// MultiNodeLabelsExporter exports labels for multiple KWOK nodes
+type MultiNodeLabelsExporter struct {
+	kubeClient kubernetes.Interface
+}
+
+var _ watch.LabelsExporter = &MultiNodeLabelsExporter{}
+
+// NewMultiNodeLabelsExporter creates a new multi-node labels exporter
+func NewMultiNodeLabelsExporter(kubeClient kubernetes.Interface) *MultiNodeLabelsExporter {
+	return &MultiNodeLabelsExporter{
+		kubeClient: kubeClient,
+	}
+}
+
+// SetLabelsForNode exports labels for a specific node
+func (e *MultiNodeLabelsExporter) SetLabelsForNode(nodeName string, nodeTopology *topology.NodeTopology) error {
+	labels := BuildNodeLabels(nodeTopology)
+
+	if err := e.setNodeLabels(nodeName, labels); err != nil {
+		return fmt.Errorf("failed to set node labels for %s: %w", nodeName, err)
+	}
+
+	log.Printf("Exported labels for KWOK node: %s\n", nodeName)
+	return nil
+}
+
+// setNodeLabels sets labels on a specific node with retry logic to handle conflicts
+func (e *MultiNodeLabelsExporter) setNodeLabels(nodeName string, labels map[string]string) error {
+	log.Printf("Setting labels on KWOK node %s: %v\n", nodeName, labels)
+
+	// Retry on conflict errors (when node is being modified by KWOK stages)
+	return retry.RetryOnConflict(retry.DefaultRetry, func() error {
+		node, err := e.kubeClient.CoreV1().Nodes().Get(context.TODO(), nodeName, metav1.GetOptions{})
+		if err != nil {
+			if errors.IsNotFound(err) {
+				log.Printf("Node %s not found (may have been deleted)\n", nodeName)
+				return nil // Node deleted, don't retry
+			}
+			return err
+		}
+
+		// Update labels
+		for k, v := range labels {
+			node.Labels[k] = v
+		}
+
+		_, err = e.kubeClient.CoreV1().Nodes().Update(context.TODO(), node, metav1.UpdateOptions{})
+		return err
+	})
+}
@@ -5,10 +5,8 @@ import (
 	"fmt"
 	"log"
 	"net/http"
-	"strconv"
 	"time"
 
-	"github.com/prometheus/client_golang/prometheus"
 	"github.com/prometheus/client_golang/prometheus/promhttp"
 	"github.com/run-ai/fake-gpu-operator/internal/common/constants"
 	"github.com/run-ai/fake-gpu-operator/internal/common/topology"
@@ -70,16 +68,7 @@ func (e *MetricsExporter) export(nodeTopology *topology.NodeTopology) error {
 
 	for gpuIdx, gpu := range nodeTopology.Gpus {
 		log.Printf("Exporting metrics for node %v, gpu %v\n", nodeName, gpu.ID)
-		labels := prometheus.Labels{
-			"gpu":       strconv.Itoa(gpuIdx),
-			"UUID":      gpu.ID,
-			"device":    "nvidia" + strconv.Itoa(gpuIdx),
-			"modelName": nodeTopology.GpuProduct,
-			"Hostname":  generateFakeHostname(nodeName),
-			"namespace": gpu.Status.AllocatedBy.Namespace,
-			"pod":       gpu.Status.AllocatedBy.Pod,
-			"container": gpu.Status.AllocatedBy.Container,
-		}
+		labels := buildGpuMetricLabels(nodeName, gpuIdx, &gpu, nodeTopology)
 
 		utilization := gpu.Status.PodGpuUsageStatus.Utilization()
 		fbUsed := gpu.Status.PodGpuUsageStatus.FbUsed(nodeTopology.GpuMemory)
 
@@ -0,0 +1,22 @@
+package metrics
+
+import (
+	"strconv"
+
+	"github.com/prometheus/client_golang/prometheus"
+	"github.com/run-ai/fake-gpu-operator/internal/common/topology"
+)
+
+// buildGpuMetricLabels creates Prometheus labels for a GPU metric
+func buildGpuMetricLabels(nodeName string, gpuIdx int, gpu *topology.GpuDetails, nodeTopology *topology.NodeTopology) prometheus.Labels {
+	return prometheus.Labels{
+		"gpu":       strconv.Itoa(gpuIdx),
+		"UUID":      gpu.ID,
+		"device":    "nvidia" + strconv.Itoa(gpuIdx),
+		"modelName": nodeTopology.GpuProduct,
+		"Hostname":  generateFakeHostname(nodeName),
+		"namespace": gpu.Status.AllocatedBy.Namespace,
+		"pod":       gpu.Status.AllocatedBy.Pod,
+		"container": gpu.Status.AllocatedBy.Container,
+	}
+}