fix: prevent worker start in pending phase and correct port order (#20)

0x5457 · web-flow · commit a808fed1063d · 2024-12-18T20:51:00.000+08:00
diff --git a/internal/controller/tensorfusionconnection_controller.go b/internal/controller/tensorfusionconnection_controller.go
@@ -116,18 +116,20 @@ func (r *TensorFusionConnectionReconciler) Reconcile(ctx context.Context, req ct
 		}
 	}
 
-	// Start worker job
-	workerPod, err := r.tryStartWorker(ctx, connection, types.NamespacedName{Name: connection.Name, Namespace: connection.Namespace})
-	if err != nil {
-		log.Error(err, "Failed to start worker pod")
-		return ctrl.Result{}, err
-	}
+	if connection.Status.Phase != tfv1.TensorFusionConnectionPending {
+		// Start worker job
+		workerPod, err := r.tryStartWorker(ctx, connection, types.NamespacedName{Name: connection.Name, Namespace: connection.Namespace})
+		if err != nil {
+			log.Error(err, "Failed to start worker pod")
+			return ctrl.Result{}, err
+		}
 
-	if workerPod.Status.Phase == corev1.PodRunning {
-		connection.Status.Phase = tfv1.TensorFusionConnectionRunning
-		connection.Status.ConnectionURL = r.WorkerGenerator.GenerateConnectionURL(gpu, connection, workerPod)
+		if workerPod.Status.Phase == corev1.PodRunning {
+			connection.Status.Phase = tfv1.TensorFusionConnectionRunning
+			connection.Status.ConnectionURL = r.WorkerGenerator.GenerateConnectionURL(gpu, connection, workerPod)
+		}
+		// TODO: Handle PodFailure
 	}
-	// TODO: Handle PodFailure
 
 	if err := r.mustUpdateStatus(ctx, connection, gpu); err != nil {
 		return ctrl.Result{}, err
diff --git a/internal/worker/worker.go b/internal/worker/worker.go
@@ -15,7 +15,7 @@ type WorkerGenerator struct {
 }
 
 func (wg *WorkerGenerator) GenerateConnectionURL(_gpu *tfv1.GPU, connection *tfv1.TensorFusionConnection, pod *corev1.Pod) string {
-	return fmt.Sprintf("native+%s+%d+%d", pod.Status.PodIP, wg.WorkerConfig.SendPort, wg.WorkerConfig.ReceivePort)
+	return fmt.Sprintf("native+%s+%d+%d", pod.Status.PodIP, wg.WorkerConfig.ReceivePort, wg.WorkerConfig.SendPort)
 }
 
 func (wg *WorkerGenerator) GenerateWorkerPod(

Original file line number	Diff line number	Diff line change
`@@ -15,7 +15,7 @@ type WorkerGenerator struct {`
`15`	`15`	`}`
`16`	`16`
`17`	`17`	`func (wg WorkerGenerator) GenerateConnectionURL(_gpu tfv1.GPU, connection tfv1.TensorFusionConnection, pod corev1.Pod) string {`
`18`		`- return fmt.Sprintf("native+%s+%d+%d", pod.Status.PodIP, wg.WorkerConfig.SendPort, wg.WorkerConfig.ReceivePort)`
	`18`	`+ return fmt.Sprintf("native+%s+%d+%d", pod.Status.PodIP, wg.WorkerConfig.ReceivePort, wg.WorkerConfig.SendPort)`
`19`	`19`	`}`
`20`	`20`
`21`	`21`	`func (wg *WorkerGenerator) GenerateWorkerPod(`