NexusGPU
diff --git a/‎api/v1/workloadprofile_types.go‎
Lines changed: 9 additions & 0 deletions b/‎api/v1/workloadprofile_types.go‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎api/v1/zz_generated.deepcopy.go‎
Lines changed: 5 additions & 0 deletions b/‎api/v1/zz_generated.deepcopy.go‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎charts/tensor-fusion/crds/tensor-fusion.ai_tensorfusionworkloads.yaml‎
Lines changed: 8419 additions & 0 deletions b/‎charts/tensor-fusion/crds/tensor-fusion.ai_tensorfusionworkloads.yaml‎
Lines changed: 8419 additions & 0 deletions
diff --git a/‎charts/tensor-fusion/crds/tensor-fusion.ai_workloadprofiles.yaml‎
Lines changed: 8419 additions & 0 deletions b/‎charts/tensor-fusion/crds/tensor-fusion.ai_workloadprofiles.yaml‎
Lines changed: 8419 additions & 0 deletions
diff --git a/‎config/crd/bases/tensor-fusion.ai_tensorfusionworkloads.yaml‎
Lines changed: 8419 additions & 0 deletions b/‎config/crd/bases/tensor-fusion.ai_tensorfusionworkloads.yaml‎
Lines changed: 8419 additions & 0 deletions
diff --git a/‎config/crd/bases/tensor-fusion.ai_workloadprofiles.yaml‎
Lines changed: 8419 additions & 0 deletions b/‎config/crd/bases/tensor-fusion.ai_workloadprofiles.yaml‎
Lines changed: 8419 additions & 0 deletions
diff --git a/‎go.mod‎
Lines changed: 3 additions & 3 deletions b/‎go.mod‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎go.sum‎
Lines changed: 6 additions & 6 deletions b/‎go.sum‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎internal/constants/constants.go‎
Lines changed: 16 additions & 12 deletions b/‎internal/constants/constants.go‎
Lines changed: 16 additions & 12 deletions
diff --git a/‎internal/constants/env.go‎
Lines changed: 7 additions & 3 deletions b/‎internal/constants/env.go‎
Lines changed: 7 additions & 3 deletions
@@ -52,6 +52,11 @@ type WorkloadProfileSpec struct {
 	// Schedule the workload to the same GPU server that runs vGPU worker for best performance, default to false
 	IsLocalGPU bool `json:"isLocalGPU,omitempty"`
 
+	// +optional
+	// When set to sidecar worker mode, its always Local GPU mode, and hard-isolated with shared memory
+	// default to false, indicates the workload's embedded worker is same process, soft-isolated
+	SidecarWorker bool `json:"sidecarWorker,omitempty"`
+
 	// +optional
 	// GPUModel specifies the required GPU model (e.g., "A100", "H100")
 	GPUModel string `json:"gpuModel,omitempty"`
@@ -68,6 +73,10 @@ type WorkloadProfileSpec struct {
 	// +optional
 	// NodeAffinity specifies the node affinity requirements for the workload
 	NodeAffinity *v1.NodeAffinity `json:"nodeAffinity,omitempty"`
+
+	// +optional
+	// WorkerPodTemplate is the template for the worker pod, only take effect in remote vGPU mode
+	WorkerPodTemplate *v1.PodTemplateSpec `json:"workerPodTemplate,omitempty"`
 }
 
 func (t WorkloadProfileSpec) IsDynamicReplica() bool {
 
@@ -40,8 +40,8 @@ require (
 	k8s.io/klog/v2 v2.130.1
 	k8s.io/kube-scheduler v0.34.1
 	k8s.io/kubernetes v1.34.1
-	k8s.io/utils v0.0.0-20250820121507-0af2bda4dd1d
-	sigs.k8s.io/controller-runtime v0.22.1
+	k8s.io/utils v0.0.0-20251002143259-bc988d571ff4
+	sigs.k8s.io/controller-runtime v0.22.2
 	sigs.k8s.io/karpenter v1.6.2
 	sigs.k8s.io/yaml v1.6.0
 )
@@ -181,7 +181,7 @@ require (
 	gopkg.in/ini.v1 v1.67.0 // indirect
 	gopkg.in/yaml.v2 v2.4.0 // indirect
 	gopkg.in/yaml.v3 v3.0.1 // indirect
-	k8s.io/apiextensions-apiserver v0.34.0 // indirect
+	k8s.io/apiextensions-apiserver v0.34.1 // indirect
 	k8s.io/cloud-provider v0.34.0 // indirect
 	k8s.io/controller-manager v0.34.0 // indirect
 	k8s.io/csi-translation-lib v0.34.0 // indirect
 
@@ -516,8 +516,8 @@ gorm.io/gorm v1.31.0 h1:0VlycGreVhK7RF/Bwt51Fk8v0xLiiiFdbGDPIZQ7mJY=
 gorm.io/gorm v1.31.0/go.mod h1:XyQVbO2k6YkOis7C2437jSit3SsDK72s7n7rsSHd+Gs=
 k8s.io/api v0.34.1 h1:jC+153630BMdlFukegoEL8E/yT7aLyQkIVuwhmwDgJM=
 k8s.io/api v0.34.1/go.mod h1:SB80FxFtXn5/gwzCoN6QCtPD7Vbu5w2n1S0J5gFfTYk=
-k8s.io/apiextensions-apiserver v0.34.0 h1:B3hiB32jV7BcyKcMU5fDaDxk882YrJ1KU+ZSkA9Qxoc=
-k8s.io/apiextensions-apiserver v0.34.0/go.mod h1:hLI4GxE1BDBy9adJKxUxCEHBGZtGfIg98Q+JmTD7+g0=
+k8s.io/apiextensions-apiserver v0.34.1 h1:NNPBva8FNAPt1iSVwIE0FsdrVriRXMsaWFMqJbII2CI=
+k8s.io/apiextensions-apiserver v0.34.1/go.mod h1:hP9Rld3zF5Ay2Of3BeEpLAToP+l4s5UlxiHfqRaRcMc=
 k8s.io/apimachinery v0.34.1 h1:dTlxFls/eikpJxmAC7MVE8oOeP1zryV7iRyIjB0gky4=
 k8s.io/apimachinery v0.34.1/go.mod h1:/GwIlEcWuTX9zKIg2mbw0LRFIsXwrfoVxn+ef0X13lw=
 k8s.io/apiserver v0.34.1 h1:U3JBGdgANK3dfFcyknWde1G6X1F4bg7PXuvlqt8lITA=
@@ -550,13 +550,13 @@ k8s.io/kubelet v0.34.0 h1:1nZt1Q6Kfx7xCaTS9vnqR9sjZDxf3cRSQkAFCczULmc=
 k8s.io/kubelet v0.34.0/go.mod h1:NqbF8ViVettlZbf9hw9DJhubaWn7rGvDDTcLMDm6tQ0=
 k8s.io/kubernetes v1.34.1 h1:F3p8dtpv+i8zQoebZeK5zBqM1g9x1aIdnA5vthvcuUk=
 k8s.io/kubernetes v1.34.1/go.mod h1:iu+FhII+Oc/1gGWLJcer6wpyih441aNFHl7Pvm8yPto=
-k8s.io/utils v0.0.0-20250820121507-0af2bda4dd1d h1:wAhiDyZ4Tdtt7e46e9M5ZSAJ/MnPGPs+Ki1gHw4w1R0=
-k8s.io/utils v0.0.0-20250820121507-0af2bda4dd1d/go.mod h1:OLgZIPagt7ERELqWJFomSt595RzquPNLL48iOWgYOg0=
+k8s.io/utils v0.0.0-20251002143259-bc988d571ff4 h1:SjGebBtkBqHFOli+05xYbK8YF1Dzkbzn+gDM4X9T4Ck=
+k8s.io/utils v0.0.0-20251002143259-bc988d571ff4/go.mod h1:OLgZIPagt7ERELqWJFomSt595RzquPNLL48iOWgYOg0=
 rsc.io/pdf v0.1.1/go.mod h1:n8OzWcQ6Sp37PL01nO98y4iUCRdTGarVfzxY20ICaU4=
 sigs.k8s.io/apiserver-network-proxy/konnectivity-client v0.33.0 h1:qPrZsv1cwQiFeieFlRqT627fVZ+tyfou/+S5S0H5ua0=
 sigs.k8s.io/apiserver-network-proxy/konnectivity-client v0.33.0/go.mod h1:Ve9uj1L+deCXFrPOk1LpFXqTg7LCFzFso6PA48q/XZw=
-sigs.k8s.io/controller-runtime v0.22.1 h1:Ah1T7I+0A7ize291nJZdS1CabF/lB4E++WizgV24Eqg=
-sigs.k8s.io/controller-runtime v0.22.1/go.mod h1:FwiwRjkRPbiN+zp2QRp7wlTCzbUXxZ/D4OzuQUDwBHY=
+sigs.k8s.io/controller-runtime v0.22.2 h1:cK2l8BGWsSWkXz09tcS4rJh95iOLney5eawcK5A33r4=
+sigs.k8s.io/controller-runtime v0.22.2/go.mod h1:+QX1XUpTXN4mLoblf4tqr5CQcyHPAki2HLXqQMY6vh8=
 sigs.k8s.io/json v0.0.0-20250730193827-2d320260d730 h1:IpInykpT6ceI+QxKBbEflcR5EXP7sU1kvOlxwZh5txg=
 sigs.k8s.io/json v0.0.0-20250730193827-2d320260d730/go.mod h1:mdzfpAEoE6DHQEN0uh9ZbOCuHbLK5wOm7dK4ctXE9Tg=
 sigs.k8s.io/karpenter v1.6.2 h1:WFayZ49CSOaDMku1iYBTsD3A9hOB2yU/U95VcSAJ8KM=
 
@@ -55,18 +55,18 @@ const (
 	GpuPoolKey = Domain + "/gpupool"
 
 	// Annotation key constants
-	GpuCountAnnotation             = Domain + "/gpu-count"
-	TFLOPSRequestAnnotation        = Domain + "/tflops-request"
-	VRAMRequestAnnotation          = Domain + "/vram-request"
-	TFLOPSLimitAnnotation          = Domain + "/tflops-limit"
-	VRAMLimitAnnotation            = Domain + "/vram-limit"
-	WorkloadProfileAnnotation      = Domain + "/workload-profile"
-	InjectContainerAnnotation      = Domain + "/inject-container"
-	IsLocalGPUAnnotation           = Domain + "/is-local-gpu"
-	QoSLevelAnnotation             = Domain + "/qos"
-	EmbeddedWorkerAnnotation       = Domain + "/embedded-worker"
-	DedicatedWorkerAnnotation      = Domain + "/dedicated-worker"
-	StandaloneWorkerModeAnnotation = Domain + "/no-standalone-worker-mode"
+	GpuCountAnnotation        = Domain + "/gpu-count"
+	TFLOPSRequestAnnotation   = Domain + "/tflops-request"
+	VRAMRequestAnnotation     = Domain + "/vram-request"
+	TFLOPSLimitAnnotation     = Domain + "/tflops-limit"
+	VRAMLimitAnnotation       = Domain + "/vram-limit"
+	WorkloadProfileAnnotation = Domain + "/workload-profile"
+	InjectContainerAnnotation = Domain + "/inject-container"
+	IsLocalGPUAnnotation      = Domain + "/is-local-gpu"
+	QoSLevelAnnotation        = Domain + "/qos"
+	EmbeddedWorkerAnnotation  = Domain + "/embedded-worker"
+	DedicatedWorkerAnnotation = Domain + "/dedicated-worker"
+	SidecarWorkerAnnotation   = Domain + "/sidecar-worker"
 	// GPUModelAnnotation specifies the required GPU model (e.g., "A100", "H100")
 	GPUModelAnnotation = Domain + "/gpu-model"
 	// GPU ID list is assigned by scheduler, should not specified by user
@@ -76,6 +76,8 @@ const (
 	PricingAnnotation                 = Domain + "/hourly-pricing"
 	// In remote vGPU mode, selected workload is set by user with /workload annotation or generated by system
 	SelectedWorkloadAnnotation = Domain + "/selected-workload"
+	// Additional worker pod template is set by user with /worker-pod-template annotation
+	WorkerPodTemplateAnnotation = Domain + "/worker-pod-template"
 
 	WorkloadModeAnnotation = Domain + "/workload-mode"
 	WorkloadModeDynamic    = "dynamic"
@@ -181,6 +183,8 @@ const (
 const TFDataPath = "/run/tensor-fusion"
 const TFDataPathWorkerExpr = "shm/$(POD_NAMESPACE)/$(POD_NAME)"
 const DataVolumeName = "tf-data"
+const TransportShmVolumeName = "tf-transport-shm"
+const TransportShmPath = "/dev/shm"
 const TensorFusionPoolManualCompaction = Domain + "/manual-compaction"
 const TensorFusionSystemName = "tensor-fusion"
 
 
@@ -58,9 +58,13 @@ const (
 
 // TensorFusion client related envs
 const (
-	GetConnectionURLEnv    = "TENSOR_FUSION_OPERATOR_GET_CONNECTION_URL"
-	ConnectionNameEnv      = "TENSOR_FUSION_CONNECTION_NAME"
-	ConnectionNamespaceEnv = "TENSOR_FUSION_CONNECTION_NAMESPACE"
+	GetConnectionURLEnv     = "TENSOR_FUSION_OPERATOR_GET_CONNECTION_URL"
+	ConnectionInfoEnv       = "TENSOR_FUSION_OPERATOR_CONNECTION_INFO"
+	ConnectionNameEnv       = "TENSOR_FUSION_CONNECTION_NAME"
+	ConnectionNamespaceEnv  = "TENSOR_FUSION_CONNECTION_NAMESPACE"
+	DisableVMSharedMemEnv   = "TF_USE_IVSHMEM"
+	ConnectionSharedMemSize = "256"
+	ConnectionSharedMemName = "tf_shm"
 
 	RealNvmlLibPathEnv   = "TF_NVML_LIB_PATH"
 	RealCUDALibPathEnv   = "TF_CUDA_LIB_PATH"