Reduce redundant NVML Init/Shutdown cycles

rajathagasthya · rajathagasthya · commit 3dd1e82ae7e7 · 2026-04-01T09:57:25.000-05:00
nvidia-mig-manager.service consumes excessive CPU time (~42s on DGX B300
with 8x B200 GPUs) for operations completing in ~9s wall time. The root
cause is 68-100 redundant NVML Init/Shutdown cycles per service run.

Each nvml.Init() triggers dlopen("libnvidia-ml.so.1") + 24 dlsym() calls
to resolve versioned API symbols — expensive on multi-GPU systems. The
overhead comes from two compounding patterns:

1. Every method on nvmlMigModeManager and nvmlMigConfigManager
   independently calls Init()/Shutdown(), despite callers already
   maintaining an initialized NVML instance at the command level.

2. Callers create new nvml.New() instances inside per-GPU loops,
   each triggering a full Init/Shutdown cycle including version checks.

Fix by:
- Accepting nvml.Interface in constructors (aligning real constructors
  with mock constructors that already accept it)
- Removing per-method Init/Shutdown from all 7 manager methods
- Hoisting manager creation out of per-device loops to create once
  per command

This reduces NVML Init/Shutdown from ~100 to 1 per command, cutting CPU
time by 4.7x and dlsym calls from 572 to 45 (12.7x reduction).

Signed-off-by: Rajath Agasthya &lt;ragasthya@nvidia.com&gt;
diff --git a/cmd/nvidia-mig-parted/apply/config.go b/cmd/nvidia-mig-parted/apply/config.go
@@ -33,12 +33,17 @@ func ApplyMigConfig(c *Context) error {
 	}
 	defer util.TryNvmlShutdown(c.Nvml)
 
-	return assert.WalkSelectedMigConfigForEachGPU(c.MigConfig, func(mc *v1.MigConfigSpec, i int, d types.DeviceID) error {
-		modeManager, err := util.NewMigModeManager()
-		if err != nil {
-			return fmt.Errorf("error creating MIG mode Manager: %v", err)
-		}
+	modeManager, err := util.NewMigModeManager(c.Nvml)
+	if err != nil {
+		return fmt.Errorf("error creating MIG mode Manager: %w", err)
+	}
+
+	configManager, err := util.NewMigConfigManager(c.Nvml)
+	if err != nil {
+		return fmt.Errorf("error creating MIG config Manager: %w", err)
+	}
 
+	return assert.WalkSelectedMigConfigForEachGPU(c.MigConfig, func(mc *v1.MigConfigSpec, i int, d types.DeviceID) error {
 		capable, err := modeManager.IsMigCapable(i)
 		if err != nil {
 			return fmt.Errorf("error checking MIG capable: %v", err)
@@ -77,11 +82,6 @@ func ApplyMigConfig(c *Context) error {
 			return nil
 		}
 
-		configManager, err := util.NewMigConfigManager()
-		if err != nil {
-			return fmt.Errorf("error creating MIG config Manager: %v", err)
-		}
-
 		current, err := configManager.GetMigConfig(i)
 		if err != nil {
 			return fmt.Errorf("error getting MIGConfig: %v", err)
diff --git a/cmd/nvidia-mig-parted/apply/mode.go b/cmd/nvidia-mig-parted/apply/mode.go
@@ -45,19 +45,21 @@ func ApplyMigMode(c *Context) error {
 		return fmt.Errorf("error enumerating GPUs: %v", err)
 	}
 
+	modeManager, err := util.NewMigModeManager(c.Nvml)
+	if err != nil {
+		return fmt.Errorf("error creating MIG mode Manager: %w", err)
+	}
+
+	configManager := config.NewNvmlMigConfigManager(c.Nvml)
+
 	pending := make([]bool, len(deviceIDs))
 	err = assert.WalkSelectedMigConfigForEachGPU(c.MigConfig, func(mc *v1.MigConfigSpec, i int, d types.DeviceID) error {
 		desiredMode := mode.Disabled
 		if mc.MigEnabled {
 			desiredMode = mode.Enabled
 		}
 
-		manager, err := util.NewMigModeManager()
-		if err != nil {
-			return fmt.Errorf("error creating MIG mode Manager: %v", err)
-		}
-
-		capable, err := manager.IsMigCapable(i)
+		capable, err := modeManager.IsMigCapable(i)
 		if err != nil {
 			return fmt.Errorf("error checking MIG capable: %v", err)
 		}
@@ -77,28 +79,27 @@ func ApplyMigMode(c *Context) error {
 			return fmt.Errorf("cannot set MIG mode on non MIG-capable GPU")
 		}
 
-		currentMode, err := manager.GetMigMode(i)
+		currentMode, err := modeManager.GetMigMode(i)
 		if err != nil {
 			return fmt.Errorf("error getting MIG mode: %v", err)
 		}
 		log.Debugf("    Current MIG mode: %v", currentMode)
 
 		if nvidiaModuleLoaded && currentMode != mode.Disabled {
 			log.Debugf("    Clearing existing MIG configuration")
-			manager := config.NewNvmlMigConfigManager()
-			err := manager.ClearMigConfig(i)
+			err := configManager.ClearMigConfig(i)
 			if err != nil {
 				return fmt.Errorf("error clearing existing MIG configurations: %v", err)
 			}
 		}
 
 		log.Debugf("    Updating MIG mode: %v", desiredMode)
-		err = manager.SetMigMode(i, desiredMode)
+		err = modeManager.SetMigMode(i, desiredMode)
 		if err != nil {
 			return fmt.Errorf("error setting MIG mode: %v", err)
 		}
 
-		pending[i], err = manager.IsMigModeChangePending(i)
+		pending[i], err = modeManager.IsMigModeChangePending(i)
 		if err != nil {
 			return fmt.Errorf("error checking pending MIG mode change: %v", err)
 		}
diff --git a/cmd/nvidia-mig-parted/assert/config.go b/cmd/nvidia-mig-parted/assert/config.go
@@ -37,13 +37,18 @@ func AssertMigConfig(c *Context) error {
 		return fmt.Errorf("error enumerating GPUs: %v", err)
 	}
 
+	modeManager, err := util.NewMigModeManager(c.Nvml)
+	if err != nil {
+		return fmt.Errorf("error creating MIG Mode Manager: %w", err)
+	}
+
+	configManager, err := util.NewMigConfigManager(c.Nvml)
+	if err != nil {
+		return fmt.Errorf("error creating MIG Config Manager: %w", err)
+	}
+
 	matched := make([]bool, len(deviceIDs))
 	err = WalkSelectedMigConfigForEachGPU(c.MigConfig, func(mc *v1.MigConfigSpec, i int, d types.DeviceID) error {
-		modeManager, err := util.NewMigModeManager()
-		if err != nil {
-			return fmt.Errorf("error creating MIG Mode Manager: %v", err)
-		}
-
 		capable, err := modeManager.IsMigCapable(i)
 		if err != nil {
 			return fmt.Errorf("error checking MIG capable: %v", err)
@@ -64,11 +69,6 @@ func AssertMigConfig(c *Context) error {
 			return nil
 		}
 
-		configManager, err := util.NewMigConfigManager()
-		if err != nil {
-			return fmt.Errorf("error creating MIG Config Manager: %v", err)
-		}
-
 		current, err := configManager.GetMigConfig(i)
 		if err != nil {
 			return fmt.Errorf("error getting MIGConfig: %v", err)
diff --git a/cmd/nvidia-mig-parted/assert/mode.go b/cmd/nvidia-mig-parted/assert/mode.go
@@ -39,18 +39,18 @@ func AssertMigMode(c *Context) error {
 		defer util.TryNvmlShutdown(c.Nvml)
 	}
 
+	manager, err := util.NewMigModeManager(c.Nvml)
+	if err != nil {
+		return fmt.Errorf("error creating MIG mode Manager: %w", err)
+	}
+
 	return WalkSelectedMigConfigForEachGPU(c.MigConfig, func(mc *v1.MigConfigSpec, i int, d types.DeviceID) error {
 		if mc.MigEnabled {
 			log.Debugf("    Asserting MIG mode: %v", mode.Enabled)
 		} else {
 			log.Debugf("    Asserting MIG mode: %v", mode.Disabled)
 		}
 
-		manager, err := util.NewMigModeManager()
-		if err != nil {
-			return fmt.Errorf("error creating MIG mode Manager: %v", err)
-		}
-
 		capable, err := manager.IsMigCapable(i)
 		if err != nil {
 			return fmt.Errorf("error checking MIG capable: %v", err)
diff --git a/cmd/nvidia-mig-parted/checkpoint/checkpoint.go b/cmd/nvidia-mig-parted/checkpoint/checkpoint.go
@@ -94,7 +94,7 @@ func checkpointWrapper(c *cli.Context, f *Flags) error {
 	}
 	defer util.TryNvmlShutdown(nvml)
 
-	migState, err := state.NewMigStateManager().Fetch()
+	migState, err := state.NewMigStateManager(nvml).Fetch()
 	if err != nil {
 		return fmt.Errorf("error fetching MIG state: %v", err)
 	}
diff --git a/cmd/nvidia-mig-parted/export/config.go b/cmd/nvidia-mig-parted/export/config.go
@@ -38,15 +38,20 @@ func ExportMigConfigs(c *Context) (*v1.Spec, error) {
 		return nil, fmt.Errorf("error enumerating GPUs: %v", err)
 	}
 
+	modeManager, err := util.NewMigModeManager(c.Nvml)
+	if err != nil {
+		return nil, fmt.Errorf("error creating MIG Mode Manager: %w", err)
+	}
+
+	configManager, err := util.NewMigConfigManager(c.Nvml)
+	if err != nil {
+		return nil, fmt.Errorf("error creating MIG Config Manager: %w", err)
+	}
+
 	configSpecs := make(v1.MigConfigSpecSlice, len(deviceIDs))
 	for i, deviceID := range deviceIDs {
 		deviceFilter := deviceID.String()
 
-		modeManager, err := util.NewMigModeManager()
-		if err != nil {
-			return nil, fmt.Errorf("error creating MIG Mode Manager: %v", err)
-		}
-
 		enabled := false
 		capable, err := modeManager.IsMigCapable(i)
 		if err != nil {
@@ -62,11 +67,6 @@ func ExportMigConfigs(c *Context) (*v1.Spec, error) {
 
 		migDevices := types.MigConfig{}
 		if enabled {
-			configManager, err := util.NewMigConfigManager()
-			if err != nil {
-				return nil, fmt.Errorf("error creating MIG Config Manager: %v", err)
-			}
-
 			migDevices, err = configManager.GetMigConfig(i)
 			if err != nil {
 				return nil, fmt.Errorf("error getting MIGConfig: %v", err)
diff --git a/cmd/nvidia-mig-parted/restore/restore.go b/cmd/nvidia-mig-parted/restore/restore.go
@@ -26,6 +26,8 @@ import (
 	"github.com/sirupsen/logrus"
 	cli "github.com/urfave/cli/v2"
 
+	"github.com/NVIDIA/go-nvml/pkg/nvml"
+
 	checkpoint "github.com/NVIDIA/mig-parted/api/checkpoint/v1"
 	hooks "github.com/NVIDIA/mig-parted/api/hooks/v1"
 	"github.com/NVIDIA/mig-parted/cmd/nvidia-mig-parted/apply"
@@ -179,7 +181,7 @@ func restoreWrapper(c *cli.Context, f *Flags) error {
 		Flags:           f,
 		Hooks:           apply.NewApplyHooks(hooksSpec.Hooks),
 		MigState:        &checkpoint.MigState,
-		MigStateManager: state.NewMigStateManager(),
+		MigStateManager: state.NewMigStateManager(nvml.New()),
 	}
 
 	err = apply.ApplyMigConfigWithHooks(log, c, f.ModeOnly, context.Hooks, &context)
diff --git a/cmd/nvidia-mig-parted/util/mig.go b/cmd/nvidia-mig-parted/util/mig.go
@@ -19,11 +19,13 @@ package util
 import (
 	"fmt"
 
+	"github.com/NVIDIA/go-nvml/pkg/nvml"
+
 	"github.com/NVIDIA/mig-parted/pkg/mig/config"
 	"github.com/NVIDIA/mig-parted/pkg/mig/mode"
 )
 
-func NewMigModeManager() (mode.Manager, error) {
+func NewMigModeManager(nvmlLib nvml.Interface) (mode.Manager, error) {
 	nvidiaModuleLoaded, err := IsNvidiaModuleLoaded()
 	if err != nil {
 		return nil, fmt.Errorf("error checking if nvidia module loaded: %v", err)
@@ -32,18 +34,18 @@ func NewMigModeManager() (mode.Manager, error) {
 		return mode.NewPciMigModeManager(), nil
 	}
 
-	nvmlSupported, err := IsNVMLVersionSupported()
+	nvmlSupported, err := IsNVMLVersionSupported(nvmlLib)
 	if err != nil {
 		return nil, fmt.Errorf("error checking NVML version: %v", err)
 	}
 	if !nvmlSupported {
 		return mode.NewPciMigModeManager(), nil
 	}
 
-	return mode.NewNvmlMigModeManager(), nil
+	return mode.NewNvmlMigModeManager(nvmlLib), nil
 }
 
-func NewMigConfigManager() (config.Manager, error) {
+func NewMigConfigManager(nvmlLib nvml.Interface) (config.Manager, error) {
 	nvidiaModuleLoaded, err := IsNvidiaModuleLoaded()
 	if err != nil {
 		return nil, fmt.Errorf("error checking if nvidia module loaded: %v", err)
@@ -52,13 +54,13 @@ func NewMigConfigManager() (config.Manager, error) {
 		return nil, fmt.Errorf("nvidia module not loaded")
 	}
 
-	nvmlSupported, err := IsNVMLVersionSupported()
+	nvmlSupported, err := IsNVMLVersionSupported(nvmlLib)
 	if err != nil {
 		return nil, fmt.Errorf("error checking NVML version: %v", err)
 	}
 	if !nvmlSupported {
 		return nil, fmt.Errorf("NVML version unsupported for performing MIG operations")
 	}
 
-	return config.NewNvmlMigConfigManager(), nil
+	return config.NewNvmlMigConfigManager(nvmlLib), nil
 }
diff --git a/cmd/nvidia-mig-parted/util/nvml.go b/cmd/nvidia-mig-parted/util/nvml.go
@@ -45,20 +45,7 @@ func IsNvidiaModuleLoaded() (bool, error) {
 	return false, nil
 }
 
-func IsNVMLVersionSupported() (bool, error) {
-	nvmlLib := nvml.New()
-
-	ret := nvmlLib.Init()
-	if ret != nvml.SUCCESS {
-		return false, fmt.Errorf("error initializing NVML: %v", ret)
-	}
-	defer func() {
-		ret := nvmlLib.Shutdown()
-		if ret != nvml.SUCCESS {
-			log.Warnf("error shutting down NVML: %v", ret)
-		}
-	}()
-
+func IsNVMLVersionSupported(nvmlLib nvml.Interface) (bool, error) {
 	sversion, ret := nvmlLib.SystemGetNVMLVersion()
 	if ret != nvml.SUCCESS {
 		return false, fmt.Errorf("error getting getting version: %v", ret)
diff --git a/pkg/mig/config/config.go b/pkg/mig/config/config.go
@@ -41,28 +41,11 @@ type nvmlMigConfigManager struct {
 
 var _ Manager = (*nvmlMigConfigManager)(nil)
 
-func tryNvmlShutdown(nvmlLib nvml.Interface) {
-	ret := nvmlLib.Shutdown()
-	if ret != nvml.SUCCESS {
-		log.Warnf("Error shutting down NVML: %v", ret)
-	}
-}
-
-func NewNvmlMigConfigManager() Manager {
-	return &nvmlMigConfigManager{nvml.New(), nvlib.New()}
-}
-
-func NewMockNvmlMigConfigManager(nvml nvml.Interface) Manager {
+func NewNvmlMigConfigManager(nvml nvml.Interface) Manager {
 	return &nvmlMigConfigManager{nvml, nvlib.NewMock(nvml)}
 }
 
 func (m *nvmlMigConfigManager) GetMigConfig(gpu int) (types.MigConfig, error) {
-	ret := m.nvml.Init()
-	if ret != nvml.SUCCESS {
-		return nil, fmt.Errorf("error initializing NVML: %v", ret)
-	}
-	defer tryNvmlShutdown(m.nvml)
-
 	device, ret := m.nvml.DeviceGetHandleByIndex(gpu)
 	if ret != nvml.SUCCESS {
 		return nil, fmt.Errorf("error getting device handle: %v", ret)
@@ -101,12 +84,6 @@ func (m *nvmlMigConfigManager) GetMigConfig(gpu int) (types.MigConfig, error) {
 }
 
 func (m *nvmlMigConfigManager) SetMigConfig(gpu int, config types.MigConfig) error {
-	ret := m.nvml.Init()
-	if ret != nvml.SUCCESS {
-		return fmt.Errorf("error initializing NVML: %v", ret)
-	}
-	defer tryNvmlShutdown(m.nvml)
-
 	device, ret := m.nvml.DeviceGetHandleByIndex(gpu)
 	if ret != nvml.SUCCESS {
 		return fmt.Errorf("error getting device handle: %v", ret)
@@ -213,12 +190,6 @@ func (m *nvmlMigConfigManager) SetMigConfig(gpu int, config types.MigConfig) err
 }
 
 func (m *nvmlMigConfigManager) ClearMigConfig(gpu int) error {
-	ret := m.nvml.Init()
-	if ret != nvml.SUCCESS {
-		return fmt.Errorf("error initializing NVML: %v", ret)
-	}
-	defer tryNvmlShutdown(m.nvml)
-
 	device, ret := m.nvml.DeviceGetHandleByIndex(gpu)
 	if ret != nvml.SUCCESS {
 		return fmt.Errorf("error getting device handle: %v", ret)
diff --git a/pkg/mig/mode/nvml.go b/pkg/mig/mode/nvml.go
diff --git a/pkg/mig/state/state.go b/pkg/mig/state/state.go
diff --git a/pkg/mig/state/state_test.go b/pkg/mig/state/state_test.go

Original file line number	Diff line number	Diff line change
`@@ -94,7 +94,7 @@ func checkpointWrapper(c cli.Context, f Flags) error {`
`94`	`94`	`}`
`95`	`95`	`defer util.TryNvmlShutdown(nvml)`
`96`	`96`
`97`		`- migState, err := state.NewMigStateManager().Fetch()`
	`97`	`+ migState, err := state.NewMigStateManager(nvml).Fetch()`
`98`	`98`	`if err != nil {`
`99`	`99`	`return fmt.Errorf("error fetching MIG state: %v", err)`
`100`	`100`	`}`
Original file line number	Diff line number	Diff line change
`@@ -19,11 +19,13 @@ package util`
`19`	`19`	`import (`
`20`	`20`	`"fmt"`
`21`	`21`
	`22`	`+ "github.com/NVIDIA/go-nvml/pkg/nvml"`
	`23`	`+`
`22`	`24`	`"github.com/NVIDIA/mig-parted/pkg/mig/config"`
`23`	`25`	`"github.com/NVIDIA/mig-parted/pkg/mig/mode"`
`24`	`26`	`)`
`25`	`27`
`26`		`-func NewMigModeManager() (mode.Manager, error) {`
	`28`	`+func NewMigModeManager(nvmlLib nvml.Interface) (mode.Manager, error) {`
`27`	`29`	`nvidiaModuleLoaded, err := IsNvidiaModuleLoaded()`
`28`	`30`	`if err != nil {`
`29`	`31`	`return nil, fmt.Errorf("error checking if nvidia module loaded: %v", err)`
`@@ -32,18 +34,18 @@ func NewMigModeManager() (mode.Manager, error) {`
`32`	`34`	`return mode.NewPciMigModeManager(), nil`
`33`	`35`	`}`
`34`	`36`
`35`		`- nvmlSupported, err := IsNVMLVersionSupported()`
	`37`	`+ nvmlSupported, err := IsNVMLVersionSupported(nvmlLib)`
`36`	`38`	`if err != nil {`
`37`	`39`	`return nil, fmt.Errorf("error checking NVML version: %v", err)`
`38`	`40`	`}`
`39`	`41`	`if !nvmlSupported {`
`40`	`42`	`return mode.NewPciMigModeManager(), nil`
`41`	`43`	`}`
`42`	`44`
`43`		`- return mode.NewNvmlMigModeManager(), nil`
	`45`	`+ return mode.NewNvmlMigModeManager(nvmlLib), nil`
`44`	`46`	`}`
`45`	`47`
`46`		`-func NewMigConfigManager() (config.Manager, error) {`
	`48`	`+func NewMigConfigManager(nvmlLib nvml.Interface) (config.Manager, error) {`
`47`	`49`	`nvidiaModuleLoaded, err := IsNvidiaModuleLoaded()`
`48`	`50`	`if err != nil {`
`49`	`51`	`return nil, fmt.Errorf("error checking if nvidia module loaded: %v", err)`
`@@ -52,13 +54,13 @@ func NewMigConfigManager() (config.Manager, error) {`
`52`	`54`	`return nil, fmt.Errorf("nvidia module not loaded")`
`53`	`55`	`}`
`54`	`56`
`55`		`- nvmlSupported, err := IsNVMLVersionSupported()`
	`57`	`+ nvmlSupported, err := IsNVMLVersionSupported(nvmlLib)`
`56`	`58`	`if err != nil {`
`57`	`59`	`return nil, fmt.Errorf("error checking NVML version: %v", err)`
`58`	`60`	`}`
`59`	`61`	`if !nvmlSupported {`
`60`	`62`	`return nil, fmt.Errorf("NVML version unsupported for performing MIG operations")`
`61`	`63`	`}`
`62`	`64`
`63`		`- return config.NewNvmlMigConfigManager(), nil`
	`65`	`+ return config.NewNvmlMigConfigManager(nvmlLib), nil`
`64`	`66`	`}`