Merge pull request #299 from makllama/xd/musa

ericcurtin · web-flow · commit 3b986c9a4463 · 2025-10-26T14:04:45.000Z
Add MUSA Support
diff --git a/.github/workflows/release.yml b/.github/workflows/release.yml
@@ -148,3 +148,18 @@ jobs:
           sbom: true
           provenance: mode=max
           tags: ${{ steps.tags.outputs.rocm }}
+
+      - name: Build MUSA image
+        uses: docker/build-push-action@ca052bb54ab0790a636c9b5f226502c73d547a25
+        with:
+          file: Dockerfile
+          target: final-llamacpp
+          platforms: linux/amd64
+          build-args: |
+            "LLAMA_SERVER_VERSION=${{ inputs.llamaServerVersion }}"
+            "LLAMA_SERVER_VARIANT=musa"
+            "BASE_IMAGE=mthreads/musa:rc4.3.0-runtime-ubuntu22.04-amd64"
+          push: true
+          sbom: true
+          provenance: mode=max
+          tags: ${{ steps.tags.outputs.musa }}
diff --git a/README.md b/README.md
@@ -57,17 +57,17 @@ If you encounter errors like `Package 'docker-model-plugin' has no installation
    # Check Docker Model Runner version
    docker model version
    ```
-   
+
    Look for the source in the output. If it shows a package from your distro, you'll need to reinstall from Docker's official repositories.
 
 2. **Remove the distro version and install from Docker's official repository:**
    ```bash
    # Remove distro version (Ubuntu/Debian example)
    sudo apt-get purge docker docker.io containerd runc
-   
+
    # Install from Docker's official repository
    curl -fsSL https://get.docker.com | sudo bash
-   
+
    # Verify Docker Model Runner is available
    docker model --help
    ```
@@ -146,7 +146,7 @@ cd cmd/cli
 MODEL_RUNNER_HOST=http://localhost:13434 ./model-cli list
 
 # Pull and run a model
-MODEL_RUNNER_HOST=http://localhost:13434 ./model-cli run ai/smollm2 "Hello, how are you?" 
+MODEL_RUNNER_HOST=http://localhost:13434 ./model-cli run ai/smollm2 "Hello, how are you?"
 ```
 
 #### Option 2: Using Docker
@@ -173,7 +173,7 @@ MODEL_RUNNER_HOST=http://localhost:13434 ./model-cli list
 
 ## Using the Makefile
 
-This project includes a Makefile to simplify common development tasks. It requires Docker Desktop >= 4.41.0 
+This project includes a Makefile to simplify common development tasks. It requires Docker Desktop >= 4.41.0
 The Makefile provides the following targets:
 
 - `build` - Build the Go application
@@ -224,6 +224,7 @@ Available variants:
 - `cpu`: CPU-optimized version
 - `cuda`: CUDA-accelerated version for NVIDIA GPUs
 - `rocm`: ROCm-accelerated version for AMD GPUs
+- `musa`: MUSA-accelerated version for MTHREADS GPUs
 
 The binary path in the image follows this pattern: `/com.docker.llama-server.native.linux.${LLAMA_SERVER_VARIANT}.${TARGETARCH}`
 
diff --git a/cmd/cli/README.md b/cmd/cli/README.md
@@ -24,37 +24,37 @@ A powerful command-line interface for managing, running, packaging, and deployin
    ```
 3. **Install Model Runner:**
    ```bash
-   ./model install-runner
+   ./model-cli install-runner
    ```
    Use `--gpu cuda` for GPU support, or `--gpu auto` for automatic detection.
 
 ## Usage
-Run `./model --help` to see all commands and options.
+Run `./model-cli --help` to see all commands and options.
 
 ### Common Commands
-- `model install-runner` — Install the Docker Model Runner
-- `model start-runner` — Start the Docker Model Runner
-- `model stop-runner` — Stop the Docker Model Runner
-- `model restart-runner` — Restart the Docker Model Runner
-- `model run MODEL [PROMPT]` — Run a model with a prompt or enter chat mode
-- `model list` — List available models
-- `model package --gguf <path> --push <target>` — Package and push a model
-- `model logs` — View logs
-- `model status` — Check runner status
-- `model configure MODEL [flags]` — Configure model runtime
-- `model unload MODEL` — Unload a model
-- `model tag SOURCE TARGET` — Tag a model
-- `model pull MODEL` — Pull a model
-- `model push MODEL` — Push a model
-- `model rm MODEL` — Remove a model
+- `model-cli install-runner` — Install the Docker Model Runner
+- `model-cli start-runner` — Start the Docker Model Runner
+- `model-cli stop-runner` — Stop the Docker Model Runner
+- `model-cli restart-runner` — Restart the Docker Model Runner
+- `model-cli run MODEL [PROMPT]` — Run a model with a prompt or enter chat mode
+- `model-cli list` — List available models
+- `model-cli package --gguf <path> --push <target>` — Package and push a model
+- `model-cli logs` — View logs
+- `model-cli status` — Check runner status
+- `model-cli configure MODEL [flags]` — Configure model runtime
+- `model-cli unload MODEL` — Unload a model
+- `model-cli tag SOURCE TARGET` — Tag a model
+- `model-cli pull MODEL` — Pull a model
+- `model-cli push MODEL` — Push a model
+- `model-cli rm MODEL` — Remove a model
 
 ## Example: Interactive Chat
 ```bash
-./model run llama.cpp "What is the capital of France?"
+./model-cli run llama.cpp "What is the capital of France?"
 ```
 Or enter chat mode:
 ```bash
-./model run llama.cpp
+./model-cli run llama.cpp
 > """
 Tell me a joke.
 """
diff --git a/cmd/cli/commands/install-runner.go b/cmd/cli/commands/install-runner.go
@@ -4,10 +4,11 @@ import (
 	"context"
 	"errors"
 	"fmt"
-	"github.com/docker/model-runner/cmd/cli/pkg/types"
 	"os"
 	"time"
 
+	"github.com/docker/model-runner/cmd/cli/pkg/types"
+
 	"github.com/docker/docker/api/types/container"
 	"github.com/docker/model-runner/cmd/cli/commands/completion"
 	"github.com/docker/model-runner/cmd/cli/desktop"
@@ -247,6 +248,8 @@ func runInstallOrStart(cmd *cobra.Command, opts runnerOptions) error {
 		gpu = gpupkg.GPUSupportCUDA
 	} else if opts.gpuMode == "rocm" {
 		gpu = gpupkg.GPUSupportROCm
+	} else if opts.gpuMode == "musa" {
+		gpu = gpupkg.GPUSupportMUSA
 	} else if opts.gpuMode != "none" {
 		return fmt.Errorf("unknown GPU specification: %q", opts.gpuMode)
 	}
@@ -295,7 +298,7 @@ func newInstallRunner() *cobra.Command {
 	c.Flags().Uint16Var(&port, "port", 0,
 		"Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode)")
 	c.Flags().StringVar(&host, "host", "127.0.0.1", "Host address to bind Docker Model Runner")
-	c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none|auto|cuda|rocm)")
+	c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none|auto|cuda|rocm|musa)")
 	c.Flags().BoolVar(&doNotTrack, "do-not-track", false, "Do not track models usage in Docker Model Runner")
 	return c
 }
diff --git a/cmd/cli/commands/reinstall-runner.go b/cmd/cli/commands/reinstall-runner.go
@@ -28,7 +28,7 @@ func newReinstallRunner() *cobra.Command {
 	c.Flags().Uint16Var(&port, "port", 0,
 		"Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode)")
 	c.Flags().StringVar(&host, "host", "127.0.0.1", "Host address to bind Docker Model Runner")
-	c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none|auto|cuda)")
+	c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none|auto|cuda|musa)")
 	c.Flags().BoolVar(&doNotTrack, "do-not-track", false, "Do not track models usage in Docker Model Runner")
 	return c
 }
diff --git a/cmd/cli/commands/restart-runner.go b/cmd/cli/commands/restart-runner.go
@@ -36,7 +36,7 @@ func newRestartRunner() *cobra.Command {
 	c.Flags().Uint16Var(&port, "port", 0,
 		"Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode)")
 	c.Flags().StringVar(&host, "host", "127.0.0.1", "Host address to bind Docker Model Runner")
-	c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none|auto|cuda)")
+	c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none|auto|cuda|musa)")
 	c.Flags().BoolVar(&doNotTrack, "do-not-track", false, "Do not track models usage in Docker Model Runner")
 	return c
 }
diff --git a/cmd/cli/commands/start-runner.go b/cmd/cli/commands/start-runner.go
@@ -24,7 +24,7 @@ func newStartRunner() *cobra.Command {
 	}
 	c.Flags().Uint16Var(&port, "port", 0,
 		"Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode)")
-	c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none|auto|cuda)")
+	c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none|auto|cuda|musa)")
 	c.Flags().BoolVar(&doNotTrack, "do-not-track", false, "Do not track models usage in Docker Model Runner")
 	return c
 }
diff --git a/cmd/cli/docs/reference/docker_model_install-runner.yaml b/cmd/cli/docs/reference/docker_model_install-runner.yaml
@@ -19,7 +19,7 @@ options:
     - option: gpu
       value_type: string
       default_value: auto
-      description: Specify GPU support (none|auto|cuda|rocm)
+      description: Specify GPU support (none|auto|cuda|rocm|musa)
       deprecated: false
       hidden: false
       experimental: false
diff --git a/cmd/cli/docs/reference/docker_model_reinstall-runner.yaml b/cmd/cli/docs/reference/docker_model_reinstall-runner.yaml
@@ -19,7 +19,7 @@ options:
     - option: gpu
       value_type: string
       default_value: auto
-      description: Specify GPU support (none|auto|cuda)
+      description: Specify GPU support (none|auto|cuda|musa)
       deprecated: false
       hidden: false
       experimental: false
diff --git a/cmd/cli/docs/reference/docker_model_restart-runner.yaml b/cmd/cli/docs/reference/docker_model_restart-runner.yaml
@@ -21,7 +21,7 @@ options:
     - option: gpu
       value_type: string
       default_value: auto
-      description: Specify GPU support (none|auto|cuda)
+      description: Specify GPU support (none|auto|cuda|musa)
       deprecated: false
       hidden: false
       experimental: false
diff --git a/cmd/cli/docs/reference/docker_model_start-runner.yaml b/cmd/cli/docs/reference/docker_model_start-runner.yaml
@@ -21,7 +21,7 @@ options:
     - option: gpu
       value_type: string
       default_value: auto
-      description: Specify GPU support (none|auto|cuda)
+      description: Specify GPU support (none|auto|cuda|musa)
       deprecated: false
       hidden: false
       experimental: false
diff --git a/cmd/cli/docs/reference/model_install-runner.md b/cmd/cli/docs/reference/model_install-runner.md
@@ -8,7 +8,7 @@ Install Docker Model Runner (Docker Engine only)
 | Name             | Type     | Default     | Description                                                                                            |
 |:-----------------|:---------|:------------|:-------------------------------------------------------------------------------------------------------|
 | `--do-not-track` | `bool`   |             | Do not track models usage in Docker Model Runner                                                       |
-| `--gpu`          | `string` | `auto`      | Specify GPU support (none\|auto\|cuda\|rocm)                                                           |
+| `--gpu`          | `string` | `auto`      | Specify GPU support (none\|auto\|cuda\|rocm\|musa)                                                     |
 | `--host`         | `string` | `127.0.0.1` | Host address to bind Docker Model Runner                                                               |
 | `--port`         | `uint16` | `0`         | Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode) |
 
diff --git a/cmd/cli/docs/reference/model_reinstall-runner.md b/cmd/cli/docs/reference/model_reinstall-runner.md
@@ -8,7 +8,7 @@ Reinstall Docker Model Runner (Docker Engine only)
 | Name             | Type     | Default     | Description                                                                                            |
 |:-----------------|:---------|:------------|:-------------------------------------------------------------------------------------------------------|
 | `--do-not-track` | `bool`   |             | Do not track models usage in Docker Model Runner                                                       |
-| `--gpu`          | `string` | `auto`      | Specify GPU support (none\|auto\|cuda)                                                                 |
+| `--gpu`          | `string` | `auto`      | Specify GPU support (none\|auto\|cuda\|musa)                                                           |
 | `--host`         | `string` | `127.0.0.1` | Host address to bind Docker Model Runner                                                               |
 | `--port`         | `uint16` | `0`         | Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode) |
 
diff --git a/cmd/cli/docs/reference/model_restart-runner.md b/cmd/cli/docs/reference/model_restart-runner.md
@@ -8,7 +8,7 @@ Restart Docker Model Runner (Docker Engine only)
 | Name             | Type     | Default     | Description                                                                                            |
 |:-----------------|:---------|:------------|:-------------------------------------------------------------------------------------------------------|
 | `--do-not-track` | `bool`   |             | Do not track models usage in Docker Model Runner                                                       |
-| `--gpu`          | `string` | `auto`      | Specify GPU support (none\|auto\|cuda)                                                                 |
+| `--gpu`          | `string` | `auto`      | Specify GPU support (none\|auto\|cuda\|musa)                                                           |
 | `--host`         | `string` | `127.0.0.1` | Host address to bind Docker Model Runner                                                               |
 | `--port`         | `uint16` | `0`         | Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode) |
 
diff --git a/cmd/cli/docs/reference/model_start-runner.md b/cmd/cli/docs/reference/model_start-runner.md
@@ -8,7 +8,7 @@ Start Docker Model Runner (Docker Engine only)
 | Name             | Type     | Default | Description                                                                                            |
 |:-----------------|:---------|:--------|:-------------------------------------------------------------------------------------------------------|
 | `--do-not-track` | `bool`   |         | Do not track models usage in Docker Model Runner                                                       |
-| `--gpu`          | `string` | `auto`  | Specify GPU support (none\|auto\|cuda)                                                                 |
+| `--gpu`          | `string` | `auto`  | Specify GPU support (none\|auto\|cuda\|musa)                                                           |
 | `--port`         | `uint16` | `0`     | Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode) |
 
 
diff --git a/cmd/cli/pkg/gpu/gpu.go b/cmd/cli/pkg/gpu/gpu.go
@@ -17,6 +17,8 @@ const (
 	GPUSupportCUDA
 	// GPUSupportROCm indicates ROCm GPU support.
 	GPUSupportROCm
+	// GPUSupportMUSA indicates MUSA GPU support.
+	GPUSupportMUSA
 )
 
 // ProbeGPUSupport determines whether or not the Docker engine has GPU support.
@@ -26,6 +28,11 @@ func ProbeGPUSupport(ctx context.Context, dockerClient client.SystemAPIClient) (
 		return GPUSupportROCm, nil
 	}
 
+	// Then check for MTHREADS runtime
+	if hasMTHREADS, err := HasMTHREADSRuntime(ctx, dockerClient); err == nil && hasMTHREADS {
+		return GPUSupportMUSA, nil
+	}
+
 	// Then search for nvidia-container-runtime on PATH
 	if _, err := exec.LookPath("nvidia-container-runtime"); err == nil {
 		return GPUSupportCUDA, nil
@@ -63,3 +70,13 @@ func HasROCmRuntime(ctx context.Context, dockerClient client.SystemAPIClient) (b
 	_, hasROCm := info.Runtimes["rocm"]
 	return hasROCm, nil
 }
+
+// HasMTHREADSRuntime determines whether there is a mthreads runtime available
+func HasMTHREADSRuntime(ctx context.Context, dockerClient client.SystemAPIClient) (bool, error) {
+	info, err := dockerClient.Info(ctx)
+	if err != nil {
+		return false, err
+	}
+	_, hasMTHREADS := info.Runtimes["mthreads"]
+	return hasMTHREADS, nil
+}
diff --git a/cmd/cli/pkg/standalone/containers.go b/cmd/cli/pkg/standalone/containers.go
@@ -299,6 +299,10 @@ func CreateControllerContainer(ctx context.Context, dockerClient *client.Client,
 			hostConfig.Runtime = "rocm"
 		}
 		// ROCm devices are handled via device paths (/dev/kfd, /dev/dri) which are already added below
+	} else if gpu == gpupkg.GPUSupportMUSA {
+		if ok, err := gpupkg.HasMTHREADSRuntime(ctx, dockerClient); err == nil && ok {
+			hostConfig.Runtime = "mthreads"
+		}
 	}
 
 	// devicePaths contains glob patterns for common AI accelerator device files.
diff --git a/cmd/cli/pkg/standalone/controller_image.go b/cmd/cli/pkg/standalone/controller_image.go
@@ -32,6 +32,8 @@ func controllerImageVariant(detectedGPU gpupkg.GPUSupport) string {
 		return "cuda"
 	case gpupkg.GPUSupportROCm:
 		return "rocm"
+	case gpupkg.GPUSupportMUSA:
+		return "musa"
 	default:
 		return ""
 	}
diff --git a/llamacpp/native/musa.Dockerfile b/llamacpp/native/musa.Dockerfile
@@ -1,9 +1,9 @@
 # syntax=docker/dockerfile:1
 
-ARG MUSA_VERSION=rc4.2.0
+ARG MUSA_VERSION=rc4.3.0
 ARG MUSA_IMAGE_VARIANT=ubuntu22.04
 
-FROM mthreads/musa:${MUSA_VERSION}-devel-${MUSA_IMAGE_VARIANT}amd64 AS builder
+FROM mthreads/musa:${MUSA_VERSION}-devel-${MUSA_IMAGE_VARIANT}-amd64 AS builder
 
 ARG TARGETARCH
 ARG MUSA_IMAGE_VARIANT
@@ -46,4 +46,4 @@ FROM scratch AS final
 ARG TARGETARCH
 ARG MUSA_VERSION
 
-COPY --from=builder /llama-server/install /com.docker.llama-server.native.linux.musa$MUSA_VERSION.$TARGETARCH
+COPY --from=builder /llama-server/install /com.docker.llama-server.native.linux.musa.$TARGETARCH
diff --git a/pkg/inference/backends/llamacpp/llamacpp.go b/pkg/inference/backends/llamacpp/llamacpp.go
@@ -371,6 +371,7 @@ func (l *llamaCpp) checkGPUSupport(ctx context.Context) bool {
 			command.Stdout = &output
 			command.Stderr = &output
 		},
+		binPath,
 		filepath.Join(binPath, "com.docker.llama-server"),
 		"--list-devices",
 	)
diff --git a/pkg/inference/backends/llamacpp/llamacpp_config.go b/pkg/inference/backends/llamacpp/llamacpp_config.go
@@ -17,7 +17,7 @@ type Config struct {
 
 // NewDefaultLlamaCppConfig creates a new LlamaCppConfig with default values.
 func NewDefaultLlamaCppConfig() *Config {
-	args := append([]string{"-ngl", "999", "--metrics"})
+	args := []string{"-ngl", "999", "--metrics"}
 
 	// Special case for ARM64
 	if runtime.GOARCH == "arm64" {
diff --git a/scripts/docker-run.sh b/scripts/docker-run.sh
@@ -51,7 +51,7 @@ main() {
   # Ensure model path exists only if provided
   if [ -n "${MODELS_PATH-}" ]; then
     mkdir -p "$MODELS_PATH"
-    chmod a+rx "$MODELS_PATH"
+    chmod a+rwx "$MODELS_PATH"
   fi
 
   if [ -z "${DOCKER_IMAGE-}" ]; then

Original file line number	Diff line number	Diff line change
`@@ -28,7 +28,7 @@ func newReinstallRunner() *cobra.Command {`
`28`	`28`	`c.Flags().Uint16Var(&port, "port", 0,`
`29`	`29`	`"Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode)")`
`30`	`30`	`c.Flags().StringVar(&host, "host", "127.0.0.1", "Host address to bind Docker Model Runner")`
`31`		`- c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none\|auto\|cuda)")`
	`31`	`+ c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none\|auto\|cuda\|musa)")`
`32`	`32`	`c.Flags().BoolVar(&doNotTrack, "do-not-track", false, "Do not track models usage in Docker Model Runner")`
`33`	`33`	`return c`
`34`	`34`	`}`
Original file line number	Diff line number	Diff line change
`@@ -36,7 +36,7 @@ func newRestartRunner() *cobra.Command {`
`36`	`36`	`c.Flags().Uint16Var(&port, "port", 0,`
`37`	`37`	`"Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode)")`
`38`	`38`	`c.Flags().StringVar(&host, "host", "127.0.0.1", "Host address to bind Docker Model Runner")`
`39`		`- c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none\|auto\|cuda)")`
	`39`	`+ c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none\|auto\|cuda\|musa)")`
`40`	`40`	`c.Flags().BoolVar(&doNotTrack, "do-not-track", false, "Do not track models usage in Docker Model Runner")`
`41`	`41`	`return c`
`42`	`42`	`}`
Original file line number	Diff line number	Diff line change
`@@ -24,7 +24,7 @@ func newStartRunner() *cobra.Command {`
`24`	`24`	`}`
`25`	`25`	`c.Flags().Uint16Var(&port, "port", 0,`
`26`	`26`	`"Docker container port for Docker Model Runner (default: 12434 for Docker Engine, 12435 for Cloud mode)")`
`27`		`- c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none\|auto\|cuda)")`
	`27`	`+ c.Flags().StringVar(&gpuMode, "gpu", "auto", "Specify GPU support (none\|auto\|cuda\|musa)")`
`28`	`28`	`c.Flags().BoolVar(&doNotTrack, "do-not-track", false, "Do not track models usage in Docker Model Runner")`
`29`	`29`	`return c`
`30`	`30`	`}`