Merge pull request #137 from docker/fix-blob-url

ekcasey · web-flow · commit 0f01f663993b · 2025-08-22T11:22:11.000-06:00
Fix remote memory estimation
diff --git a/go.mod b/go.mod
@@ -5,7 +5,7 @@ go 1.23.7
 require (
 	github.com/containerd/containerd/v2 v2.0.4
 	github.com/containerd/platforms v1.0.0-rc.1
-	github.com/docker/model-distribution v0.0.0-20250813080006-2a983516ebb8
+	github.com/docker/model-distribution v0.0.0-20250822164750-dcd03ba922e7
 	github.com/elastic/go-sysinfo v1.15.3
 	github.com/google/go-containerregistry v0.20.3
 	github.com/gpustack/gguf-parser-go v0.14.1
diff --git a/go.sum b/go.sum
@@ -38,8 +38,8 @@ github.com/docker/distribution v2.8.3+incompatible h1:AtKxIZ36LoNK51+Z6RpzLpddBi
 github.com/docker/distribution v2.8.3+incompatible/go.mod h1:J2gT2udsDAN96Uj4KfcMRqY0/ypR+oyYUYmja8H+y+w=
 github.com/docker/docker-credential-helpers v0.8.2 h1:bX3YxiGzFP5sOXWc3bTPEXdEaZSeVMrFgOr3T+zrFAo=
 github.com/docker/docker-credential-helpers v0.8.2/go.mod h1:P3ci7E3lwkZg6XiHdRKft1KckHiO9a2rNtyFbZ/ry9M=
-github.com/docker/model-distribution v0.0.0-20250813080006-2a983516ebb8 h1:agH5zeO6tf8lHgMcBZxqCFKPuXHM/cA53gdsn895eMI=
-github.com/docker/model-distribution v0.0.0-20250813080006-2a983516ebb8/go.mod h1:dThpO9JoG5Px3i+rTluAeZcqLGw8C0qepuEL4gL2o/c=
+github.com/docker/model-distribution v0.0.0-20250822164750-dcd03ba922e7 h1:dOk1UTVMyDHNG4WFS8jnAtfKdPUE3QaMWNvrzRoK/dI=
+github.com/docker/model-distribution v0.0.0-20250822164750-dcd03ba922e7/go.mod h1:dThpO9JoG5Px3i+rTluAeZcqLGw8C0qepuEL4gL2o/c=
 github.com/elastic/go-sysinfo v1.15.3 h1:W+RnmhKFkqPTCRoFq2VCTmsT4p/fwpo+3gKNQsn1XU0=
 github.com/elastic/go-sysinfo v1.15.3/go.mod h1:K/cNrqYTDrSoMh2oDkYEMS2+a72GRxMvNP+GC+vRIlo=
 github.com/elastic/go-windows v1.0.2 h1:yoLLsAsV5cfg9FLhZ9EXZ2n2sQFKeDYrHenkcivY4vI=
diff --git a/pkg/inference/backends/llamacpp/llamacpp.go b/pkg/inference/backends/llamacpp/llamacpp.go
@@ -19,6 +19,7 @@ import (
 	parser "github.com/gpustack/gguf-parser-go"
 
 	"github.com/docker/model-distribution/types"
+
 	"github.com/docker/model-runner/pkg/diskusage"
 	"github.com/docker/model-runner/pkg/inference"
 	"github.com/docker/model-runner/pkg/inference/config"
@@ -308,19 +309,15 @@ func (l *llamaCpp) parseRemoteModel(ctx context.Context, model string) (*parser.
 	if err != nil {
 		return nil, types.Config{}, fmt.Errorf("getting layers of model(%s): %w", model, err)
 	}
-	var ggufDigest v1.Hash
-	for _, layer := range layers {
-		mt, err := layer.MediaType()
-		if err != nil {
-			return nil, types.Config{}, fmt.Errorf("getting media type of model(%s) layer: %w", model, err)
-		}
-		if mt == types.MediaTypeGGUF {
-			ggufDigest, err = layer.Digest()
-			if err != nil {
-				return nil, types.Config{}, fmt.Errorf("getting digest of GGUF layer for model(%s): %w", model, err)
-			}
-			break
-		}
+	ggufLayers := getGGUFLayers(layers)
+	if len(ggufLayers) != 1 {
+		return nil, types.Config{}, fmt.Errorf(
+			"remote memory estimation only supported for models with single GGUF layer, found %d layers", len(ggufLayers),
+		)
+	}
+	ggufDigest, err := ggufLayers[0].Digest()
+	if err != nil {
+		return nil, types.Config{}, fmt.Errorf("getting digest of GGUF layer for model(%s): %w", model, err)
 	}
 	if ggufDigest.String() == "" {
 		return nil, types.Config{}, fmt.Errorf("model(%s) has no GGUF layer", model)
@@ -344,6 +341,20 @@ func (l *llamaCpp) parseRemoteModel(ctx context.Context, model string) (*parser.
 	return mdlGguf, config, nil
 }
 
+func getGGUFLayers(layers []v1.Layer) []v1.Layer {
+	var filtered []v1.Layer
+	for _, layer := range layers {
+		mt, err := layer.MediaType()
+		if err != nil {
+			continue
+		}
+		if mt == types.MediaTypeGGUF {
+			filtered = append(filtered, layer)
+		}
+	}
+	return filtered
+}
+
 func (l *llamaCpp) checkGPUSupport(ctx context.Context) bool {
 	binPath := l.vendoredServerStoragePath
 	if l.updatedLlamaCpp {