fix: resolved quantization

giladgd · giladgd · commit 83bd0381d2e3 · 2025-01-30T02:51:28.000+02:00
diff --git a/src/utils/parseModelUri.ts b/src/utils/parseModelUri.ts
@@ -190,17 +190,22 @@ async function fetchHuggingFaceModelManifest({
     while (headersToTry.length > 0) {
         const headers = headersToTry.shift();
 
-        const response = await fetch(manifestUrl, {
-            headers: {
-                ...(authorizationHeader != null ? {"Authorization": authorizationHeader} : {}),
-                ...headers,
-
-                // we need this to get the `ggufFile` field in the response
-                // https://github.com/ggerganov/llama.cpp/pull/11195
-                "User-Agent": "llama-cpp"
-            },
-            signal
-        });
+        let response: Awaited<ReturnType<typeof fetch>> | undefined;
+        try {
+            response = await fetch(manifestUrl, {
+                headers: {
+                    ...(authorizationHeader != null ? {"Authorization": authorizationHeader} : {}),
+                    ...headers,
+
+                    // we need this to get the `ggufFile` field in the response
+                    // https://github.com/ggerganov/llama.cpp/pull/11195
+                    "User-Agent": "llama-cpp"
+                },
+                signal
+            });
+        } catch (err) {
+            throw new Error(`Failed to fetch manifest for resolving URI ${JSON.stringify(fullUri)}: ${err}`);
+        }
 
         if ((response.status >= 500 || response.status === 429 || response.status === 401) && headersToTry.length > 0)
             continue;
@@ -243,8 +248,11 @@ function parseHuggingFaceUriContent(uri: string, fullUri: string): ParsedModelUr
         const actualTag = tagParts.length > 0
             ? [tag, ...tagParts].join(":").trimEnd()
             : (tag ?? "").trimEnd();
-        const resolvedTag = ggufQuantNames.has(actualTag.toUpperCase())
+        const assumedQuant = ggufQuantNames.has(actualTag.toUpperCase())
             ? actualTag.toUpperCase()
+            : undefined;
+        const resolvedTag = assumedQuant != null
+            ? assumedQuant
             : actualTag;
 
         if (actualModel == null || actualModel === "" || user === "")
@@ -260,12 +268,23 @@ function parseHuggingFaceUriContent(uri: string, fullUri: string): ParsedModelUr
             uri: `hf:${user}/${actualModel}${resolvedTag !== "" ? `:${resolvedTag}` : ""}`,
             filePrefix,
             baseFilename,
-            possibleFullFilenames: [
-                `${filePrefix}${baseFilename}.${defaultHuggingFaceFileQuantization}.gguf`,
-                `${filePrefix}${baseFilename}.${defaultHuggingFaceFileQuantization}-00001-of-${genericFilePartNumber}.gguf`,
-                `${filePrefix}${baseFilename}.gguf`,
-                `${filePrefix}${baseFilename}-00001-of-${genericFilePartNumber}.gguf`
-            ],
+            possibleFullFilenames:
+                assumedQuant != null
+                    ? [
+                        `${filePrefix}${baseFilename}.${assumedQuant}.gguf`,
+                        `${filePrefix}${baseFilename}.${assumedQuant}-00001-of-${genericFilePartNumber}.gguf`
+                    ]
+                    : (resolvedTag != null && resolvedTag !== "" && resolvedTag !== "latest")
+                        ? [
+                            `${filePrefix}${baseFilename}.${resolvedTag.toUpperCase()}.gguf`,
+                            `${filePrefix}${baseFilename}.${resolvedTag.toUpperCase()}-00001-of-${genericFilePartNumber}.gguf`
+                        ]
+                        : [
+                            `${filePrefix}${baseFilename}.${defaultHuggingFaceFileQuantization}.gguf`,
+                            `${filePrefix}${baseFilename}.${defaultHuggingFaceFileQuantization}-00001-of-${genericFilePartNumber}.gguf`,
+                            `${filePrefix}${baseFilename}.gguf`,
+                            `${filePrefix}${baseFilename}-00001-of-${genericFilePartNumber}.gguf`
+                        ],
             resolveDetails: {
                 type: "hf",
                 user,
diff --git a/test/standalone/utils/parseModelUri.test.ts b/test/standalone/utils/parseModelUri.test.ts
@@ -166,10 +166,6 @@ describe("utils", () => {
                   "hf_mradermacher_Meta-Llama-3.1-8B-Instruct.Q4_K_M.gguf",
                   "hf_mradermacher_Meta-Llama-3.1-8B-Instruct.Q4_K_M-00001-of-{:
               {number}
-              :}.gguf",
-                  "hf_mradermacher_Meta-Llama-3.1-8B-Instruct.gguf",
-                  "hf_mradermacher_Meta-Llama-3.1-8B-Instruct-00001-of-{:
-              {number}
               :}.gguf",
                 ],
                 "resolveDetails": {
@@ -207,10 +203,6 @@ describe("utils", () => {
                   "hf_mradermacher_Meta-Llama-3.1-8B-Instruct.Q4_K_M.gguf",
                   "hf_mradermacher_Meta-Llama-3.1-8B-Instruct.Q4_K_M-00001-of-{:
               {number}
-              :}.gguf",
-                  "hf_mradermacher_Meta-Llama-3.1-8B-Instruct.gguf",
-                  "hf_mradermacher_Meta-Llama-3.1-8B-Instruct-00001-of-{:
-              {number}
               :}.gguf",
                 ],
                 "resolveDetails": {
@@ -245,12 +237,8 @@ describe("utils", () => {
                 "baseFilename": "Meta-Llama-3.1-70B-Instruct",
                 "filePrefix": "hf_bartowski_",
                 "possibleFullFilenames": [
-                  "hf_bartowski_Meta-Llama-3.1-70B-Instruct.Q4_K_M.gguf",
-                  "hf_bartowski_Meta-Llama-3.1-70B-Instruct.Q4_K_M-00001-of-{:
-              {number}
-              :}.gguf",
-                  "hf_bartowski_Meta-Llama-3.1-70B-Instruct.gguf",
-                  "hf_bartowski_Meta-Llama-3.1-70B-Instruct-00001-of-{:
+                  "hf_bartowski_Meta-Llama-3.1-70B-Instruct.Q5_K_L.gguf",
+                  "hf_bartowski_Meta-Llama-3.1-70B-Instruct.Q5_K_L-00001-of-{:
               {number}
               :}.gguf",
                 ],
@@ -327,12 +315,8 @@ describe("utils", () => {
                 "baseFilename": "Meta-Llama-3.1-70B-Instruct",
                 "filePrefix": "hf_mradermacher_",
                 "possibleFullFilenames": [
-                  "hf_mradermacher_Meta-Llama-3.1-70B-Instruct.Q4_K_M.gguf",
-                  "hf_mradermacher_Meta-Llama-3.1-70B-Instruct.Q4_K_M-00001-of-{:
-              {number}
-              :}.gguf",
-                  "hf_mradermacher_Meta-Llama-3.1-70B-Instruct.gguf",
-                  "hf_mradermacher_Meta-Llama-3.1-70B-Instruct-00001-of-{:
+                  "hf_mradermacher_Meta-Llama-3.1-70B-Instruct.Q8_0.gguf",
+                  "hf_mradermacher_Meta-Llama-3.1-70B-Instruct.Q8_0-00001-of-{:
               {number}
               :}.gguf",
                 ],
@@ -354,5 +338,37 @@ describe("utils", () => {
                 expect(err).toMatchInlineSnapshot('[Error: Cannot get quantization "Q8_0" for model "hf:mradermacher/Meta-Llama-3.1-70B-Instruct-GGUF" or it does not exist]');
             }
         });
+
+        test("Hugging Face simple URI is resolved 5", async () => {
+            const parsedModelUri = parseModelUri("hf:mradermacher/Meta-Llama-3.1-70B-Instruct-GGUF:invalid");
+
+            expect(parsedModelUri).toMatchInlineSnapshot(`
+              {
+                "baseFilename": "Meta-Llama-3.1-70B-Instruct",
+                "filePrefix": "hf_mradermacher_",
+                "possibleFullFilenames": [
+                  "hf_mradermacher_Meta-Llama-3.1-70B-Instruct.INVALID.gguf",
+                  "hf_mradermacher_Meta-Llama-3.1-70B-Instruct.INVALID-00001-of-{:
+              {number}
+              :}.gguf",
+                ],
+                "resolveDetails": {
+                  "model": "Meta-Llama-3.1-70B-Instruct-GGUF",
+                  "tag": "invalid",
+                  "type": "hf",
+                  "user": "mradermacher",
+                },
+                "type": "unresolved",
+                "uri": "hf:mradermacher/Meta-Llama-3.1-70B-Instruct-GGUF:invalid",
+              }
+            `);
+
+            try {
+                await resolveParsedModelUri(parsedModelUri);
+                expect.unreachable("This quantization cannot be resolved due to not existing");
+            } catch (err) {
+                expect(err).toMatchInlineSnapshot('[Error: Cannot get quantization "invalid" for model "hf:mradermacher/Meta-Llama-3.1-70B-Instruct-GGUF" or it does not exist]');
+            }
+        });
     });
 });