Switch path to router.huggingface.co

julien-c · julien-c · commit 499b8f26de1c · 2025-02-06T13:38:55.000+01:00
diff --git a/README.md b/README.md
@@ -183,7 +183,7 @@ const { generated_text } = await gpt2.textGeneration({inputs: 'The answer to the
 
 // Chat Completion
 const llamaEndpoint = inference.endpoint(
- "https://api-inference.huggingface.co/models/meta-llama/Llama-3.1-8B-Instruct"
+  "https://router.huggingface.co/together/models/meta-llama/Llama-3.1-8B-Instruct"
 );
 const out = await llamaEndpoint.chatCompletion({
   model: "meta-llama/Llama-3.1-8B-Instruct",
diff --git a/packages/inference/README.md b/packages/inference/README.md
@@ -117,7 +117,7 @@ for await (const output of hf.textGenerationStream({
 
 ### Text Generation (Chat Completion API Compatible)
 
-Using the `chatCompletion` method, you can generate text with models compatible with the OpenAI Chat Completion API. All models served by [TGI](https://api-inference.huggingface.co/framework/text-generation-inference) on Hugging Face support Messages API.
+Using the `chatCompletion` method, you can generate text with models compatible with the OpenAI Chat Completion API. All models served by [TGI](https://huggingface.co/docs/text-generation-inference/) on Hugging Face support Messages API.
 
 [Demo](https://huggingface.co/spaces/huggingfacejs/streaming-chat-completion)
 
@@ -611,7 +611,7 @@ const { generated_text } = await gpt2.textGeneration({inputs: 'The answer to the
 
 // Chat Completion Example
 const ep = hf.endpoint(
-  "https://api-inference.huggingface.co/models/meta-llama/Llama-3.1-8B-Instruct"
+  "https://router.huggingface.co/together/models/meta-llama/Llama-3.1-8B-Instruct"
 );
 const stream = ep.chatCompletionStream({
   model: "tgi",
diff --git a/packages/inference/src/config.ts b/packages/inference/src/config.ts
@@ -1 +1,2 @@
 export const HF_HUB_URL = "https://huggingface.co";
+export const HF_ROUTER_URL = "https://router.huggingface.co";
diff --git a/packages/inference/src/lib/makeRequestOptions.ts b/packages/inference/src/lib/makeRequestOptions.ts
@@ -1,4 +1,4 @@
-import { HF_HUB_URL } from "../config";
+import { HF_HUB_URL, HF_ROUTER_URL } from "../config";
 import { FAL_AI_API_BASE_URL } from "../providers/fal-ai";
 import { REPLICATE_API_BASE_URL } from "../providers/replicate";
 import { SAMBANOVA_API_BASE_URL } from "../providers/sambanova";
@@ -9,7 +9,7 @@ import { isUrl } from "./isUrl";
 import { version as packageVersion, name as packageName } from "../../package.json";
 import { getProviderModelId } from "./getProviderModelId";
 
-const HF_HUB_INFERENCE_PROXY_TEMPLATE = `${HF_HUB_URL}/api/inference-proxy/{{PROVIDER}}`;
+const HF_HUB_INFERENCE_PROXY_TEMPLATE = `${HF_ROUTER_URL}/{{PROVIDER}}`;
 
 /**
  * Lazy-loaded from huggingface.co/api/tasks when needed
diff --git a/packages/inference/test/vcr.ts b/packages/inference/test/vcr.ts
@@ -1,5 +1,5 @@
 import { omit } from "../src/utils/omit";
-import { HF_HUB_URL } from "../src/config";
+import { HF_HUB_URL, HF_ROUTER_URL } from "../src/config";
 import { isBackend } from "../src/utils/isBackend";
 import { isFrontend } from "../src/utils/isFrontend";
 
@@ -117,7 +117,7 @@ async function vcr(
 
 	const { default: tapes } = await import(TAPES_FILE);
 
-	const cacheCandidate = !url.startsWith(HF_HUB_URL) || url.startsWith(`${HF_HUB_URL}/api/inference-proxy/`);
+	const cacheCandidate = !url.startsWith(HF_HUB_URL) || url.startsWith(HF_ROUTER_URL);
 
 	if (VCR_MODE === MODE.PLAYBACK && cacheCandidate) {
 		if (!tapes[hash]) {

Original file line number	Diff line number	Diff line change
`@@ -1 +1,2 @@`
`1`	`1`	`export const HF_HUB_URL = "https://huggingface.co";`
	`2`	`+export const HF_ROUTER_URL = "https://router.huggingface.co";`