predibase
diff --git a/‎docs/reference/openapi.json‎
Lines changed: 5 additions & 0 deletions b/‎docs/reference/openapi.json‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎proto/generate.proto‎
Lines changed: 2 additions & 0 deletions b/‎proto/generate.proto‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎router/client/src/client.rs‎
Lines changed: 1 addition & 0 deletions b/‎router/client/src/client.rs‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎router/src/health.rs‎
Lines changed: 1 addition & 0 deletions b/‎router/src/health.rs‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎router/src/lib.rs‎
Lines changed: 39 additions & 1 deletion b/‎router/src/lib.rs‎
Lines changed: 39 additions & 1 deletion
diff --git a/‎router/src/scheduler.rs‎
Lines changed: 1 addition & 0 deletions b/‎router/src/scheduler.rs‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎router/src/server.rs‎
Lines changed: 66 additions & 5 deletions b/‎router/src/server.rs‎
Lines changed: 66 additions & 5 deletions
diff --git a/‎router/src/validation.rs‎
Lines changed: 3 additions & 0 deletions b/‎router/src/validation.rs‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎server/lorax_server/models/bloom.py‎
Lines changed: 3 additions & 1 deletion b/‎server/lorax_server/models/bloom.py‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎server/lorax_server/models/causal_lm.py‎
Lines changed: 5 additions & 1 deletion b/‎server/lorax_server/models/causal_lm.py‎
Lines changed: 5 additions & 1 deletion
@@ -607,6 +607,11 @@
           "api_token": {
             "type": "string",
             "nullable": true
+          },
+          "apply_chat_template": {
+            "type": "boolean",
+            "default": "false",
+            "example": true
           }
         }
       },
 
@@ -102,6 +102,8 @@ message Request {
     bool prefill_logprobs = 6;
     /// Adapter index
     uint32 adapter_index = 7;
+    /// Apply chat template to inputs
+    bool apply_chat_template = 8;
 }
 
 message Batch {
 
@@ -134,6 +134,7 @@ impl Client {
                 }),
                 adapter_index: 0,
                 prefill_logprobs: true,
+                apply_chat_template: false,
             });
             n_tokens += max_input_length;
         }
 
@@ -52,6 +52,7 @@ impl Health {
                     ignore_eos_token: false,
                 }),
                 adapter_index: 0,
+                apply_chat_template: false,
             };
             let batch = Batch {
                 id: BATCH_ID,
 
@@ -145,6 +145,9 @@ pub(crate) struct GenerateParameters {
     #[schema(default = "true")]
     pub decoder_input_details: bool,
     #[serde(default)]
+    #[schema(default = "false")]
+    pub apply_chat_template: bool,
+    #[serde(default)]
     #[schema(
         exclusive_minimum = 0,
         nullable = true,
@@ -177,6 +180,7 @@ fn default_parameters() -> GenerateParameters {
         watermark: false,
         details: false,
         decoder_input_details: false,
+        apply_chat_template: false,
         seed: None,
     }
 }
@@ -320,7 +324,7 @@ struct UsageInfo {
 #[derive(Clone, Debug, Deserialize, ToSchema)]
 struct ChatCompletionRequest {
     model: String,
-    messages: Vec<String>,
+    messages: Vec<std::collections::HashMap<String, String>>,
     temperature: Option<f32>,
     top_p: Option<f32>,
     n: Option<i32>,
@@ -451,6 +455,40 @@ impl From<CompletionRequest> for CompatGenerateRequest {
                 watermark: false,
                 details: true,
                 decoder_input_details: req.logprobs.is_some(),
+                apply_chat_template: false,
+                seed: None,
+            },
+            stream: req.stream.unwrap_or(false),
+        }
+    }
+}
+
+impl From<ChatCompletionRequest> for CompatGenerateRequest {
+    fn from(req: ChatCompletionRequest) -> Self {
+        CompatGenerateRequest {
+            inputs: serde_json::to_string(&req.messages).unwrap(),
+            parameters: GenerateParameters {
+                adapter_id: req.model.parse().ok(),
+                adapter_source: None,
+                api_token: None,
+                best_of: req.n.map(|x| x as usize),
+                temperature: req.temperature,
+                repetition_penalty: None,
+                top_k: None,
+                top_p: req.top_p,
+                typical_p: None,
+                do_sample: !req.n.is_none(),
+                max_new_tokens: req
+                    .max_tokens
+                    .map(|x| x as u32)
+                    .unwrap_or(default_max_new_tokens()),
+                return_full_text: None,
+                stop: req.stop,
+                truncate: None,
+                watermark: false,
+                details: true,
+                decoder_input_details: false,
+                apply_chat_template: true,
                 seed: None,
             },
             stream: req.stream.unwrap_or(false),
 
@@ -334,6 +334,7 @@ impl AdapterSchedulerState {
                 parameters: Some(entry.request.parameters.clone()),
                 stopping_parameters: Some(entry.request.stopping_parameters.clone()),
                 adapter_index: adapter.index(),
+                apply_chat_template: entry.request.apply_chat_template,
             });
             // Set batch_time
             entry.batch_time = Some(Instant::now());
 
@@ -3,10 +3,10 @@ use crate::health::Health;
 use crate::infer::{InferError, InferResponse, InferStreamResponse};
 use crate::validation::ValidationError;
 use crate::{
-    BestOfSequence, CompatGenerateRequest, CompletionRequest, CompletionResponse,
-    CompletionStreamResponse, Details, ErrorResponse, FinishReason, GenerateParameters,
-    GenerateRequest, GenerateResponse, HubModelInfo, Infer, Info, PrefillToken, StreamDetails,
-    StreamResponse, Token, Validation,
+    BestOfSequence, ChatCompletionRequest, CompatGenerateRequest, CompletionRequest,
+    CompletionResponse, CompletionStreamResponse, Details, ErrorResponse, FinishReason,
+    GenerateParameters, GenerateRequest, GenerateResponse, HubModelInfo, Infer, Info, PrefillToken,
+    StreamDetails, StreamResponse, Token, Validation,
 };
 use axum::extract::Extension;
 use axum::http::{HeaderMap, Method, StatusCode};
@@ -78,7 +78,7 @@ async fn compat_generate(
     }
 }
 
-/// Generate tokens if `stream == false` or a stream of token if `stream == true`
+/// OpenAI compatible completions endpoint
 #[utoipa::path(
 post,
 tag = "LoRAX",
@@ -138,6 +138,66 @@ async fn completions_v1(
     }
 }
 
+/// OpenAI compatible chat completions endpoint
+#[utoipa::path(
+post,
+tag = "LoRAX",
+path = "/v1/chat/completions",
+request_body = ChatCompletionRequest,
+responses(
+(status = 200, description = "Generated Text",
+content(
+("application/json" = ChatCompletionResponse),
+("text/event-stream" = ChatCompletionStreamResponse),
+)),
+(status = 424, description = "Generation Error", body = ErrorResponse,
+example = json ! ({"error": "Request failed during generation"})),
+(status = 429, description = "Model is overloaded", body = ErrorResponse,
+example = json ! ({"error": "Model is overloaded"})),
+(status = 422, description = "Input validation error", body = ErrorResponse,
+example = json ! ({"error": "Input validation error"})),
+(status = 500, description = "Incomplete generation", body = ErrorResponse,
+example = json ! ({"error": "Incomplete generation"})),
+)
+)]
+#[instrument(skip(infer, req))]
+async fn chat_completions_v1(
+    default_return_full_text: Extension<bool>,
+    infer: Extension<Infer>,
+    req: Json<ChatCompletionRequest>,
+) -> Result<Response, (StatusCode, Json<ErrorResponse>)> {
+    let req = req.0;
+    let mut gen_req = CompatGenerateRequest::from(req);
+
+    // default return_full_text given the pipeline_tag
+    if gen_req.parameters.return_full_text.is_none() {
+        gen_req.parameters.return_full_text = Some(default_return_full_text.0)
+    }
+
+    // switch on stream
+    if gen_req.stream {
+        let callback = move |resp: StreamResponse| {
+            Event::default()
+                .json_data(CompletionStreamResponse::from(resp))
+                .map_or_else(
+                    |err| {
+                        tracing::error!("Failed to serialize CompletionStreamResponse: {err}");
+                        Event::default()
+                    },
+                    |data| data,
+                )
+        };
+
+        let (headers, stream) =
+            generate_stream_with_callback(infer, Json(gen_req.into()), callback).await;
+        Ok((headers, Sse::new(stream).keep_alive(KeepAlive::default())).into_response())
+    } else {
+        let (headers, generation) = generate(infer, Json(gen_req.into())).await?;
+        // wrap generation inside a Vec to match api-inference
+        Ok((headers, Json(vec![CompletionResponse::from(generation.0)])).into_response())
+    }
+}
+
 /// LoRAX endpoint info
 #[utoipa::path(
 get,
@@ -771,6 +831,7 @@ pub async fn run(
         .route("/generate", post(generate))
         .route("/generate_stream", post(generate_stream))
         .route("/v1/completions", post(completions_v1))
+        .route("/v1/chat/completions", post(chat_completions_v1))
         // AWS Sagemaker route
         .route("/invocations", post(compat_generate))
         // Base Health route
 
@@ -145,6 +145,7 @@ impl Validation {
             watermark,
             adapter_id,
             decoder_input_details,
+            apply_chat_template,
             ..
         } = request.parameters;
 
@@ -270,6 +271,7 @@ impl Validation {
             parameters,
             stopping_parameters,
             adapter,
+            apply_chat_template,
         })
     }
 
@@ -344,6 +346,7 @@ pub(crate) struct ValidGenerateRequest {
     pub parameters: NextTokenChooserParameters,
     pub stopping_parameters: StoppingCriteriaParameters,
     pub adapter: Adapter,
+    pub apply_chat_template: bool,
 }
 
 #[derive(Error, Debug)]
 
@@ -20,6 +20,7 @@
     weight_files,
     Weights,
 )
+from lorax_server.utils.tokenizer import TokenizerManager
 
 
 class BloomCausalLMBatch(CausalLMBatch):
@@ -28,10 +29,11 @@ def from_pb(
         cls,
         pb: generate_pb2.Batch,
         tokenizer: PreTrainedTokenizerBase,
+        tokenizers: TokenizerManager,
         dtype: torch.dtype,
         device: torch.device,
     ) -> "CausalLMBatch":
-        batch = super().from_pb(pb=pb, tokenizer=tokenizer, dtype=dtype, device=device)
+        batch = super().from_pb(pb=pb, tokenizer=tokenizer, tokenizers=tokenizers, dtype=dtype, device=device)
         batch.keys_head_dim_last = False
         return batch
 
 
@@ -1,3 +1,4 @@
+import json
 import torch
 import inspect
 
@@ -15,6 +16,7 @@
 )
 from lorax_server.pb import generate_pb2
 from lorax_server.utils import NextTokenChooser, StoppingCriteria, Sampling
+from lorax_server.utils.tokenizer import TokenizerManager
 
 tracer = trace.get_tracer(__name__)
 
@@ -69,6 +71,7 @@ def from_pb(
         cls,
         pb: generate_pb2.Batch,
         tokenizer: PreTrainedTokenizerBase,
+        tokenizers: TokenizerManager,
         dtype: torch.dtype,
         device: torch.device,
     ) -> "CausalLMBatch":
@@ -86,7 +89,8 @@ def from_pb(
         adapter_indices_list = []
         for i, r in enumerate(pb.requests):
             requests_idx_mapping[r.id] = i
-            inputs.append(r.inputs)
+            req_inputs = tokenizers.get_inputs(r, tokenizer)
+            inputs.append(req_inputs)
             next_token_choosers.append(NextTokenChooser.from_pb(r.parameters, device))
             stopping_criteria = StoppingCriteria.from_pb(
                 r.stopping_parameters, tokenizer
Original file line number	Diff line number	Diff line change
`@@ -607,6 +607,11 @@`
`607`	`607`	`"api_token": {`
`608`	`608`	`"type": "string",`
`609`	`609`	`"nullable": true`
	`610`	`+ },`
	`611`	`+ "apply_chat_template": {`
	`612`	`+ "type": "boolean",`
	`613`	`+ "default": "false",`
	`614`	`+ "example": true`
`610`	`615`	`}`
`611`	`616`	`}`
`612`	`617`	`},`
Original file line number	Diff line number	Diff line change
`@@ -102,6 +102,8 @@ message Request {`
`102`	`102`	`bool prefill_logprobs = 6;`
`103`	`103`	`/// Adapter index`
`104`	`104`	`uint32 adapter_index = 7;`
	`105`	`+ /// Apply chat template to inputs`
	`106`	`+ bool apply_chat_template = 8;`
`105`	`107`	`}`
`106`	`108`
`107`	`109`	`message Batch {`
Original file line number	Diff line number	Diff line change
`@@ -134,6 +134,7 @@ impl Client {`
`134`	`134`	`}),`
`135`	`135`	`adapter_index: 0,`
`136`	`136`	`prefill_logprobs: true,`
	`137`	`+ apply_chat_template: false,`
`137`	`138`	`});`
`138`	`139`	`n_tokens += max_input_length;`
`139`	`140`	`}`