elastic
diff --git a/‎server/src/main/java/org/elasticsearch/TransportVersions.java‎
Lines changed: 1 addition & 0 deletions b/‎server/src/main/java/org/elasticsearch/TransportVersions.java‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/llama/LlamaModel.java‎
Lines changed: 14 additions & 2 deletions b/‎x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/llama/LlamaModel.java‎
Lines changed: 14 additions & 2 deletions
diff --git a/‎x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/llama/LlamaService.java‎
Lines changed: 22 additions & 6 deletions b/‎x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/llama/LlamaService.java‎
Lines changed: 22 additions & 6 deletions
diff --git a/‎x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/llama/action/LlamaActionCreator.java‎
Lines changed: 14 additions & 11 deletions b/‎x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/llama/action/LlamaActionCreator.java‎
Lines changed: 14 additions & 11 deletions
diff --git a/‎x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/llama/action/LlamaActionVisitor.java‎
Lines changed: 6 additions & 2 deletions b/‎x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/llama/action/LlamaActionVisitor.java‎
Lines changed: 6 additions & 2 deletions
diff --git a/‎x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/llama/completion/LlamaChatCompletionModel.java‎
Lines changed: 27 additions & 7 deletions b/‎x-pack/plugin/inference/src/main/java/org/elasticsearch/xpack/inference/services/llama/completion/LlamaChatCompletionModel.java‎
Lines changed: 27 additions & 7 deletions
@@ -353,6 +353,7 @@ static TransportVersion def(int id) {
     public static final TransportVersion ESQL_TOPN_TIMINGS = def(9_128_0_00);
     public static final TransportVersion NODE_WEIGHTS_ADDED_TO_NODE_BALANCE_STATS = def(9_129_0_00);
     public static final TransportVersion RERANK_SNIPPETS = def(9_130_0_00);
+    public static final TransportVersion ML_INFERENCE_LLAMA_OPEN_AI_API_FIX = def(9_131_0_00);
 
     /*
      * STOP! READ THIS FIRST! No, really,
 
@@ -12,6 +12,7 @@
 import org.elasticsearch.inference.ModelSecrets;
 import org.elasticsearch.inference.SecretSettings;
 import org.elasticsearch.inference.ServiceSettings;
+import org.elasticsearch.inference.TaskSettings;
 import org.elasticsearch.xpack.inference.external.action.ExecutableAction;
 import org.elasticsearch.xpack.inference.services.RateLimitGroupingModel;
 import org.elasticsearch.xpack.inference.services.llama.action.LlamaActionVisitor;
@@ -46,10 +47,21 @@ protected LlamaModel(ModelConfigurations configurations, ModelSecrets secrets) {
      * @param model the model configurations
      * @param serviceSettings the settings for the inference service
      */
-    protected LlamaModel(RateLimitGroupingModel model, ServiceSettings serviceSettings) {
+    protected LlamaModel(LlamaModel model, ServiceSettings serviceSettings) {
         super(model, serviceSettings);
     }
 
+    /**
+     * Constructor for creating a LlamaModel with specified model, service settings, and secret settings.
+     * @param model the model configurations
+     * @param taskSettings the settings for the task
+     */
+    protected LlamaModel(LlamaModel model, TaskSettings taskSettings) {
+        super(model, taskSettings);
+        this.uri = model.uri;
+        this.rateLimitSettings = model.rateLimitSettings;
+    }
+
     public URI uri() {
         return this.uri;
     }
@@ -85,5 +97,5 @@ protected static SecretSettings retrieveSecretSettings(Map<String, Object> secre
         return (secrets != null && secrets.isEmpty()) ? EmptySecretSettings.INSTANCE : DefaultSecretSettings.fromMap(secrets);
     }
 
-    protected abstract ExecutableAction accept(LlamaActionVisitor creator);
+    protected abstract ExecutableAction accept(LlamaActionVisitor creator, Map<String, Object> taskSettings);
 }
@@ -118,7 +118,7 @@ protected void doInfer(
     ) {
         var actionCreator = new LlamaActionCreator(getSender(), getServiceComponents());
         if (model instanceof LlamaModel llamaModel) {
-            llamaModel.accept(actionCreator).execute(inputs, timeout, listener);
+            llamaModel.accept(actionCreator, taskSettings).execute(inputs, timeout, listener);
         } else {
             listener.onFailure(createInvalidModelException(model));
         }
@@ -145,16 +145,26 @@ protected LlamaModel createModel(
         String inferenceId,
         TaskType taskType,
         Map<String, Object> serviceSettings,
+        Map<String, Object> taskSettings,
         ChunkingSettings chunkingSettings,
         Map<String, Object> secretSettings,
         String failureMessage,
         ConfigurationParseContext context
     ) {
         switch (taskType) {
             case TEXT_EMBEDDING:
-                return new LlamaEmbeddingsModel(inferenceId, taskType, NAME, serviceSettings, chunkingSettings, secretSettings, context);
+                return new LlamaEmbeddingsModel(
+                    inferenceId,
+                    taskType,
+                    NAME,
+                    serviceSettings,
+                    taskSettings,
+                    chunkingSettings,
+                    secretSettings,
+                    context
+                );
             case CHAT_COMPLETION, COMPLETION:
-                return new LlamaChatCompletionModel(inferenceId, taskType, NAME, serviceSettings, secretSettings, context);
+                return new LlamaChatCompletionModel(inferenceId, taskType, NAME, serviceSettings, taskSettings, secretSettings, context);
             default:
                 throw new ElasticsearchStatusException(failureMessage, RestStatus.BAD_REQUEST);
         }
@@ -173,6 +183,7 @@ public Model updateModelWithEmbeddingDetails(Model model, int embeddingSize) {
                 embeddingSize,
                 similarityToUse,
                 serviceSettings.maxInputTokens(),
+                serviceSettings.dimensionsSetByUser(),
                 serviceSettings.rateLimitSettings()
             );
 
@@ -206,7 +217,7 @@ protected void doChunkedInfer(
         ).batchRequestsWithListeners(listener);
 
         for (var request : batchedRequests) {
-            var action = llamaModel.accept(actionCreator);
+            var action = llamaModel.accept(actionCreator, taskSettings);
             action.execute(EmbeddingsInput.fromStrings(request.batch().inputs().get(), inputType), timeout, request.listener());
         }
     }
@@ -280,6 +291,7 @@ public void parseRequestConfig(
                 modelId,
                 taskType,
                 serviceSettingsMap,
+                taskSettingsMap,
                 chunkingSettings,
                 serviceSettingsMap,
                 TaskType.unsupportedTaskTypeErrorMsg(taskType, NAME),
@@ -304,7 +316,7 @@ public Model parsePersistedConfigWithSecrets(
         Map<String, Object> secrets
     ) {
         Map<String, Object> serviceSettingsMap = removeFromMapOrThrowIfNull(config, ModelConfigurations.SERVICE_SETTINGS);
-        removeFromMapOrDefaultEmpty(config, ModelConfigurations.TASK_SETTINGS);
+        Map<String, Object> taskSettingsMap = removeFromMapOrDefaultEmpty(config, ModelConfigurations.TASK_SETTINGS);
         Map<String, Object> secretSettingsMap = removeFromMapOrDefaultEmpty(secrets, ModelSecrets.SECRET_SETTINGS);
 
         ChunkingSettings chunkingSettings = null;
@@ -316,6 +328,7 @@ public Model parsePersistedConfigWithSecrets(
             modelId,
             taskType,
             serviceSettingsMap,
+            taskSettingsMap,
             chunkingSettings,
             secretSettingsMap,
             parsePersistedConfigErrorMsg(modelId, NAME)
@@ -326,6 +339,7 @@ private LlamaModel createModelFromPersistent(
         String inferenceEntityId,
         TaskType taskType,
         Map<String, Object> serviceSettings,
+        Map<String, Object> taskSettings,
         ChunkingSettings chunkingSettings,
         Map<String, Object> secretSettings,
         String failureMessage
@@ -334,6 +348,7 @@ private LlamaModel createModelFromPersistent(
             inferenceEntityId,
             taskType,
             serviceSettings,
+            taskSettings,
             chunkingSettings,
             secretSettings,
             failureMessage,
@@ -344,7 +359,7 @@ private LlamaModel createModelFromPersistent(
     @Override
     public Model parsePersistedConfig(String modelId, TaskType taskType, Map<String, Object> config) {
         Map<String, Object> serviceSettingsMap = removeFromMapOrThrowIfNull(config, ModelConfigurations.SERVICE_SETTINGS);
-        removeFromMapOrDefaultEmpty(config, ModelConfigurations.TASK_SETTINGS);
+        Map<String, Object> taskSettingsMap = removeFromMapOrDefaultEmpty(config, ModelConfigurations.TASK_SETTINGS);
 
         ChunkingSettings chunkingSettings = null;
         if (TaskType.TEXT_EMBEDDING.equals(taskType)) {
@@ -355,6 +370,7 @@ public Model parsePersistedConfig(String modelId, TaskType taskType, Map<String,
             modelId,
             taskType,
             serviceSettingsMap,
+            taskSettingsMap,
             chunkingSettings,
             null,
             parsePersistedConfigErrorMsg(modelId, NAME)
 
@@ -18,15 +18,16 @@
 import org.elasticsearch.xpack.inference.external.http.sender.Sender;
 import org.elasticsearch.xpack.inference.external.http.sender.UnifiedChatInput;
 import org.elasticsearch.xpack.inference.services.ServiceComponents;
-import org.elasticsearch.xpack.inference.services.huggingface.response.HuggingFaceEmbeddingsResponseEntity;
 import org.elasticsearch.xpack.inference.services.llama.completion.LlamaChatCompletionModel;
 import org.elasticsearch.xpack.inference.services.llama.completion.LlamaCompletionResponseHandler;
 import org.elasticsearch.xpack.inference.services.llama.embeddings.LlamaEmbeddingsModel;
 import org.elasticsearch.xpack.inference.services.llama.embeddings.LlamaEmbeddingsResponseHandler;
 import org.elasticsearch.xpack.inference.services.llama.request.completion.LlamaChatCompletionRequest;
 import org.elasticsearch.xpack.inference.services.llama.request.embeddings.LlamaEmbeddingsRequest;
 import org.elasticsearch.xpack.inference.services.openai.response.OpenAiChatCompletionResponseEntity;
+import org.elasticsearch.xpack.inference.services.openai.response.OpenAiEmbeddingsResponseEntity;
 
+import java.util.Map;
 import java.util.Objects;
 
 import static org.elasticsearch.core.Strings.format;
@@ -44,7 +45,7 @@ public class LlamaActionCreator implements LlamaActionVisitor {
 
     private static final ResponseHandler EMBEDDINGS_HANDLER = new LlamaEmbeddingsResponseHandler(
         "llama text embedding",
-        HuggingFaceEmbeddingsResponseEntity::fromResponse
+        OpenAiEmbeddingsResponseEntity::fromResponse
     );
     private static final ResponseHandler COMPLETION_HANDLER = new LlamaCompletionResponseHandler(
         "llama completion",
@@ -66,34 +67,36 @@ public LlamaActionCreator(Sender sender, ServiceComponents serviceComponents) {
     }
 
     @Override
-    public ExecutableAction create(LlamaEmbeddingsModel model) {
+    public ExecutableAction create(LlamaEmbeddingsModel model, Map<String, Object> taskSettings) {
+        var overriddenModel = LlamaEmbeddingsModel.of(model, taskSettings);
         var manager = new GenericRequestManager<>(
             serviceComponents.threadPool(),
-            model,
+            overriddenModel,
             EMBEDDINGS_HANDLER,
             embeddingsInput -> new LlamaEmbeddingsRequest(
                 serviceComponents.truncator(),
-                truncate(embeddingsInput.getStringInputs(), model.getServiceSettings().maxInputTokens()),
-                model
+                truncate(embeddingsInput.getStringInputs(), overriddenModel.getServiceSettings().maxInputTokens()),
+                overriddenModel
             ),
             EmbeddingsInput.class
         );
 
-        var errorMessage = buildErrorMessage(TaskType.TEXT_EMBEDDING, model.getInferenceEntityId());
+        var errorMessage = buildErrorMessage(TaskType.TEXT_EMBEDDING, overriddenModel.getInferenceEntityId());
         return new SenderExecutableAction(sender, manager, errorMessage);
     }
 
     @Override
-    public ExecutableAction create(LlamaChatCompletionModel model) {
+    public ExecutableAction create(LlamaChatCompletionModel model, Map<String, Object> taskSettings) {
+        var overriddenModel = LlamaChatCompletionModel.of(model, taskSettings);
         var manager = new GenericRequestManager<>(
             serviceComponents.threadPool(),
-            model,
+            overriddenModel,
             COMPLETION_HANDLER,
-            inputs -> new LlamaChatCompletionRequest(new UnifiedChatInput(inputs, USER_ROLE), model),
+            inputs -> new LlamaChatCompletionRequest(new UnifiedChatInput(inputs, USER_ROLE), overriddenModel),
             ChatCompletionInput.class
         );
 
-        var errorMessage = buildErrorMessage(TaskType.COMPLETION, model.getInferenceEntityId());
+        var errorMessage = buildErrorMessage(TaskType.COMPLETION, overriddenModel.getInferenceEntityId());
         return new SingleInputSenderExecutableAction(sender, manager, errorMessage, COMPLETION_ERROR_PREFIX);
     }
 
 
@@ -11,6 +11,8 @@
 import org.elasticsearch.xpack.inference.services.llama.completion.LlamaChatCompletionModel;
 import org.elasticsearch.xpack.inference.services.llama.embeddings.LlamaEmbeddingsModel;
 
+import java.util.Map;
+
 /**
  * Visitor interface for creating executable actions for Llama inference models.
  * This interface defines methods to create actions for both embeddings and chat completion models.
@@ -20,15 +22,17 @@ public interface LlamaActionVisitor {
      * Creates an executable action for the given Llama embeddings model.
      *
      * @param model the Llama embeddings model
+     * @param taskSettings the settings for the task, which may include parameters like user
      * @return an executable action for the embeddings model
      */
-    ExecutableAction create(LlamaEmbeddingsModel model);
+    ExecutableAction create(LlamaEmbeddingsModel model, Map<String, Object> taskSettings);
 
     /**
      * Creates an executable action for the given Llama chat completion model.
      *
      * @param model the Llama chat completion model
+     * @param taskSettings the settings for the task, which may include parameters like user
      * @return an executable action for the chat completion model
      */
-    ExecutableAction create(LlamaChatCompletionModel model);
+    ExecutableAction create(LlamaChatCompletionModel model, Map<String, Object> taskSettings);
 }
@@ -7,7 +7,6 @@
 
 package org.elasticsearch.xpack.inference.services.llama.completion;
 
-import org.elasticsearch.inference.EmptyTaskSettings;
 import org.elasticsearch.inference.ModelConfigurations;
 import org.elasticsearch.inference.ModelSecrets;
 import org.elasticsearch.inference.SecretSettings;
@@ -17,6 +16,8 @@
 import org.elasticsearch.xpack.inference.services.ConfigurationParseContext;
 import org.elasticsearch.xpack.inference.services.llama.LlamaModel;
 import org.elasticsearch.xpack.inference.services.llama.action.LlamaActionVisitor;
+import org.elasticsearch.xpack.inference.services.openai.completion.OpenAiChatCompletionRequestTaskSettings;
+import org.elasticsearch.xpack.inference.services.openai.completion.OpenAiChatCompletionTaskSettings;
 
 import java.util.Map;
 
@@ -40,6 +41,7 @@ public LlamaChatCompletionModel(
         TaskType taskType,
         String service,
         Map<String, Object> serviceSettings,
+        Map<String, Object> taskSettings,
         Map<String, Object> secrets,
         ConfigurationParseContext context
     ) {
@@ -48,6 +50,7 @@ public LlamaChatCompletionModel(
             taskType,
             service,
             LlamaChatCompletionServiceSettings.fromMap(serviceSettings, context),
+            OpenAiChatCompletionTaskSettings.fromMap(taskSettings),
             retrieveSecretSettings(secrets)
         );
     }
@@ -65,15 +68,26 @@ public LlamaChatCompletionModel(
         TaskType taskType,
         String service,
         LlamaChatCompletionServiceSettings serviceSettings,
+        OpenAiChatCompletionTaskSettings taskSettings,
         SecretSettings secrets
     ) {
-        super(
-            new ModelConfigurations(inferenceEntityId, taskType, service, serviceSettings, EmptyTaskSettings.INSTANCE),
-            new ModelSecrets(secrets)
-        );
+        super(new ModelConfigurations(inferenceEntityId, taskType, service, serviceSettings, taskSettings), new ModelSecrets(secrets));
         setPropertiesFromServiceSettings(serviceSettings);
     }
 
+    public static LlamaChatCompletionModel of(LlamaChatCompletionModel model, Map<String, Object> taskSettings) {
+        if (taskSettings == null || taskSettings.isEmpty()) {
+            return model;
+        }
+
+        var requestTaskSettings = OpenAiChatCompletionRequestTaskSettings.fromMap(taskSettings);
+        return new LlamaChatCompletionModel(model, OpenAiChatCompletionTaskSettings.of(model.getTaskSettings(), requestTaskSettings));
+    }
+
+    private LlamaChatCompletionModel(LlamaChatCompletionModel originalModel, OpenAiChatCompletionTaskSettings taskSettings) {
+        super(originalModel, taskSettings);
+    }
+
     /**
      * Factory method to create a LlamaChatCompletionModel with overridden model settings based on the request.
      * If the request does not specify a model, the original model is returned.
@@ -100,6 +114,7 @@ public static LlamaChatCompletionModel of(LlamaChatCompletionModel model, Unifie
             model.getTaskType(),
             model.getConfigurations().getService(),
             overriddenServiceSettings,
+            model.getTaskSettings(),
             model.getSecretSettings()
         );
     }
@@ -126,7 +141,12 @@ public LlamaChatCompletionServiceSettings getServiceSettings() {
      * @return an ExecutableAction representing this model
      */
     @Override
-    public ExecutableAction accept(LlamaActionVisitor creator) {
-        return creator.create(this);
+    public ExecutableAction accept(LlamaActionVisitor creator, Map<String, Object> taskSettings) {
+        return creator.create(this, taskSettings);
+    }
+
+    @Override
+    public OpenAiChatCompletionTaskSettings getTaskSettings() {
+        return (OpenAiChatCompletionTaskSettings) super.getTaskSettings();
     }
 }