MLE-26966 Added Nuclia metadata

rjrudin · rjrudin · commit 9234a41933e6 · 2026-02-04T16:22:22.000-05:00
In the next PR, going to turn NucliaClient into an interface so we can mock it in tests. That will allows us to verify how the metadata is handled without having to connect to Nuclia.
diff --git a/marklogic-spark-connector/src/main/java/com/marklogic/spark/core/ChunkInputs.java b/marklogic-spark-connector/src/main/java/com/marklogic/spark/core/ChunkInputs.java
@@ -3,6 +3,8 @@
  */
 package com.marklogic.spark.core;
 
+import com.fasterxml.jackson.databind.JsonNode;
+
 /**
  * Encapsulates the data associated with a chunk of text, including its embedding and classification. Note there's
  * some naming issues to work out with this class and the Chunk interface.
@@ -13,6 +15,7 @@ public class ChunkInputs {
     private float[] embedding;
     private byte[] classification;
     private String modelName;
+    private JsonNode metadata;
 
     public ChunkInputs(String text) {
         this.text = text;
@@ -45,4 +48,12 @@ public String getModelName() {
     public void setModelName(String modelName) {
         this.modelName = modelName;
     }
+
+    public JsonNode getMetadata() {
+        return metadata;
+    }
+
+    public void setMetadata(JsonNode metadata) {
+        this.metadata = metadata;
+    }
 }
diff --git a/marklogic-spark-connector/src/main/java/com/marklogic/spark/core/DocumentInputs.java b/marklogic-spark-connector/src/main/java/com/marklogic/spark/core/DocumentInputs.java
@@ -157,14 +157,15 @@ public void setChunks(List<String> chunks) {
     }
 
     /**
-     * Adds a chunk with its embedding and model name. This is useful for workflows like Nuclia where
+     * Adds a chunk with its embedding, model name, and metadata. This is useful for workflows like Nuclia where
      * chunks and embeddings are received together.
      *
-     * @param text the chunk text
+     * @param text      the chunk text
      * @param embedding the embedding vector (can be null)
      * @param modelName the model name (can be null)
+     * @param metadata  the metadata as a JsonNode (can be null)
      */
-    public void addChunk(String text, float[] embedding, String modelName) {
+    public void addChunk(String text, float[] embedding, String modelName, JsonNode metadata) {
         if (chunkInputsList == null) {
             chunkInputsList = new ArrayList<>();
         }
@@ -173,6 +174,7 @@ public void addChunk(String text, float[] embedding, String modelName) {
             chunkInputs.setEmbedding(embedding);
             chunkInputs.setModelName(modelName);
         }
+        chunkInputs.setMetadata(metadata);
         chunkInputsList.add(chunkInputs);
     }
 
diff --git a/marklogic-spark-connector/src/main/java/com/marklogic/spark/core/nuclia/NucliaDocumentProcessor.java b/marklogic-spark-connector/src/main/java/com/marklogic/spark/core/nuclia/NucliaDocumentProcessor.java
@@ -3,6 +3,7 @@
  */
 package com.marklogic.spark.core.nuclia;
 
+import com.fasterxml.jackson.databind.JsonNode;
 import com.fasterxml.jackson.databind.node.ObjectNode;
 import com.marklogic.spark.Util;
 import com.marklogic.spark.core.DocumentInputs;
@@ -94,6 +95,7 @@ private String extractTextFromNucliaNode(ObjectNode node) {
      * {
      *   "type": "Chunk",
      *   "text": "chunk text content...",
+     *   "metadata": { ... },
      *   "embeddings": [
      *     {
      *       "id": "multilingual-2024-05-06",
@@ -110,6 +112,9 @@ private void addChunkFromNucliaNode(ObjectNode node, DocumentInputs input) {
             return;
         }
 
+        // Extract metadata as JsonNode if present
+        JsonNode metadata = node.has("metadata") ? node.get("metadata") : null;
+
         // Process each embedding in the array
         if (node.has("embeddings") && node.get("embeddings").isArray()) {
             var embeddingsArray = node.get("embeddings");
@@ -132,11 +137,11 @@ private void addChunkFromNucliaNode(ObjectNode node, DocumentInputs input) {
                     modelName = embeddingObj.get("id").asText();
                 }
 
-                input.addChunk(text, embedding, modelName);
+                input.addChunk(text, embedding, modelName, metadata);
             }
         } else {
-            // No embeddings, still add the chunk with just text
-            input.addChunk(text, null, null);
+            // No embeddings, still add the chunk with just text and metadata
+            input.addChunk(text, null, null, metadata);
         }
     }
 
diff --git a/marklogic-spark-connector/src/main/java/com/marklogic/spark/core/splitter/JsonChunkDocumentProducer.java b/marklogic-spark-connector/src/main/java/com/marklogic/spark/core/splitter/JsonChunkDocumentProducer.java
@@ -54,6 +54,9 @@ protected DocumentWriteOperation addChunksToSourceDocument() {
                     throw new ConnectorException(String.format("Unable to classify data from document with URI: %s; cause: %s", sourceDocument.getUri(), e.getMessage()), e);
                 }
             }
+            if (chunkInputs.getMetadata() != null) {
+                chunk.set("chunk-metadata", chunkInputs.getMetadata());
+            }
             var jsonChunk = new JsonChunk(chunk, null, chunkConfig.getEmbeddingName(), chunkConfig.isBase64EncodeVectors());
             if (chunkInputs.getEmbedding() != null) {
                 jsonChunk.addEmbedding(chunkInputs.getEmbedding(), chunkInputs.getModelName());
@@ -91,6 +94,9 @@ protected DocumentWriteOperation makeChunkDocument() {
                     throw new ConnectorException(String.format("Unable to classify data from document with URI: %s; cause: %s", uri, e.getMessage()), e);
                 }
             }
+            if (chunkInputs.getMetadata() != null) {
+                chunk.set("chunk-metadata", chunkInputs.getMetadata());
+            }
             var jsonChunk = new JsonChunk(chunk, null, chunkConfig.getEmbeddingName(), chunkConfig.isBase64EncodeVectors());
             if (chunkInputs.getEmbedding() != null) {
                 jsonChunk.addEmbedding(chunkInputs.getEmbedding(), chunkInputs.getModelName());
diff --git a/marklogic-spark-connector/src/main/java/com/marklogic/spark/core/splitter/XmlChunkDocumentProducer.java b/marklogic-spark-connector/src/main/java/com/marklogic/spark/core/splitter/XmlChunkDocumentProducer.java
@@ -65,19 +65,18 @@ protected DocumentWriteOperation makeChunkDocument() {
         Element chunksElement = doc.createElementNS(chunkConfig.getXmlNamespace(), DEFAULT_CHUNKS_ELEMENT_NAME);
         root.appendChild(chunksElement);
 
-        List<Chunk> chunks = new ArrayList<>();
+        List<Chunk> addedChunks = new ArrayList<>();
         for (int i = 0; i < this.maxChunksPerDocument && hasNext(); i++) {
             ChunkInputs chunkInputs = chunkInputsList.get(listIndex);
-            Element classificationResponseNode = chunkInputs.getClassification() != null ?
-                getClassificationResponseElement(chunkInputs.getClassification()) : null;
-            addChunk(doc, chunkInputs.getText(), chunksElement, chunks, classificationResponseNode, chunkInputs.getEmbedding(), chunkInputs.getModelName());
+            DOMChunk chunk = addChunk(doc, chunkInputs, chunksElement);
+            addedChunks.add(chunk);
             listIndex++;
         }
 
         final String chunkDocumentUri = makeChunkDocumentUri(sourceDocument, "xml");
         return new DocumentAndChunks(
             new DocumentWriteOperationImpl(chunkDocumentUri, chunkConfig.getMetadata(), new DOMHandle(doc)),
-            chunks
+            addedChunks
         );
     }
 
@@ -87,16 +86,15 @@ protected DocumentWriteOperation addChunksToSourceDocument() {
         Element chunksElement = doc.createElementNS(chunkConfig.getXmlNamespace(), determineChunksElementName(doc));
         doc.getDocumentElement().appendChild(chunksElement);
 
-        List<Chunk> chunks = new ArrayList<>();
+        List<Chunk> addedChunks = new ArrayList<>();
         for (ChunkInputs chunkInputs : chunkInputsList) {
-            Element classificationResponseNode = chunkInputs.getClassification() != null ?
-                getClassificationResponseElement(chunkInputs.getClassification()) : null;
-            addChunk(doc, chunkInputs.getText(), chunksElement, chunks, classificationResponseNode, chunkInputs.getEmbedding(), chunkInputs.getModelName());
+            DOMChunk chunk = addChunk(doc, chunkInputs, chunksElement);
+            addedChunks.add(chunk);
         }
 
         return new DocumentAndChunks(
             new DocumentWriteOperationImpl(sourceDocument.getUri(), sourceDocument.getMetadata(), new DOMHandle(doc)),
-            chunks
+            addedChunks
         );
     }
 
@@ -110,15 +108,16 @@ private Element getClassificationResponseElement(byte[] classificationBytes) {
         }
     }
 
-    private void addChunk(Document doc, String textSegment, Element chunksElement, List<Chunk> chunks, Element classificationResponse, float[] embedding, String modelName) {
+    private DOMChunk addChunk(Document doc, ChunkInputs chunkInputs, Element chunksElement) {
         Element chunk = doc.createElementNS(chunkConfig.getXmlNamespace(), "chunk");
         chunksElement.appendChild(chunk);
 
         Element text = doc.createElementNS(chunkConfig.getXmlNamespace(), "text");
-        text.setTextContent(textSegment);
+        text.setTextContent(chunkInputs.getText());
         chunk.appendChild(text);
 
-        if (classificationResponse != null) {
+        if (chunkInputs.getClassification() != null) {
+            Element classificationResponse = getClassificationResponseElement(chunkInputs.getClassification());
             Node classificationNode = doc.createElement("classification");
             chunk.appendChild(classificationNode);
             for (int i = 0; i < classificationResponse.getChildNodes().getLength(); i++) {
@@ -127,11 +126,21 @@ private void addChunk(Document doc, String textSegment, Element chunksElement, L
             }
         }
 
+        if (chunkInputs.getMetadata() != null) {
+            Element metadataElement = doc.createElementNS(chunkConfig.getXmlNamespace(), "chunk-metadata");
+            // Re: possibly converting JSON to XML - Copilot recommends using the serialized string, as there's no
+            // "correct" way for converting JSON to XML, particularly in regard to arrays. If the user wants XML
+            // documents, they can always e.g. use a REST transform to determine how they want to represent the JSON
+            // as XML.
+            metadataElement.setTextContent(chunkInputs.getMetadata().toString());
+            chunk.appendChild(metadataElement);
+        }
+
         var domChunk = new DOMChunk(doc, chunk, this.xmlChunkConfig, this.xPathFactory);
-        if (embedding != null) {
-            domChunk.addEmbedding(embedding, modelName);
+        if (chunkInputs.getEmbedding() != null) {
+            domChunk.addEmbedding(chunkInputs.getEmbedding(), chunkInputs.getModelName());
         }
-        chunks.add(domChunk);
+        return domChunk;
     }
 
     private String determineChunksElementName(Document doc) {
diff --git a/marklogic-spark-connector/src/main/resources/marklogic-spark-messages.properties b/marklogic-spark-connector/src/main/resources/marklogic-spark-messages.properties
@@ -22,6 +22,3 @@ spark.marklogic.write.splitter.sidecar.maxChunks=
 spark.marklogic.write.embedder.chunks.jsonPointer=
 spark.marklogic.write.embedder.chunks.xpath=
 spark.marklogic.write.embedder.batchSize=
-spark.marklogic.write.nuclia.apikey=
-spark.marklogic.write.nuclia.kbid=
-spark.marklogic.write.nuclia.region=

Original file line number	Diff line number	Diff line change
`@@ -157,14 +157,15 @@ public void setChunks(List<String> chunks) {`
`157`	`157`	`}`
`158`	`158`
`159`	`159`	`/**`
`160`		`- * Adds a chunk with its embedding and model name. This is useful for workflows like Nuclia where`
	`160`	`+ * Adds a chunk with its embedding, model name, and metadata. This is useful for workflows like Nuclia where`
`161`	`161`	`* chunks and embeddings are received together.`
`162`	`162`	`*`
`163`		`- * @param text the chunk text`
	`163`	`+ * @param text the chunk text`
`164`	`164`	`* @param embedding the embedding vector (can be null)`
`165`	`165`	`* @param modelName the model name (can be null)`
	`166`	`+ * @param metadata the metadata as a JsonNode (can be null)`
`166`	`167`	`*/`
`167`		`- public void addChunk(String text, float[] embedding, String modelName) {`
	`168`	`+ public void addChunk(String text, float[] embedding, String modelName, JsonNode metadata) {`
`168`	`169`	`if (chunkInputsList == null) {`
`169`	`170`	`chunkInputsList = new ArrayList<>();`
`170`	`171`	`}`
`@@ -173,6 +174,7 @@ public void addChunk(String text, float[] embedding, String modelName) {`
`173`	`174`	`chunkInputs.setEmbedding(embedding);`
`174`	`175`	`chunkInputs.setModelName(modelName);`
`175`	`176`	`}`
	`177`	`+ chunkInputs.setMetadata(metadata);`
`176`	`178`	`chunkInputsList.add(chunkInputs);`
`177`	`179`	`}`
`178`	`180`
Original file line number	Diff line number	Diff line change
`@@ -54,6 +54,9 @@ protected DocumentWriteOperation addChunksToSourceDocument() {`
`54`	`54`	`throw new ConnectorException(String.format("Unable to classify data from document with URI: %s; cause: %s", sourceDocument.getUri(), e.getMessage()), e);`
`55`	`55`	`}`
`56`	`56`	`}`
	`57`	`+ if (chunkInputs.getMetadata() != null) {`
	`58`	`+ chunk.set("chunk-metadata", chunkInputs.getMetadata());`
	`59`	`+ }`
`57`	`60`	`var jsonChunk = new JsonChunk(chunk, null, chunkConfig.getEmbeddingName(), chunkConfig.isBase64EncodeVectors());`
`58`	`61`	`if (chunkInputs.getEmbedding() != null) {`
`59`	`62`	`jsonChunk.addEmbedding(chunkInputs.getEmbedding(), chunkInputs.getModelName());`
`@@ -91,6 +94,9 @@ protected DocumentWriteOperation makeChunkDocument() {`
`91`	`94`	`throw new ConnectorException(String.format("Unable to classify data from document with URI: %s; cause: %s", uri, e.getMessage()), e);`
`92`	`95`	`}`
`93`	`96`	`}`
	`97`	`+ if (chunkInputs.getMetadata() != null) {`
	`98`	`+ chunk.set("chunk-metadata", chunkInputs.getMetadata());`
	`99`	`+ }`
`94`	`100`	`var jsonChunk = new JsonChunk(chunk, null, chunkConfig.getEmbeddingName(), chunkConfig.isBase64EncodeVectors());`
`95`	`101`	`if (chunkInputs.getEmbedding() != null) {`
`96`	`102`	`jsonChunk.addEmbedding(chunkInputs.getEmbedding(), chunkInputs.getModelName());`