opensearch-project
diff --git a/‎modules/parquet-data-format/benchmarks/src/main/java/com/parquet/parquetdataformat/benchmark/ParquetWriterCloseBenchmark.java‎
Lines changed: 1 addition & 1 deletion b/‎modules/parquet-data-format/benchmarks/src/main/java/com/parquet/parquetdataformat/benchmark/ParquetWriterCloseBenchmark.java‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎modules/parquet-data-format/benchmarks/src/main/java/com/parquet/parquetdataformat/benchmark/ParquetWriterCreateBenchmark.java‎
Lines changed: 1 addition & 1 deletion b/‎modules/parquet-data-format/benchmarks/src/main/java/com/parquet/parquetdataformat/benchmark/ParquetWriterCreateBenchmark.java‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎modules/parquet-data-format/benchmarks/src/main/java/com/parquet/parquetdataformat/benchmark/ParquetWriterWriteBenchmark.java‎
Lines changed: 1 addition & 1 deletion b/‎modules/parquet-data-format/benchmarks/src/main/java/com/parquet/parquetdataformat/benchmark/ParquetWriterWriteBenchmark.java‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/bridge/NativeParquetWriter.java‎
Lines changed: 5 additions & 2 deletions b/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/bridge/NativeParquetWriter.java‎
Lines changed: 5 additions & 2 deletions
diff --git a/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/bridge/RustBridge.java‎
Lines changed: 2 additions & 2 deletions b/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/bridge/RustBridge.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/engine/ParquetExecutionEngine.java‎
Lines changed: 14 additions & 2 deletions b/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/engine/ParquetExecutionEngine.java‎
Lines changed: 14 additions & 2 deletions
diff --git a/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/merge/ParquetMergeExecutor.java‎
Lines changed: 4 additions & 8 deletions b/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/merge/ParquetMergeExecutor.java‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/merge/ParquetMergeStrategy.java‎
Lines changed: 3 additions & 3 deletions b/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/merge/ParquetMergeStrategy.java‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/merge/ParquetMergeStrategyFactory.java‎
Lines changed: 1 addition & 1 deletion b/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/merge/ParquetMergeStrategyFactory.java‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/merge/ParquetMerger.java‎
Lines changed: 2 additions & 6 deletions b/‎modules/parquet-data-format/src/main/java/com/parquet/parquetdataformat/merge/ParquetMerger.java‎
Lines changed: 2 additions & 6 deletions
@@ -60,7 +60,7 @@ public void setup() throws IOException {
         writerCreationBenchmarkData = generator.generate("simple", fieldCount, 0);
         writerWriteBenchmarkData = generator.generate("simple", fieldCount, recordCount);
         filePath = generateTempFilePath();
-        RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress());
+        RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress(), "sortColumn", false);
         RustBridge.write(filePath, writerWriteBenchmarkData.getArrowArray().memoryAddress(), writerWriteBenchmarkData.getArrowSchema().memoryAddress());
     }
 
 
@@ -81,7 +81,7 @@ public void tearDown() throws IOException {
     @Benchmark
     public void benchmarkCreate() throws IOException {
         // This is what we're benchmarking - just writer creation
-        RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress());
+        RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress(), null, false);
     }
 
     private String generateTempFilePath() {
 
@@ -39,7 +39,7 @@ public void setup() throws IOException {
         writerCreationBenchmarkData = generator.generate("simple", fieldCount, 0);
         writerWriteBenchmarkData = generator.generate("simple", fieldCount, recordCount);
         filePath = generateTempFilePath();
-        RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress());
+        RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress(), null, false);
     }
 
     @Benchmark
 
@@ -23,12 +23,15 @@ public class NativeParquetWriter implements Closeable {
     /**
      * Creates a new native Parquet writer.
      * @param filePath path to the Parquet file
+     * @param indexName name of the index (used for settings lookup)
      * @param schemaAddress Arrow C Data Interface schema pointer
+     * @param sortColumn column to sort by
+     * @param reverseSort whether to sort in reverse order
      * @throws IOException if writer creation fails
      */
-    public NativeParquetWriter(String filePath, String indexName, long schemaAddress) throws IOException {
+    public NativeParquetWriter(String filePath, String indexName, long schemaAddress, String sortColumn, boolean reverseSort) throws IOException {
         this.filePath = filePath;
-        RustBridge.createWriter(filePath, indexName, schemaAddress);
+        RustBridge.createWriter(filePath, indexName, schemaAddress, sortColumn, reverseSort);
     }
 
     /**
 
@@ -29,7 +29,7 @@ public class RustBridge {
     public static native void initLogger();
 
     // Enhanced native methods that handle validation and provide better error reporting
-    public static native void createWriter(String file, String indexName, long schemaAddress) throws IOException;
+    public static native void createWriter(String file, String indexName, long schemaAddress, String sortColumn, boolean reverseSort) throws IOException;
     public static native void write(String file, long arrayAddress, long schemaAddress) throws IOException;
     public static native ParquetFileMetadata closeWriter(String file) throws IOException;
     public static native void flushToDisk(String file) throws IOException;
@@ -42,5 +42,5 @@ public class RustBridge {
 
 
     // Native method declarations - these will be implemented in the JNI library
-    public static native void mergeParquetFilesInRust(List<Path> inputFiles, String outputFile, String indexName);
+    public static native void mergeParquetFilesInRust(List<Path> inputFiles, String outputFile, String indexName, String sortKey, boolean isReverse);
 }
@@ -77,6 +77,8 @@ public class ParquetExecutionEngine implements IndexingExecutionEngine<ParquetDa
     private final ParquetMerger parquetMerger;
     private final ArrowBufferPool arrowBufferPool;
     private final IndexSettings indexSettings;
+    private volatile String sortColumn;
+    private volatile boolean reverseSort;
     private final boolean isPrimaryEngine;
 
     public ParquetExecutionEngine(
@@ -90,7 +92,7 @@ public ParquetExecutionEngine(
         this.shardPath = shardPath;
         this.arrowBufferPool = new ArrowBufferPool(settings);
         this.indexSettings = indexSettings;
-        this.parquetMerger = new ParquetMergeExecutor(CompactionStrategy.RECORD_BATCH, indexSettings.getIndex().getName());
+        this.parquetMerger = new ParquetMergeExecutor(CompactionStrategy.RECORD_BATCH);
         this.isPrimaryEngine = isPrimaryEngine;
         // Push current settings to Rust store once on construction, then keep in sync on updates
         pushSettingsToRust(indexSettings);
@@ -108,6 +110,16 @@ public ParquetExecutionEngine(
 //        );
     }
 
+    @Override
+    public void setSortColumn(String sortColumn) {
+        this.sortColumn = sortColumn;
+    }
+
+    @Override
+    public void setReverseSort(boolean reverseSort) {
+        this.reverseSort = reverseSort;
+    }
+
     private void pushSettingsToRust(IndexSettings indexSettings) {
         NativeSettings config = new NativeSettings();
         config.setIndexName(indexSettings.getIndex().getName());
@@ -155,7 +167,7 @@ public List<String> supportedFieldTypes(boolean isPrimaryEngine) {
     public Writer<ParquetDocumentInput> createWriter(long writerGeneration) {
         String fileName = Path.of(shardPath.getDataPath().toString(), getDataFormat().name(), FILE_NAME_PREFIX + "_" + writerGeneration + FILE_NAME_EXT).toString();
         EngineRole role = isPrimaryEngine ? EngineRole.PRIMARY : EngineRole.SECONDARY;
-        return new ParquetWriter(fileName, schema.get(), writerGeneration, arrowBufferPool, indexSettings, role);
+        return new ParquetWriter(fileName, schema.get(), writerGeneration, arrowBufferPool, indexSettings, sortColumn, reverseSort, role);
     }
 
     @Override
 
@@ -8,25 +8,21 @@
 
 package com.parquet.parquetdataformat.merge;
 
-import org.opensearch.index.engine.exec.WriterFileSet;
+import org.opensearch.index.engine.exec.merge.MergeInput;
 import org.opensearch.index.engine.exec.merge.MergeResult;
-import java.util.List;
-
 /**
  * Executes Parquet merge operations using a chosen compaction strategy.
  */
 public class ParquetMergeExecutor extends ParquetMerger {
 
     private final ParquetMergeStrategy strategy;
-    private final String indexName;
 
-    public ParquetMergeExecutor(CompactionStrategy compactionStrategy, String indexName) {
+    public ParquetMergeExecutor(CompactionStrategy compactionStrategy) {
         this.strategy = ParquetMergeStrategyFactory.getStrategy(compactionStrategy);
-        this.indexName = indexName;
     }
 
     @Override
-    public MergeResult merge(List<WriterFileSet> fileMetadataList, long writerGeneration) {
-        return strategy.mergeParquetFiles(fileMetadataList, writerGeneration, indexName);
+    public MergeResult merge(MergeInput mergeInput) {
+        return strategy.mergeParquetFiles(mergeInput);
     }
 }
@@ -8,9 +8,9 @@
 
 package com.parquet.parquetdataformat.merge;
 
-import org.opensearch.index.engine.exec.WriterFileSet;
+
+import org.opensearch.index.engine.exec.merge.MergeInput;
 import org.opensearch.index.engine.exec.merge.MergeResult;
-import java.util.List;
 
 /**
  * Interface defining a Parquet merge strategy.
@@ -20,6 +20,6 @@ public interface ParquetMergeStrategy {
     /**
      * Performs the actual Parquet merge.
      */
-    MergeResult mergeParquetFiles(List<WriterFileSet> files, long writerGeneration, String indexName);
+    MergeResult mergeParquetFiles(MergeInput mergeInput);
 
 }
@@ -17,7 +17,7 @@ public static ParquetMergeStrategy getStrategy(CompactionStrategy compactionStra
         switch (compactionStrategy) {
             case RECORD_BATCH:
             default:
-                return new RecordBatchMergeStrategy();
+                return new StreamingParquetMergeStrategy();
         }
     }
 }
@@ -8,18 +8,14 @@
 
 package com.parquet.parquetdataformat.merge;
 
-import org.opensearch.index.engine.exec.FileMetadata;
+import org.opensearch.index.engine.exec.merge.MergeInput;
 import org.opensearch.index.engine.exec.Merger;
-import org.opensearch.index.engine.exec.WriterFileSet;
 import org.opensearch.index.engine.exec.merge.MergeResult;
 import org.opensearch.index.engine.exec.merge.RowIdMapping;
 
-import java.util.Collection;
-import java.util.List;
-
 public abstract class ParquetMerger implements Merger {
     @Override
-    public MergeResult merge(List<WriterFileSet> fileMetadataList, RowIdMapping rowIdMapping, long writerGeneration) {
+    public MergeResult merge(MergeInput mergeInput, RowIdMapping rowIdMapping) {
         throw new UnsupportedOperationException("Not supported parquet as secondary data format yet.");
     }
 }
Original file line number	Diff line number	Diff line change
`@@ -60,7 +60,7 @@ public void setup() throws IOException {`
`60`	`60`	`writerCreationBenchmarkData = generator.generate("simple", fieldCount, 0);`
`61`	`61`	`writerWriteBenchmarkData = generator.generate("simple", fieldCount, recordCount);`
`62`	`62`	`filePath = generateTempFilePath();`
`63`		`- RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress());`
	`63`	`+ RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress(), "sortColumn", false);`
`64`	`64`	`RustBridge.write(filePath, writerWriteBenchmarkData.getArrowArray().memoryAddress(), writerWriteBenchmarkData.getArrowSchema().memoryAddress());`
`65`	`65`	`}`
`66`	`66`
Original file line number	Diff line number	Diff line change
`@@ -81,7 +81,7 @@ public void tearDown() throws IOException {`
`81`	`81`	`@Benchmark`
`82`	`82`	`public void benchmarkCreate() throws IOException {`
`83`	`83`	`// This is what we're benchmarking - just writer creation`
`84`		`- RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress());`
	`84`	`+ RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress(), null, false);`
`85`	`85`	`}`
`86`	`86`
`87`	`87`	`private String generateTempFilePath() {`
Original file line number	Diff line number	Diff line change
`@@ -39,7 +39,7 @@ public void setup() throws IOException {`
`39`	`39`	`writerCreationBenchmarkData = generator.generate("simple", fieldCount, 0);`
`40`	`40`	`writerWriteBenchmarkData = generator.generate("simple", fieldCount, recordCount);`
`41`	`41`	`filePath = generateTempFilePath();`
`42`		`- RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress());`
	`42`	`+ RustBridge.createWriter(filePath, "benchmark-index", writerCreationBenchmarkData.getArrowSchema().memoryAddress(), null, false);`
`43`	`43`	`}`
`44`	`44`
`45`	`45`	`@Benchmark`
Original file line number	Diff line number	Diff line change
`@@ -17,7 +17,7 @@ public static ParquetMergeStrategy getStrategy(CompactionStrategy compactionStra`
`17`	`17`	`switch (compactionStrategy) {`
`18`	`18`	`case RECORD_BATCH:`
`19`	`19`	`default:`
`20`		`- return new RecordBatchMergeStrategy();`
	`20`	`+ return new StreamingParquetMergeStrategy();`
`21`	`21`	`}`
`22`	`22`	`}`
`23`	`23`	`}`