[flink] Implement SupportsWatermarkPushDown for FlinkTableSource

LiebingYu · LiebingYu · commit af3b3677e842 · 2026-04-01T12:48:09.000+08:00
diff --git a/fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/source/FlinkTableSource.java b/fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/source/FlinkTableSource.java
@@ -43,9 +43,12 @@
 import org.apache.fluss.types.RowType;
 
 import org.apache.flink.annotation.VisibleForTesting;
+import org.apache.flink.api.common.eventtime.WatermarkStrategy;
 import org.apache.flink.api.common.typeinfo.TypeInformation;
+import org.apache.flink.api.connector.source.Boundedness;
 import org.apache.flink.api.connector.source.Source;
 import org.apache.flink.streaming.api.datastream.DataStream;
+import org.apache.flink.streaming.api.datastream.DataStreamSource;
 import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
 import org.apache.flink.table.connector.ChangelogMode;
 import org.apache.flink.table.connector.ProviderContext;
@@ -60,6 +63,7 @@
 import org.apache.flink.table.connector.source.abilities.SupportsLimitPushDown;
 import org.apache.flink.table.connector.source.abilities.SupportsProjectionPushDown;
 import org.apache.flink.table.connector.source.abilities.SupportsRowLevelModificationScan;
+import org.apache.flink.table.connector.source.abilities.SupportsWatermarkPushDown;
 import org.apache.flink.table.connector.source.lookup.AsyncLookupFunctionProvider;
 import org.apache.flink.table.connector.source.lookup.LookupFunctionProvider;
 import org.apache.flink.table.connector.source.lookup.PartialCachingAsyncLookupProvider;
@@ -105,10 +109,13 @@ public class FlinkTableSource
                 LookupTableSource,
                 SupportsRowLevelModificationScan,
                 SupportsLimitPushDown,
-                SupportsAggregatePushDown {
+                SupportsAggregatePushDown,
+                SupportsWatermarkPushDown {
 
     public static final Logger LOG = LoggerFactory.getLogger(FlinkTableSource.class);
 
+    private static final String FLUSS_TRANSFORMATION = "fluss";
+
     private final TablePath tablePath;
     private final Configuration flussConfig;
     // output type before projection pushdown
@@ -155,6 +162,9 @@ public class FlinkTableSource
 
     @Nullable private LakeSource<LakeSplit> lakeSource;
 
+    /** Watermark strategy that is pushed down by the Flink optimizer. */
+    @Nullable private WatermarkStrategy<RowData> watermarkStrategy;
+
     public FlinkTableSource(
             TablePath tablePath,
             Configuration flussConfig,
@@ -373,7 +383,25 @@ public boolean isBounded() {
                 }
             };
         } else {
-            return SourceProvider.of(source);
+            return new DataStreamScanProvider() {
+                @Override
+                public DataStream<RowData> produceDataStream(
+                        ProviderContext providerContext, StreamExecutionEnvironment execEnv) {
+                    WatermarkStrategy<RowData> strategy =
+                            watermarkStrategy != null
+                                    ? watermarkStrategy
+                                    : WatermarkStrategy.noWatermarks();
+                    DataStreamSource<RowData> sourceStream =
+                            execEnv.fromSource(source, strategy, "FlussSource-" + tablePath);
+                    providerContext.generateUid(FLUSS_TRANSFORMATION).ifPresent(sourceStream::uid);
+                    return sourceStream;
+                }
+
+                @Override
+                public boolean isBounded() {
+                    return source.getBoundedness() == Boundedness.BOUNDED;
+                }
+            };
         }
     }
 
@@ -444,6 +472,7 @@ public DynamicTableSource copy() {
         source.modificationScanType = modificationScanType;
         source.partitionFilters = partitionFilters;
         source.lakeSource = lakeSource;
+        source.watermarkStrategy = watermarkStrategy;
         return source;
     }
 
@@ -466,6 +495,11 @@ public void applyProjection(int[][] projectedFields, DataType producedDataType)
         }
     }
 
+    @Override
+    public void applyWatermark(WatermarkStrategy<RowData> watermarkStrategy) {
+        this.watermarkStrategy = watermarkStrategy;
+    }
+
     @Override
     public Result applyFilters(List<ResolvedExpression> filters) {
 
diff --git a/fluss-flink/fluss-flink-common/src/test/java/org/apache/fluss/flink/source/FlinkTableSourceITCase.java b/fluss-flink/fluss-flink-common/src/test/java/org/apache/fluss/flink/source/FlinkTableSourceITCase.java
@@ -1150,6 +1150,52 @@ void testStreamingReadSinglePartitionPushDown() throws Exception {
         assertResultsIgnoreOrder(rowIter, expectedRowValues, true);
     }
 
+    @Test
+    void testStreamingReadPartitionPushDownWithWatermark() throws Exception {
+        tEnv.executeSql(
+                "create table watermark_partitioned_table"
+                        + " (a int not null, b varchar, ts timestamp(3),"
+                        + " c string,"
+                        + " primary key (a, c) NOT ENFORCED,"
+                        + " WATERMARK FOR ts AS ts - INTERVAL '5' SECOND)"
+                        + " partitioned by (c) ");
+        TablePath tablePath = TablePath.of(DEFAULT_DB, "watermark_partitioned_table");
+        tEnv.executeSql("alter table watermark_partitioned_table add partition (c=2025)");
+        tEnv.executeSql("alter table watermark_partitioned_table add partition (c=2026)");
+
+        // write data with 4 columns (a, b, ts, c), ts is nullable
+        List<InternalRow> rows = new ArrayList<>();
+        List<String> expectedRowValues = new ArrayList<>();
+        for (String partition : Arrays.asList("2025", "2026")) {
+            for (int i = 0; i < 10; i++) {
+                rows.add(row(i, "v1", null, partition));
+                if (partition.equals("2025")) {
+                    expectedRowValues.add(String.format("+I[%d, v1, %s]", i, partition));
+                }
+            }
+        }
+        writeRows(conn, tablePath, rows, false);
+        FLUSS_CLUSTER_EXTENSION.triggerAndWaitSnapshot(tablePath);
+
+        // verify partition filter is pushed down in the execution plan
+        String plan =
+                tEnv.explainSql("select a, b, c from watermark_partitioned_table where c ='2025'");
+        assertThat(plan)
+                .contains(
+                        "TableSourceScan(table=[[testcatalog, defaultdb, watermark_partitioned_table, "
+                                + "watermark=[-(ts, 5000:INTERVAL SECOND)], "
+                                + "watermarkEmitStrategy=[on-periodic], "
+                                + "filter=[=(c, _UTF-16LE'2025':VARCHAR(2147483647) CHARACTER SET \"UTF-16LE\")]]], "
+                                + "fields=[a, b, ts, c])");
+
+        // verify query results only contain data from the matching partition
+        org.apache.flink.util.CloseableIterator<Row> rowIter =
+                tEnv.executeSql("select a, b, c from watermark_partitioned_table where c ='2025'")
+                        .collect();
+
+        assertResultsIgnoreOrder(rowIter, expectedRowValues, true);
+    }
+
     @Test
     void testStreamingReadAllPartitionTypePushDown() throws Exception {
         tEnv.executeSql(
diff --git a/fluss-flink/fluss-flink-common/src/test/java/org/apache/fluss/flink/source/FlussSourceITCase.java b/fluss-flink/fluss-flink-common/src/test/java/org/apache/fluss/flink/source/FlussSourceITCase.java
@@ -33,15 +33,25 @@
 import org.apache.fluss.metadata.TablePath;
 import org.apache.fluss.row.GenericRow;
 import org.apache.fluss.row.InternalRow;
+import org.apache.fluss.types.DataTypes;
 import org.apache.fluss.types.RowType;
 
+import org.apache.flink.api.common.eventtime.Watermark;
+import org.apache.flink.api.common.eventtime.WatermarkGenerator;
+import org.apache.flink.api.common.eventtime.WatermarkOutput;
 import org.apache.flink.api.common.eventtime.WatermarkStrategy;
+import org.apache.flink.api.common.functions.MapFunction;
+import org.apache.flink.api.common.typeinfo.TypeInformation;
 import org.apache.flink.streaming.api.datastream.DataStreamSource;
 import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
+import org.apache.flink.streaming.api.functions.ProcessFunction;
+import org.apache.flink.streaming.api.operators.StreamMap;
+import org.apache.flink.streaming.runtime.streamrecord.StreamRecord;
 import org.apache.flink.table.data.GenericRowData;
 import org.apache.flink.table.data.RowData;
 import org.apache.flink.table.data.StringData;
 import org.apache.flink.types.RowKind;
+import org.apache.flink.util.Collector;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
 
@@ -266,6 +276,149 @@ public void testTableLogSourceWithProjectionPushdown() throws Exception {
         assertThat(collectedElements).hasSameElementsAs(expectedOutput);
     }
 
+    /** Verifies that event-time timestamps are correctly assigned via WatermarkStrategy. */
+    @Test
+    void testTimestamp() throws Exception {
+        // 1. Create Fluss log table
+        String tableName = "wm_timestamp_test";
+        TablePath tablePath = TablePath.of(DEFAULT_DB, tableName);
+        Schema schema =
+                Schema.newBuilder()
+                        .column("id", DataTypes.INT())
+                        .column("name", DataTypes.STRING())
+                        .column("event_time", DataTypes.BIGINT())
+                        .build();
+        createTable(tablePath, TableDescriptor.builder().schema(schema).distributedBy(1).build());
+
+        // 2. Write 3 records with known event_time values
+        final long currentTimestamp = System.currentTimeMillis();
+        List<InternalRow> rows =
+                Arrays.asList(
+                        row(1, "name1", currentTimestamp + 1L),
+                        row(2, "name2", currentTimestamp + 2L),
+                        row(3, "name3", currentTimestamp + 3L));
+        writeRows(conn, tablePath, rows, true);
+
+        // 3. Build FlussSource and apply WatermarkStrategy with TimestampAssigner
+        FlussSource<RowData> source =
+                FlussSource.<RowData>builder()
+                        .setBootstrapServers(bootstrapServers)
+                        .setDatabase(DEFAULT_DB)
+                        .setTable(tableName)
+                        .setStartingOffsets(OffsetsInitializer.earliest())
+                        .setDeserializationSchema(new RowDataDeserializationSchema())
+                        .build();
+
+        env.setParallelism(1);
+        DataStreamSource<RowData> stream =
+                env.fromSource(
+                        source,
+                        WatermarkStrategy.<RowData>noWatermarks()
+                                .withTimestampAssigner(
+                                        (rowData, ts) -> rowData.getLong(2)), // event_time column
+                        "testTimestamp");
+
+        // Verify that the timestamp and watermark are working fine.
+        List<Long> result =
+                stream.transform(
+                                "timestampVerifier",
+                                TypeInformation.of(Long.class),
+                                new WatermarkVerifyingOperator(v -> v.getLong(2)))
+                        .executeAndCollect(3);
+        assertThat(result)
+                .containsExactlyInAnyOrder(
+                        currentTimestamp + 1L, currentTimestamp + 2L, currentTimestamp + 3L);
+    }
+
+    /** Verifies per-bucket (per-split) watermark multiplexing correctness. */
+    @Test
+    void testPerBucketWatermark() throws Exception {
+        // 1. Create 2-bucket Fluss log table
+        String tableName = "wm_per_bucket_test";
+        TablePath tablePath = TablePath.of(DEFAULT_DB, tableName);
+        Schema schema =
+                Schema.newBuilder()
+                        .column("id", DataTypes.INT())
+                        .column("name", DataTypes.STRING())
+                        .column("ts", DataTypes.BIGINT())
+                        .build();
+        createTable(tablePath, TableDescriptor.builder().schema(schema).distributedBy(2).build());
+
+        // 2. Write 6 records with interleaved timestamps
+        List<InternalRow> rows =
+                Arrays.asList(
+                        row(1, "a", 100L),
+                        row(2, "b", 150L),
+                        row(3, "c", 200L),
+                        row(4, "d", 250L),
+                        row(5, "e", 300L),
+                        row(6, "f", 350L));
+        writeRows(conn, tablePath, rows, true);
+
+        // 3. Build FlussSource and apply per-split WatermarkStrategy
+        FlussSource<RowData> source =
+                FlussSource.<RowData>builder()
+                        .setBootstrapServers(bootstrapServers)
+                        .setDatabase(DEFAULT_DB)
+                        .setTable(tableName)
+                        .setStartingOffsets(OffsetsInitializer.earliest())
+                        .setDeserializationSchema(new RowDataDeserializationSchema())
+                        .build();
+
+        env.setParallelism(1);
+
+        // 4. Assert per-split watermark ordering via ProcessFunction
+        env.fromSource(
+                        source,
+                        WatermarkStrategy.forGenerator(ctx -> new OnEventWatermarkGenerator())
+                                .withTimestampAssigner(
+                                        (rowData, ts) -> rowData.getLong(2)), // ts column
+                        "testPerPartitionWatermark")
+                .process(
+                        new ProcessFunction<RowData, Object>() {
+                            @Override
+                            public void processElement(
+                                    RowData value,
+                                    ProcessFunction<RowData, Object>.Context ctx,
+                                    Collector<Object> out) {
+                                assertThat(ctx.timestamp())
+                                        .as(
+                                                "Event time should never behind watermark "
+                                                        + "because of per-split watermark multiplexing logic")
+                                        .isGreaterThanOrEqualTo(
+                                                ctx.timerService().currentWatermark());
+                                out.collect(ctx.timestamp());
+                            }
+                        })
+                .executeAndCollect(6);
+    }
+
+    /** A StreamMap that verifies the watermark logic. */
+    private static class WatermarkVerifyingOperator extends StreamMap<RowData, Long> {
+
+        private static final long serialVersionUID = 1L;
+
+        public WatermarkVerifyingOperator(MapFunction<RowData, Long> mapper) {
+            super(mapper);
+        }
+
+        @Override
+        public void processElement(StreamRecord<RowData> element) {
+            output.collect(new StreamRecord<>(element.getTimestamp()));
+        }
+    }
+
+    /** A WatermarkGenerator that emits a watermark equal to the event timestamp on each event. */
+    private static class OnEventWatermarkGenerator implements WatermarkGenerator<RowData> {
+        @Override
+        public void onEvent(RowData event, long eventTimestamp, WatermarkOutput output) {
+            output.emitWatermark(new Watermark(eventTimestamp));
+        }
+
+        @Override
+        public void onPeriodicEmit(WatermarkOutput output) {}
+    }
+
     private static RowData createRowData(
             Long orderId, Long itemId, Integer amount, String address, RowKind rowKind) {
         GenericRowData row = new GenericRowData(4);
diff --git a/fluss-flink/fluss-flink-common/src/test/java/org/apache/fluss/flink/utils/FlinkTestBase.java b/fluss-flink/fluss-flink-common/src/test/java/org/apache/fluss/flink/utils/FlinkTestBase.java
@@ -57,6 +57,7 @@
 import java.util.Optional;
 import java.util.Set;
 
+import static org.apache.fluss.config.ConfigOptions.NoKeyAssigner.ROUND_ROBIN;
 import static org.apache.fluss.server.utils.TableAssignmentUtils.generateAssignment;
 import static org.apache.fluss.testutils.DataTestUtils.row;
 import static org.apache.fluss.testutils.common.CommonTestUtils.waitValue;
@@ -149,6 +150,7 @@ public class FlinkTestBase extends AbstractTestBase {
     @BeforeAll
     protected static void beforeAll() {
         clientConf = FLUSS_CLUSTER_EXTENSION.getClientConfig();
+        clientConf.set(ConfigOptions.CLIENT_WRITER_BUCKET_NO_KEY_ASSIGNER, ROUND_ROBIN);
         bootstrapServers = FLUSS_CLUSTER_EXTENSION.getBootstrapServers();
         conn = ConnectionFactory.createConnection(clientConf);
         admin = conn.getAdmin();