PostHog
diff --git a/‎METRICS.md‎
Lines changed: 146 additions & 237 deletions b/‎METRICS.md‎
Lines changed: 146 additions & 237 deletions
diff --git a/‎src/main/java/com/inyo/ducklake/connect/DucklakeMetrics.java‎
Lines changed: 232 additions & 251 deletions b/‎src/main/java/com/inyo/ducklake/connect/DucklakeMetrics.java‎
Lines changed: 232 additions & 251 deletions
diff --git a/‎src/main/java/com/inyo/ducklake/connect/DucklakeMetricsInterface.java‎
Lines changed: 21 additions & 2 deletions b/‎src/main/java/com/inyo/ducklake/connect/DucklakeMetricsInterface.java‎
Lines changed: 21 additions & 2 deletions
diff --git a/‎src/main/java/com/inyo/ducklake/connect/DucklakeSinkTask.java‎
Lines changed: 44 additions & 6 deletions b/‎src/main/java/com/inyo/ducklake/connect/DucklakeSinkTask.java‎
Lines changed: 44 additions & 6 deletions
diff --git a/‎src/main/java/com/inyo/ducklake/connect/DucklakeWriterFactory.java‎
Lines changed: 3 additions & 3 deletions b/‎src/main/java/com/inyo/ducklake/connect/DucklakeWriterFactory.java‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/main/java/com/inyo/ducklake/connect/NoopDucklakeMetrics.java‎
Lines changed: 92 additions & 0 deletions b/‎src/main/java/com/inyo/ducklake/connect/NoopDucklakeMetrics.java‎
Lines changed: 92 additions & 0 deletions
diff --git a/‎src/main/java/com/inyo/ducklake/connect/SpillablePartitionBuffer.java‎
Lines changed: 10 additions & 0 deletions b/‎src/main/java/com/inyo/ducklake/connect/SpillablePartitionBuffer.java‎
Lines changed: 10 additions & 0 deletions
@@ -26,7 +26,7 @@ public interface DucklakeMetricsInterface extends AutoCloseable {
 
   void recordSchemaOperation(long durationNanos, String operationType);
 
-  void recordBatchProcessed(int recordCount);
+  void recordBatchProcessed(long recordCount);
 
   MetricTimer startJdbcQueryTimer();
 
@@ -36,6 +36,25 @@ public interface DucklakeMetricsInterface extends AutoCloseable {
 
   MetricTimer startSchemaOperationTimer(String operationType);
 
+  void recordFlushDuration(long durationNanos, String partition);
+
+  MetricTimer startFlushTimer(String partition);
+
+  void recordSchemaMismatch();
+
+  void recordFlushSkip();
+
+  void recordErrantRecord();
+
+  void recordSpill(long bytes);
+
+  void recordConsolidationDuration(long durationNanos);
+
+  MetricTimer startConsolidationTimer();
+
   /** Simple marker interface for timers returned by the metrics implementation. */
-  interface MetricTimer extends AutoCloseable {}
+  interface MetricTimer extends AutoCloseable {
+    @Override
+    void close();
+  }
 }
@@ -41,6 +41,7 @@
 import org.apache.arrow.memory.RootAllocator;
 import org.apache.arrow.vector.VectorSchemaRoot;
 import org.apache.kafka.common.TopicPartition;
+import org.apache.kafka.common.metrics.Metrics;
 import org.apache.kafka.connect.errors.ConnectException;
 import org.apache.kafka.connect.sink.ErrantRecordReporter;
 import org.apache.kafka.connect.sink.SinkRecord;
@@ -88,6 +89,9 @@ public class DucklakeSinkTask extends SinkTask {
 
   // Errant record reporter for sending bad records to DLQ
   private ErrantRecordReporter errantRecordReporter;
+  private Metrics metricsRegistry;
+  // Initialized to no-op so stop() can call close() unconditionally even if start() fails
+  private DucklakeMetricsInterface ducklakeMetrics = NoopDucklakeMetrics.INSTANCE;
 
   // Jitter configuration to stagger flushes and avoid PG row-level contention
   // Each partition gets a random jitter offset (0 to maxJitterMs) applied to its flush timing
@@ -150,6 +154,10 @@ public String version() {
   @Override
   public void start(Map<String, String> map) {
     this.config = new DucklakeSinkConfig(DucklakeSinkConfig.CONFIG_DEF, map);
+    String connectorName = map.getOrDefault("name", "ducklake-sink");
+    String taskId = map.getOrDefault("task.id", "0");
+    this.metricsRegistry = new Metrics();
+    this.ducklakeMetrics = new DucklakeMetrics(metricsRegistry, connectorName, taskId);
     this.connectionFactory = new DucklakeConnectionFactory(config);
     this.writers = new HashMap<>();
     this.buffers = new HashMap<>();
@@ -299,6 +307,7 @@ private void checkTimeBasedFlushSpillable(long now) {
         AtomicInteger skips =
             consecutiveFlushSkips.computeIfAbsent(partition, k -> new AtomicInteger(0));
         int skipCount = skips.incrementAndGet();
+        ducklakeMetrics.recordFlushSkip();
         if (skipCount >= MAX_CONSECUTIVE_SKIPS_BEFORE_WARNING) {
           LOG.warn(
               "Flush check for partition {} skipped {} times - possible lock contention",
@@ -376,6 +385,7 @@ private void checkTimeBasedFlushInMemory(long now) {
         AtomicInteger skips =
             consecutiveFlushSkips.computeIfAbsent(partition, k -> new AtomicInteger(0));
         int skipCount = skips.incrementAndGet();
+        ducklakeMetrics.recordFlushSkip();
         if (skipCount >= MAX_CONSECUTIVE_SKIPS_BEFORE_WARNING) {
           LOG.warn(
               "Flush check for partition {} skipped {} times - possible lock contention",
@@ -427,7 +437,8 @@ public void open(Collection<TopicPartition> partitions) {
     super.open(partitions);
     try {
       this.connectionFactory.create();
-      this.writerFactory = new DucklakeWriterFactory(config, connectionFactory.getConnection());
+      this.writerFactory =
+          new DucklakeWriterFactory(config, connectionFactory.getConnection(), ducklakeMetrics);
 
       // Create one writer and buffer for each partition
       for (TopicPartition partition : partitions) {
@@ -453,7 +464,8 @@ public void open(Collection<TopicPartition> partitions) {
             }
           }
 
-          spillableBuffers.put(partition, new SpillablePartitionBuffer(partitionSpillDir));
+          spillableBuffers.put(
+              partition, new SpillablePartitionBuffer(partitionSpillDir, ducklakeMetrics));
           LOG.info("Created writer and spillable buffer for partition: {}", partition);
         } else {
           buffers.put(partition, new PartitionBuffer());
@@ -782,19 +794,30 @@ private void flushBatches(TopicPartition partition, FlushData flushData) {
 
       List<VectorSchemaRoot> consolidated;
       try {
-        consolidated = BatchConsolidator.consolidate(flushData.batches);
+        try (var timer = ducklakeMetrics.startConsolidationTimer()) {
+          consolidated = BatchConsolidator.consolidate(flushData.batches);
+        }
+        if (consolidated.size() > 1) {
+          ducklakeMetrics.recordSchemaMismatch();
+        }
       } catch (RuntimeException e) {
         // Consolidation failed mid-append — source batches may be partially consumed.
         // Close all original batches to avoid leaking Arrow memory.
         closeBatches(flushData.batches);
         throw e;
       }
       try {
-        for (VectorSchemaRoot root : consolidated) {
-          if (root.getRowCount() > 0) {
-            writer.write(root);
+        String partitionKey = partition.topic() + "-" + partition.partition();
+        try (var timer = ducklakeMetrics.startFlushTimer(partitionKey)) {
+          for (VectorSchemaRoot root : consolidated) {
+            if (root.getRowCount() > 0) {
+              writer.write(root);
+            }
           }
         }
+        if (flushData.recordCount > 0) {
+          ducklakeMetrics.recordBatchProcessed(flushData.recordCount);
+        }
       } catch (RuntimeException e) {
         LOG.error("Failed to write buffered data for partition: {}", partition, e);
         throw e;
@@ -1058,6 +1081,7 @@ private void handleSchemaConflictWithDLQ(
 
         try {
           errantRecordReporter.report(record, recordError);
+          ducklakeMetrics.recordErrantRecord();
         } catch (Exception dlqError) {
           LOG.error(
               "Failed to report record to DLQ: topic={}, partition={}, offset={}",
@@ -1208,6 +1232,20 @@ public void stop() {
       }
     } catch (Exception e) {
       throw new RuntimeException("Failed to stop DucklakeSinkTask", e);
+    } finally {
+      try {
+        ducklakeMetrics.close();
+      } catch (Exception e) {
+        LOG.warn("Failed closing metrics: {}", e.getMessage());
+      }
+      if (metricsRegistry != null) {
+        try {
+          metricsRegistry.close();
+        } catch (Exception e) {
+          LOG.warn("Failed closing metrics registry: {}", e.getMessage());
+        }
+        metricsRegistry = null;
+      }
     }
   }
 }
@@ -24,14 +24,14 @@ public final class DucklakeWriterFactory {
 
   private final DucklakeSinkConfig config;
   private final DuckDBConnection conn;
-  private final DucklakeMetrics metrics;
+  private final DucklakeMetricsInterface metrics;
 
   public DucklakeWriterFactory(DucklakeSinkConfig config, DuckDBConnection conn) {
-    this(config, conn, null);
+    this(config, conn, NoopDucklakeMetrics.INSTANCE);
   }
 
   public DucklakeWriterFactory(
-      DucklakeSinkConfig config, DuckDBConnection conn, DucklakeMetrics metrics) {
+      DucklakeSinkConfig config, DuckDBConnection conn, DucklakeMetricsInterface metrics) {
     this.config = config;
     this.metrics = metrics;
     try {
 
@@ -0,0 +1,92 @@
+/*
+ * Copyright 2025 Inyo Contributors
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package com.inyo.ducklake.connect;
+
+/** No-op metrics implementation that discards all recordings. */
+public final class NoopDucklakeMetrics implements DucklakeMetricsInterface {
+
+  public static final NoopDucklakeMetrics INSTANCE = new NoopDucklakeMetrics();
+
+  private static final MetricTimer NOOP_TIMER = () -> {};
+
+  private NoopDucklakeMetrics() {}
+
+  @Override
+  public void recordJdbcQuery(long durationNanos) {}
+
+  @Override
+  public void recordJdbcQuery(long durationNanos, String operationType) {}
+
+  @Override
+  public void recordSchemaOperation(long durationNanos) {}
+
+  @Override
+  public void recordSchemaOperation(long durationNanos, String operationType) {}
+
+  @Override
+  public void recordBatchProcessed(long recordCount) {}
+
+  @Override
+  public MetricTimer startJdbcQueryTimer() {
+    return NOOP_TIMER;
+  }
+
+  @Override
+  public MetricTimer startJdbcQueryTimer(String operationType) {
+    return NOOP_TIMER;
+  }
+
+  @Override
+  public MetricTimer startSchemaOperationTimer() {
+    return NOOP_TIMER;
+  }
+
+  @Override
+  public MetricTimer startSchemaOperationTimer(String operationType) {
+    return NOOP_TIMER;
+  }
+
+  @Override
+  public void recordFlushDuration(long durationNanos, String partition) {}
+
+  @Override
+  public MetricTimer startFlushTimer(String partition) {
+    return NOOP_TIMER;
+  }
+
+  @Override
+  public void recordSchemaMismatch() {}
+
+  @Override
+  public void recordFlushSkip() {}
+
+  @Override
+  public void recordErrantRecord() {}
+
+  @Override
+  public void recordSpill(long bytes) {}
+
+  @Override
+  public void recordConsolidationDuration(long durationNanos) {}
+
+  @Override
+  public MetricTimer startConsolidationTimer() {
+    return NOOP_TIMER;
+  }
+
+  @Override
+  public void close() {}
+}
@@ -44,6 +44,7 @@ public class SpillablePartitionBuffer {
   private static final Logger LOG = LoggerFactory.getLogger(SpillablePartitionBuffer.class);
 
   private final Path spillDirectory;
+  private final DucklakeMetricsInterface metrics;
   private final List<SpilledBatch> spilledBatches = new ArrayList<>();
   private long recordCount = 0;
   private long estimatedBytes = 0;
@@ -73,7 +74,15 @@ private static class SpilledBatch {
       value = "CT_CONSTRUCTOR_THROW",
       justification = "Failing fast on invalid spill directory is intentional")
   public SpillablePartitionBuffer(Path spillDirectory) {
+    this(spillDirectory, NoopDucklakeMetrics.INSTANCE);
+  }
+
+  @SuppressFBWarnings(
+      value = "CT_CONSTRUCTOR_THROW",
+      justification = "Failing fast on invalid spill directory is intentional")
+  public SpillablePartitionBuffer(Path spillDirectory, DucklakeMetricsInterface metrics) {
     this.spillDirectory = spillDirectory;
+    this.metrics = metrics;
     try {
       Files.createDirectories(spillDirectory);
     } catch (IOException e) {
@@ -106,6 +115,7 @@ public void add(VectorSchemaRoot root) {
       recordCount += root.getRowCount();
       estimatedBytes += byteSize;
 
+      metrics.recordSpill(byteSize);
       LOG.debug(
           "Spilled batch to {}: {} rows, {} bytes",
           spillFile.getFileName(),