Add latency percentiles calculation

emasab · emasab · commit f44e4145ed7f · 2025-10-29T16:59:26.000+01:00
diff --git a/ci/tests/run_perf_test.js b/ci/tests/run_perf_test.js
@@ -87,13 +87,19 @@ async function main() {
 
     if (concurrentRun) {
       console.log(`Running ${modeLabel} Producer/Consumer test (concurrently)...`);
-      const INITIAL_DELAY_MS = 2000;
+      const INITIAL_DELAY_MS = 10000;
       const TERMINATE_TIMEOUT_MS = process.env.TERMINATE_TIMEOUT_MS ? +process.env.TERMINATE_TIMEOUT_MS : 600000;
       // Wait INITIAL_DELAY_MS more to see if all lag is caught up, start earlier than the producer to check
       // E2E latencies more accurately.
-      const TERMINATE_TIMEOUT_MS_CONSUMERS = TERMINATE_TIMEOUT_MS + INITIAL_DELAY_MS * 2;
+      const TERMINATE_TIMEOUT_MS_CONSUMERS = TERMINATE_TIMEOUT_MS + INITIAL_DELAY_MS + 2000;
+      const TERMINATE_TIMEOUT_MS_LAG_MONITORING = TERMINATE_TIMEOUT_MS + 1000;
 
       await runCommand(`MODE=${mode} node performance-consolidated.js --create-topics`);
+
+      console.log(`Waiting 10s ms after topic creation before starting producer and consumers...`);
+      await new Promise(resolve => setTimeout(resolve, 10000));
+
+      console.log(`Starting producer and consumers...`);
       const allPromises = [];
       allPromises.push(runCommand(`MODE=${mode} MESSAGE_COUNT=${messageCount} INITIAL_DELAY_MS=${INITIAL_DELAY_MS} node performance-consolidated.js --producer`));
       if (consumerModeAll || consumerModeEachMessage) {
@@ -103,10 +109,10 @@ async function main() {
         allPromises.push(runCommand(`MODE=${mode} MESSAGE_COUNT=${messageCount} INITIAL_DELAY_MS=0 TERMINATE_TIMEOUT_MS=${TERMINATE_TIMEOUT_MS_CONSUMERS} GROUPID_BATCH=${groupIdEachBatch} node performance-consolidated.js --consumer-each-batch ${produceToSecondTopicParam}`));
       }
       if (consumerModeAll || consumerModeEachMessage) {
-        allPromises.push(runCommand(`MODE=${mode} INITIAL_DELAY_MS=0 TERMINATE_TIMEOUT_MS=${TERMINATE_TIMEOUT_MS_CONSUMERS} GROUPID_MONITOR=${groupIdEachMessage} node performance-consolidated.js --monitor-lag`));
+        allPromises.push(runCommand(`MODE=${mode} INITIAL_DELAY_MS=${INITIAL_DELAY_MS} TERMINATE_TIMEOUT_MS=${TERMINATE_TIMEOUT_MS_LAG_MONITORING} GROUPID_MONITOR=${groupIdEachMessage} node performance-consolidated.js --monitor-lag`));
       }
       if (consumerModeAll || consumerModeEachBatch) {
-        allPromises.push(runCommand(`MODE=${mode} INITIAL_DELAY_MS=0 TERMINATE_TIMEOUT_MS=${TERMINATE_TIMEOUT_MS_CONSUMERS} GROUPID_MONITOR=${groupIdEachBatch} node performance-consolidated.js --monitor-lag`));
+        allPromises.push(runCommand(`MODE=${mode} INITIAL_DELAY_MS=${INITIAL_DELAY_MS} TERMINATE_TIMEOUT_MS=${TERMINATE_TIMEOUT_MS_LAG_MONITORING} GROUPID_MONITOR=${groupIdEachBatch} node performance-consolidated.js --monitor-lag`));
       }
       const results = await Promise.allSettled(allPromises);
       return results.map(r => r.status === 'fulfilled' ? r.value : '').join('\n');
diff --git a/examples/performance/performance-consolidated.js b/examples/performance/performance-consolidated.js
@@ -17,8 +17,8 @@ const brokers = process.env.KAFKA_BROKERS || 'localhost:9092';
 const securityProtocol = process.env.SECURITY_PROTOCOL;
 const saslUsername = process.env.SASL_USERNAME;
 const saslPassword = process.env.SASL_PASSWORD;
-const topic = process.env.KAFKA_TOPIC || 'test-topic';
-const topic2 = process.env.KAFKA_TOPIC2 || 'test-topic2';
+const topic = process.env.KAFKA_TOPIC || `test-topic-${mode}`;
+const topic2 = process.env.KAFKA_TOPIC2 || `test-topic2-${mode}`;
 const messageCount = process.env.MESSAGE_COUNT ? +process.env.MESSAGE_COUNT : 1000000;
 const messageSize = process.env.MESSAGE_SIZE ? +process.env.MESSAGE_SIZE : 256;
 const batchSize = process.env.BATCH_SIZE ? +process.env.BATCH_SIZE : 100;
@@ -53,6 +53,13 @@ function logParameters(parameters) {
     }
 }
 
+function printPercentiles(percentiles, type) {
+    for (const { percentile, value, count, total } of percentiles) {
+        const percentileStr = `P${percentile}`.padStart(6, ' ');
+        console.log(`=== Consumer ${percentileStr} E2E latency ${type}: ${value.toFixed(2)} ms (${count}/${total})`);
+    }
+}
+
 (async function () {
     const producer = process.argv.includes('--producer');
     const consumer = process.argv.includes('--consumer');
@@ -169,10 +176,11 @@ function logParameters(parameters) {
         endTrackingMemory('consumer-each-message', `consumer-memory-message-${mode}.json`);
         console.log("=== Consumer Rate MB/s (eachMessage): ", consumerRate);
         console.log("=== Consumer Rate msg/s (eachMessage): ", stats.messageRate);
-        console.log("=== Consumer average E2E latency T0-T1 (eachMessage): ", stats.avgLatencyT0T1);
+        printPercentiles(stats.percentilesTOT1, 'T0-T1 (eachMessage)');
         console.log("=== Consumer max E2E latency T0-T1 (eachMessage): ", stats.maxLatencyT0T1);
         if (produceToSecondTopic) {
             console.log("=== Consumer average E2E latency T0-T2 (eachMessage): ", stats.avgLatencyT0T2);
+            printPercentiles(stats.percentilesTOT2, 'T0-T2 (eachMessage)');
             console.log("=== Consumer max E2E latency T0-T2 (eachMessage): ", stats.maxLatencyT0T2);
         }
         console.log("=== Consumption time (eachMessage): ", stats.durationSeconds);
@@ -197,9 +205,11 @@ function logParameters(parameters) {
         console.log("=== Max eachBatch lag: ", stats.maxOffsetLag);
         console.log("=== Average eachBatch size: ", stats.averageBatchSize);
         console.log("=== Consumer average E2E latency T0-T1 (eachBatch): ", stats.avgLatencyT0T1);
+        printPercentiles(stats.percentilesTOT1, 'T0-T1 (eachBatch)');
         console.log("=== Consumer max E2E latency T0-T1 (eachBatch): ", stats.maxLatencyT0T1);
         if (produceToSecondTopic) {
             console.log("=== Consumer average E2E latency T0-T2 (eachBatch): ", stats.avgLatencyT0T2);
+            printPercentiles(stats.percentilesTOT2, 'T0-T2 (eachBatch)');
             console.log("=== Consumer max E2E latency T0-T2 (eachBatch): ", stats.maxLatencyT0T2);
         }
         console.log("=== Consumption time (eachBatch): ", stats.durationSeconds);
diff --git a/examples/performance/performance-primitives-common.js b/examples/performance/performance-primitives-common.js
@@ -1,5 +1,6 @@
 const { hrtime } = require('process');
 const { randomBytes } = require('crypto');
+const PERCENTILES = [50, 75, 90, 95, 99, 99.9, 99.99, 100];
 
 const TERMINATE_TIMEOUT_MS = process.env.TERMINATE_TIMEOUT_MS ? +process.env.TERMINATE_TIMEOUT_MS : 600000;
 const AUTO_COMMIT = process.env.AUTO_COMMIT || 'false';
@@ -58,8 +59,86 @@ function genericProduceToTopic(producer, topic, messages) {
     });
 }
 
+
+// We use a simple count-sketch for latency percentiles to avoid storing all latencies in memory.
+// because we're also measuring the memory usage of the consumer as part of the performance tests.
+class LatencyCountSketch {
+    #numBuckets;
+    #minValue;
+    #maxValue;
+    #buckets;
+    #counts;
+    #changeBaseLogarithm;
+    #totalCount = 0;
+    #base;
+
+    constructor({
+        error = 0.01, // 1% error
+        minValue = 0.01, // min 10μs latency
+        maxValue = 60000, // max 60s latency
+    }) {
+        // Each bucket represents [x, x * (1 + error))
+        this.#base = 1 + error;
+        // Change base from natural log to log base this.#base
+        this.#changeBaseLogarithm =  Math.log(this.#base);
+        this.#numBuckets = Math.ceil(Math.log(maxValue / minValue) / Math.log(this.#base));
+        this.#maxValue = maxValue;
+
+        this.#buckets = new Array(this.#numBuckets + 2).fill(0);
+        this.#buckets[this.#numBuckets + 1] = Number.POSITIVE_INFINITY;
+        this.#buckets[this.#numBuckets] = this.#maxValue;
+        this.#buckets[0] = 0;
+        let i = this.#numBuckets - 1;
+        let currentValue = maxValue;
+        while (i >= 1) {
+            let nextMinimum = currentValue / this.#base;
+            this.#buckets[i] = nextMinimum;
+            currentValue = nextMinimum;
+            i--;
+        }
+        this.#minValue = this.#buckets[1];
+        this.#counts = new Array(this.#numBuckets + 2).fill(0);
+    }
+
+    add(latency) {
+        let idx = 0;
+        if (latency > 0)
+            idx = Math.ceil(Math.log(latency / this.#minValue) / this.#changeBaseLogarithm);
+        idx = (idx < 0) ? 0 :
+              (idx > this.#buckets.length - 2) ? (this.#buckets.length - 2) :
+               idx;
+        
+        this.#counts[idx]++;
+        this.#totalCount++;
+    }
+
+    percentiles(percentilesArray) {
+        const percentileCounts = percentilesArray.map(p => Math.ceil(this.#totalCount * p / 100));
+        const percentileResults = new Array(percentilesArray.length);
+        var totalCountSoFar = 0;
+        let j = 0;
+        let sum = 0;
+        for (let i = 0; i < this.#counts.length; i++) {
+            sum += this.#counts[i];
+        }
+        for (let i = 0; i < percentileCounts.length; i++) {
+            while ((totalCountSoFar < percentileCounts[i]) && (j < this.#counts.length - 1)) {
+                totalCountSoFar += this.#counts[j];
+                j++;
+            }
+            const bucketIndex = (j < this.#counts.length - 1) ? j : this.#counts.length - 2;
+            percentileResults[i] = [this.#buckets[bucketIndex], totalCountSoFar, this.#totalCount];
+        }
+        return percentileResults;
+    }
+}
+
 async function runConsumer(consumer, topic, warmupMessages, totalMessageCnt, eachBatch, partitionsConsumedConcurrently, stats, actionOnMessages) {
     const handlers = installHandlers(totalMessageCnt === -1);
+    if (stats) {
+        stats.percentilesTOT1 = new LatencyCountSketch({});
+        stats.percentilesTOT2 = new LatencyCountSketch({});
+    }
     while (true) {
         try {
             await consumer.connect();
@@ -96,7 +175,17 @@ async function runConsumer(consumer, topic, warmupMessages, totalMessageCnt, eac
             return;
 
         const sentAt = Number(decoder.decode(message.value.slice(0, 13)));
-        const latency = receivedAt - sentAt;
+        let latency = receivedAt - sentAt;
+
+        if (isNaN(latency)) {
+            console.log(`WARN: NaN latency received message timestamp: ${message.value.slice(0, 13)}`);
+            return;
+        } else if (latency < 0) {
+            console.log(`WARN: negative latency ${latency} sentAt ${sentAt} receivedAt ${receivedAt}`);
+            latency = 0;
+        } else if (latency > 60000) {
+            console.log(`WARN: received large latency ${latency} sentAt ${sentAt} receivedAt ${receivedAt}`);
+        }
 
         if (!isT0T2) {
             if (!stats.maxLatencyT0T1) {
@@ -106,6 +195,7 @@ async function runConsumer(consumer, topic, warmupMessages, totalMessageCnt, eac
                 stats.maxLatencyT0T1 = Math.max(stats.maxLatencyT0T1, latency);
                 stats.avgLatencyT0T1 = ((stats.avgLatencyT0T1 * (numMessages - 1)) + latency) / numMessages;
             }
+            stats.percentilesTOT1.add(latency);
         } else {
             if (!stats.maxLatencyT0T2) {
                 stats.maxLatencyT0T2 = latency;
@@ -114,6 +204,7 @@ async function runConsumer(consumer, topic, warmupMessages, totalMessageCnt, eac
                 stats.maxLatencyT0T2 = Math.max(stats.maxLatencyT0T2, latency);
                 stats.avgLatencyT0T2 = ((stats.avgLatencyT0T2 * (numMessages - 1)) + latency) / numMessages;
             }
+            stats.percentilesTOT2.add(latency);
         }
     };
 
@@ -257,6 +348,18 @@ async function runConsumer(consumer, topic, warmupMessages, totalMessageCnt, eac
         stats.messageRate = durationSeconds > 0 ? 
                             (messagesMeasured / durationSeconds) : Infinity;
         stats.durationSeconds = durationSeconds;
+        stats.percentilesTOT1 = stats.percentilesTOT1.percentiles(PERCENTILES).map((value, index) => ({
+            percentile: PERCENTILES[index],
+            value: value[0],
+            count: value[1],
+            total: value[2],
+        }));
+        stats.percentilesTOT2 = stats.percentilesTOT2.percentiles(PERCENTILES).map((value, index) => ({
+            percentile: PERCENTILES[index],
+            value: value[0],
+            count: value[1],
+            total: value[2],
+        }));
     }
     removeHandlers(handlers);
     return rate;
diff --git a/examples/performance/performance-primitives-kafkajs.js b/examples/performance/performance-primitives-kafkajs.js
@@ -20,6 +20,8 @@ module.exports = {
     runProducerConsumerTogether,
 };
 
+const IS_HIGHER_LATENCY_CLUSTER = process.env.IS_HIGHER_LATENCY_CLUSTER === 'true';
+
 function baseConfiguration(parameters) {
     let ret = {
         clientId: 'kafka-test-performance',
@@ -147,13 +149,17 @@ class CompatibleConsumer {
 
 function newCompatibleConsumer(parameters, eachBatch) {
     const kafka = new Kafka(baseConfiguration(parameters));
+    const higherLatencyClusterOpts = IS_HIGHER_LATENCY_CLUSTER ? {
+        maxBytesPerPartition: 8388608
+    } : {};
 
     let groupId = eachBatch ? process.env.GROUPID_BATCH : process.env.GROUPID_MESSAGE;
     if (!groupId) {
         groupId = 'test-group' + Math.random();
     }
     console.log(`New KafkaJS group id: ${groupId}`);
     const consumer = kafka.consumer({
+        ...higherLatencyClusterOpts,
         groupId,
     });
     return new CompatibleConsumer(consumer);
diff --git a/examples/performance/performance-primitives.js b/examples/performance/performance-primitives.js
@@ -19,6 +19,9 @@ module.exports = {
     newCompatibleProducer,
 };
 
+
+const IS_HIGHER_LATENCY_CLUSTER = process.env.IS_HIGHER_LATENCY_CLUSTER === 'true';
+
 function baseConfiguration(parameters) {
     let ret = {
         'client.id': 'kafka-test-performance',
@@ -97,9 +100,16 @@ class CompatibleProducer {
     }
 }
 function newCompatibleProducer(parameters, compression) {
+    const higherLatencyClusterOpts = IS_HIGHER_LATENCY_CLUSTER ? {
+        'linger.ms': '200',
+        'sticky.partitioning.linger.ms': '200',
+        'message.max.bytes': '2148352',
+        'batch.size': '2097152',
+    } : {};
     return new CompatibleProducer(
         new Kafka({
         ...baseConfiguration(parameters),
+        ...higherLatencyClusterOpts,
         'compression.codec': CompressionTypes[compression],
     }).producer());
 }
@@ -146,6 +156,9 @@ function newCompatibleConsumer(parameters, eachBatch) {
     const autoCommitOpts = autoCommit > 0 ? 
         { 'enable.auto.commit': true, 'auto.commit.interval.ms': autoCommit } :
         { 'enable.auto.commit': false };
+    const higherLatencyClusterOpts = IS_HIGHER_LATENCY_CLUSTER ? {
+        'max.partition.fetch.bytes': '8388608'
+    } : {};
 
     let groupId = eachBatch ? process.env.GROUPID_BATCH : process.env.GROUPID_MESSAGE;
     if (!groupId) {
@@ -157,6 +170,7 @@ function newCompatibleConsumer(parameters, eachBatch) {
         'auto.offset.reset': 'earliest',
         'fetch.queue.backoff.ms': '100',
         ...autoCommitOpts,
+        ...higherLatencyClusterOpts,
     });
     return new CompatibleConsumer(consumer);
 }