Fix inference stats for cancellations (elastic#112233)

jan-elastic · davidkyle · cbuescher · commit 9d3e1f397e89 · 2024-09-04T21:20:59.000+02:00
* Fix inference stats for cancellations

* Fix PyTorchResultProcessorTests

* Refactor onCancel

* Update x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/deployment/AbstractPyTorchAction.java

Co-authored-by: David Kyle &lt;david.kyle@elastic.co&gt;

---------

Co-authored-by: David Kyle &lt;david.kyle@elastic.co&gt;
diff --git a/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/deployment/AbstractPyTorchAction.java b/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/deployment/AbstractPyTorchAction.java
@@ -65,12 +65,18 @@ public final void init() {
     }
 
     void onTimeout() {
+        onTimeout(new ElasticsearchStatusException("timeout [{}] waiting for inference result", RestStatus.REQUEST_TIMEOUT, timeout));
+    }
+
+    void onCancel() {
+        onTimeout(new ElasticsearchStatusException("inference task cancelled", RestStatus.BAD_REQUEST));
+    }
+
+    void onTimeout(Exception e) {
         if (notified.compareAndSet(false, true)) {
             processContext.getTimeoutCount().incrementAndGet();
             processContext.getResultProcessor().ignoreResponseWithoutNotifying(String.valueOf(requestId));
-            listener.onFailure(
-                new ElasticsearchStatusException("timeout [{}] waiting for inference result", RestStatus.REQUEST_TIMEOUT, timeout)
-            );
+            listener.onFailure(e);
             return;
         }
         getLogger().debug("[{}] request [{}] received timeout after [{}] but listener already alerted", deploymentId, requestId, timeout);
diff --git a/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/deployment/InferencePyTorchAction.java b/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/deployment/InferencePyTorchAction.java
@@ -84,12 +84,11 @@ protected void doRun() throws Exception {
             logger.debug(() -> format("[%s] skipping inference on request [%s] as it has timed out", getDeploymentId(), getRequestId()));
             return;
         }
+        final String requestIdStr = String.valueOf(getRequestId());
         if (isCancelled()) {
-            onFailure("inference task cancelled");
+            onCancel();
             return;
         }
-
-        final String requestIdStr = String.valueOf(getRequestId());
         try {
             String inputText = input.extractInput(getProcessContext().getModelInput().get());
             if (prefixType != TrainedModelPrefixStrings.PrefixType.NONE) {
@@ -141,7 +140,7 @@ protected void doRun() throws Exception {
 
             // Tokenization is non-trivial, so check for cancellation one last time before sending request to the native process
             if (isCancelled()) {
-                onFailure("inference task cancelled");
+                onCancel();
                 return;
             }
             getProcessContext().getResultProcessor()
@@ -196,9 +195,11 @@ private void processResult(
             return;
         }
         if (isCancelled()) {
-            onFailure("inference task cancelled");
+            onCancel();
             return;
         }
+
+        getProcessContext().getResultProcessor().updateStats(pyTorchResult);
         InferenceResults results = inferenceResultsProcessor.processResult(
             tokenization,
             pyTorchResult.inferenceResult(),
diff --git a/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/pytorch/process/PyTorchResultProcessor.java b/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/pytorch/process/PyTorchResultProcessor.java
@@ -153,18 +153,12 @@ private void notifyAndClearPendingResults(ErrorResult errorResult) {
     void processInferenceResult(PyTorchResult result) {
         PyTorchInferenceResult inferenceResult = result.inferenceResult();
         assert inferenceResult != null;
-        Long timeMs = result.timeMs();
-        if (timeMs == null) {
-            assert false : "time_ms should be set for an inference result";
-            timeMs = 0L;
-        }
 
         logger.debug(() -> format("[%s] Parsed inference result with id [%s]", modelId, result.requestId()));
         PendingResult pendingResult = pendingResults.remove(result.requestId());
         if (pendingResult == null) {
             logger.debug(() -> format("[%s] no pending result for inference [%s]", modelId, result.requestId()));
         } else {
-            updateStats(timeMs, Boolean.TRUE.equals(result.isCacheHit()));
             pendingResult.listener.onResponse(result);
         }
     }
@@ -273,7 +267,13 @@ private static LongSummaryStatistics cloneSummaryStats(LongSummaryStatistics sta
         return new LongSummaryStatistics(stats.getCount(), stats.getMin(), stats.getMax(), stats.getSum());
     }
 
-    private synchronized void updateStats(long timeMs, boolean isCacheHit) {
+    public synchronized void updateStats(PyTorchResult result) {
+        Long timeMs = result.timeMs();
+        if (timeMs == null) {
+            assert false : "time_ms should be set for an inference result";
+            timeMs = 0L;
+        }
+        boolean isCacheHit = Boolean.TRUE.equals(result.isCacheHit());
         timingStats.accept(timeMs);
 
         lastResultTimeMs = currentTimeMsSupplier.getAsLong();
diff --git a/x-pack/plugin/ml/src/test/java/org/elasticsearch/xpack/ml/inference/pytorch/process/PyTorchResultProcessorTests.java b/x-pack/plugin/ml/src/test/java/org/elasticsearch/xpack/ml/inference/pytorch/process/PyTorchResultProcessorTests.java
@@ -210,6 +210,8 @@ public void testsStats() {
         var c = wrapInferenceResult("c", true, 200L); // cache hit
 
         processor.processInferenceResult(a);
+        processor.updateStats(a);
+
         var stats = processor.getResultStats();
         assertThat(stats.errorCount(), equalTo(0));
         assertThat(stats.cacheHitCount(), equalTo(0L));
@@ -220,6 +222,8 @@ public void testsStats() {
         assertThat(stats.timingStatsExcludingCacheHits().getSum(), equalTo(1000L));
 
         processor.processInferenceResult(b);
+        processor.updateStats(b);
+
         stats = processor.getResultStats();
         assertThat(stats.errorCount(), equalTo(0));
         assertThat(stats.cacheHitCount(), equalTo(0L));
@@ -230,6 +234,8 @@ public void testsStats() {
         assertThat(stats.timingStatsExcludingCacheHits().getSum(), equalTo(1900L));
 
         processor.processInferenceResult(c);
+        processor.updateStats(c);
+
         stats = processor.getResultStats();
         assertThat(stats.errorCount(), equalTo(0));
         assertThat(stats.cacheHitCount(), equalTo(1L));
@@ -284,6 +290,9 @@ public void testsTimeDependentStats() {
         processor.processInferenceResult(wrapInferenceResult("foo0", false, 200L));
         processor.processInferenceResult(wrapInferenceResult("foo1", false, 200L));
         processor.processInferenceResult(wrapInferenceResult("foo2", false, 200L));
+        processor.updateStats(wrapInferenceResult("foo0", false, 200L));
+        processor.updateStats(wrapInferenceResult("foo1", false, 200L));
+        processor.updateStats(wrapInferenceResult("foo2", false, 200L));
 
         // first call has no results as is in the same period
         var stats = processor.getResultStats();
@@ -299,6 +308,7 @@ public void testsTimeDependentStats() {
 
         // 2nd period
         processor.processInferenceResult(wrapInferenceResult("foo3", false, 100L));
+        processor.updateStats(wrapInferenceResult("foo3", false, 100L));
         stats = processor.getResultStats();
         assertNotNull(stats.recentStats());
         assertThat(stats.recentStats().requestsProcessed(), equalTo(1L));
@@ -311,6 +321,7 @@ public void testsTimeDependentStats() {
 
         // 4th period
         processor.processInferenceResult(wrapInferenceResult("foo4", false, 300L));
+        processor.updateStats(wrapInferenceResult("foo4", false, 300L));
         stats = processor.getResultStats();
         assertNotNull(stats.recentStats());
         assertThat(stats.recentStats().requestsProcessed(), equalTo(1L));
@@ -320,6 +331,8 @@ public void testsTimeDependentStats() {
         // 7th period
         processor.processInferenceResult(wrapInferenceResult("foo5", false, 410L));
         processor.processInferenceResult(wrapInferenceResult("foo6", false, 390L));
+        processor.updateStats(wrapInferenceResult("foo5", false, 410L));
+        processor.updateStats(wrapInferenceResult("foo6", false, 390L));
         stats = processor.getResultStats();
         assertThat(stats.recentStats().requestsProcessed(), equalTo(0L));
         assertThat(stats.recentStats().avgInferenceTime(), nullValue());
@@ -333,6 +346,9 @@ public void testsTimeDependentStats() {
         processor.processInferenceResult(wrapInferenceResult("foo7", false, 510L));
         processor.processInferenceResult(wrapInferenceResult("foo8", false, 500L));
         processor.processInferenceResult(wrapInferenceResult("foo9", false, 490L));
+        processor.updateStats(wrapInferenceResult("foo7", false, 510L));
+        processor.updateStats(wrapInferenceResult("foo8", false, 500L));
+        processor.updateStats(wrapInferenceResult("foo9", false, 490L));
         stats = processor.getResultStats();
         assertNotNull(stats.recentStats());
         assertThat(stats.recentStats().requestsProcessed(), equalTo(3L));