Enforce no-op setWeight on collectors that filter docs out (#94886)

javanna · web-flow · commit 4cf9b0cb4b10 · 2023-03-31T09:01:43.000+02:00
MinimumScoreCollector and FilteredCollector filter documents out as part
of their collection. The have an inner collector to delegate to, but
they should never propagate the Weight to them otherwise the total hit
count may not reflect the filtering. This commit clarifies this through
an empty final setWeight method on both collectors and additional
javadocs.
diff --git a/server/src/main/java/org/elasticsearch/common/lucene/MinimumScoreCollector.java b/server/src/main/java/org/elasticsearch/common/lucene/MinimumScoreCollector.java
@@ -15,9 +15,15 @@
 import org.apache.lucene.search.ScoreCachingWrappingScorer;
 import org.apache.lucene.search.ScoreMode;
 import org.apache.lucene.search.SimpleCollector;
+import org.apache.lucene.search.Weight;
 
 import java.io.IOException;
 
+/**
+ * Collector that wraps another collector and collects only documents that have a score that's greater or equal than the
+ * provided minimum score. Given that this collector filters documents out, it must not propagate the {@link Weight} to its
+ * inner collector, as that may lead to exposing total hit count that does not reflect the filtering.
+ */
 public class MinimumScoreCollector extends SimpleCollector {
 
     private final Collector collector;
@@ -31,6 +37,12 @@ public MinimumScoreCollector(Collector collector, float minimumScore) {
         this.minimumScore = minimumScore;
     }
 
+    @Override
+    public final void setWeight(Weight weight) {
+        // no-op: this collector filters documents out hence it must not propagate the weight to its inner collector,
+        // otherwise the total hit count may not reflect the filtering
+    }
+
     @Override
     public void setScorer(Scorable scorer) throws IOException {
         if ((scorer instanceof ScoreCachingWrappingScorer) == false) {
diff --git a/server/src/main/java/org/elasticsearch/common/lucene/search/FilteredCollector.java b/server/src/main/java/org/elasticsearch/common/lucene/search/FilteredCollector.java
@@ -19,6 +19,11 @@
 
 import java.io.IOException;
 
+/**
+ * Collector that wraps another collector and collects only documents that match the provided filter.
+ * Given that this collector filters documents out, it must not propagate the {@link Weight} to its
+ * inner collector, as that may lead to exposing total hit count that does not reflect the filtering.
+ */
 public class FilteredCollector implements Collector {
 
     private final Collector collector;
@@ -29,6 +34,12 @@ public FilteredCollector(Collector collector, Weight filter) {
         this.filter = filter;
     }
 
+    @Override
+    public final void setWeight(Weight weight) {
+        // no-op: this collector filters documents out hence it must not propagate the weight to its inner collector,
+        // otherwise the total hit count may not reflect the filtering
+    }
+
     @Override
     public LeafCollector getLeafCollector(LeafReaderContext context) throws IOException {
         final ScorerSupplier filterScorerSupplier = filter.scorerSupplier(context);
diff --git a/server/src/test/java/org/elasticsearch/common/lucene/MinimumScoreCollectorTests.java b/server/src/test/java/org/elasticsearch/common/lucene/MinimumScoreCollectorTests.java
@@ -0,0 +1,108 @@
+/*
+ * Copyright Elasticsearch B.V. and/or licensed to Elasticsearch B.V. under one
+ * or more contributor license agreements. Licensed under the Elastic License
+ * 2.0 and the Server Side Public License, v 1; you may not use this file except
+ * in compliance with, at your election, the Elastic License 2.0 or the Server
+ * Side Public License, v 1.
+ */
+
+package org.elasticsearch.common.lucene;
+
+import org.apache.lucene.document.Document;
+import org.apache.lucene.document.Field;
+import org.apache.lucene.document.StringField;
+import org.apache.lucene.index.IndexReader;
+import org.apache.lucene.index.Term;
+import org.apache.lucene.search.BooleanClause;
+import org.apache.lucene.search.BooleanQuery;
+import org.apache.lucene.search.BoostQuery;
+import org.apache.lucene.search.IndexSearcher;
+import org.apache.lucene.search.MatchAllDocsQuery;
+import org.apache.lucene.search.TermQuery;
+import org.apache.lucene.search.TopDocs;
+import org.apache.lucene.search.TopScoreDocCollector;
+import org.apache.lucene.search.TotalHitCountCollector;
+import org.apache.lucene.store.Directory;
+import org.apache.lucene.tests.index.RandomIndexWriter;
+import org.elasticsearch.core.IOUtils;
+import org.elasticsearch.test.ESTestCase;
+
+import java.io.IOException;
+
+public class MinimumScoreCollectorTests extends ESTestCase {
+
+    private Directory directory;
+    private IndexReader reader;
+    private IndexSearcher searcher;
+    private int numDocs;
+
+    @Override
+    public void setUp() throws Exception {
+        super.setUp();
+        directory = newDirectory();
+        RandomIndexWriter writer = new RandomIndexWriter(random(), directory, newIndexWriterConfig());
+        numDocs = randomIntBetween(10, 100);
+        for (int i = 0; i < numDocs; i++) {
+            Document doc = new Document();
+            doc.add(new StringField("field1", "value", Field.Store.NO));
+            if (i == 0) {
+                doc.add(new StringField("field2", "value", Field.Store.NO));
+            }
+            writer.addDocument(doc);
+        }
+        writer.flush();
+        reader = writer.getReader();
+        searcher = newSearcher(reader);
+        writer.close();
+    }
+
+    @Override
+    public void tearDown() throws Exception {
+        super.tearDown();
+        IOUtils.close(reader, directory);
+    }
+
+    public void testMinScoreFiltering() throws IOException {
+        float maxScore;
+        float thresholdScore;
+        BooleanQuery booleanQuery = new BooleanQuery.Builder().add(new TermQuery(new Term("field1", "value")), BooleanClause.Occur.MUST)
+            .add(new BoostQuery(new TermQuery(new Term("field2", "value")), 200f), BooleanClause.Occur.SHOULD)
+            .build();
+        {
+            TopScoreDocCollector topScoreDocCollector = TopScoreDocCollector.create(2, 100);
+            searcher.search(booleanQuery, topScoreDocCollector);
+            TopDocs topDocs = topScoreDocCollector.topDocs();
+            assertEquals(numDocs, topDocs.totalHits.value);
+            maxScore = topDocs.scoreDocs[0].score;
+            thresholdScore = topDocs.scoreDocs[1].score;
+        }
+        {
+            TopScoreDocCollector topScoreDocCollector = TopScoreDocCollector.create(1, 100);
+            searcher.search(booleanQuery, new MinimumScoreCollector(topScoreDocCollector, maxScore));
+            assertEquals(1, topScoreDocCollector.topDocs().totalHits.value);
+        }
+        {
+            TopScoreDocCollector topScoreDocCollector = TopScoreDocCollector.create(1, 100);
+            searcher.search(booleanQuery, new MinimumScoreCollector(topScoreDocCollector, thresholdScore));
+            assertEquals(numDocs, topScoreDocCollector.topDocs().totalHits.value);
+        }
+        {
+            TopScoreDocCollector topScoreDocCollector = TopScoreDocCollector.create(1, 100);
+            searcher.search(booleanQuery, new MinimumScoreCollector(topScoreDocCollector, maxScore + 100f));
+            assertEquals(0, topScoreDocCollector.topDocs().totalHits.value);
+        }
+    }
+
+    public void testWeightIsNotPropagated() throws IOException {
+        {
+            TotalHitCountCollector totalHitCountCollector = new TotalHitCountCollector();
+            searcher.search(new MatchAllDocsQuery(), totalHitCountCollector);
+            assertEquals(reader.maxDoc(), totalHitCountCollector.getTotalHits());
+        }
+        {
+            TotalHitCountCollector totalHitCountCollector = new TotalHitCountCollector();
+            searcher.search(new MatchAllDocsQuery(), new MinimumScoreCollector(totalHitCountCollector, 100f));
+            assertEquals(0, totalHitCountCollector.getTotalHits());
+        }
+    }
+}
diff --git a/server/src/test/java/org/elasticsearch/common/lucene/search/FilteredCollectorTests.java b/server/src/test/java/org/elasticsearch/common/lucene/search/FilteredCollectorTests.java
@@ -0,0 +1,99 @@
+/*
+ * Copyright Elasticsearch B.V. and/or licensed to Elasticsearch B.V. under one
+ * or more contributor license agreements. Licensed under the Elastic License
+ * 2.0 and the Server Side Public License, v 1; you may not use this file except
+ * in compliance with, at your election, the Elastic License 2.0 or the Server
+ * Side Public License, v 1.
+ */
+
+package org.elasticsearch.common.lucene.search;
+
+import org.apache.lucene.document.Document;
+import org.apache.lucene.document.Field;
+import org.apache.lucene.document.StringField;
+import org.apache.lucene.index.IndexReader;
+import org.apache.lucene.index.Term;
+import org.apache.lucene.search.IndexSearcher;
+import org.apache.lucene.search.MatchAllDocsQuery;
+import org.apache.lucene.search.ScoreMode;
+import org.apache.lucene.search.TermQuery;
+import org.apache.lucene.search.TopScoreDocCollector;
+import org.apache.lucene.search.TotalHitCountCollector;
+import org.apache.lucene.search.Weight;
+import org.apache.lucene.store.Directory;
+import org.apache.lucene.tests.index.RandomIndexWriter;
+import org.elasticsearch.core.IOUtils;
+import org.elasticsearch.test.ESTestCase;
+
+import java.io.IOException;
+
+public class FilteredCollectorTests extends ESTestCase {
+
+    private Directory directory;
+    private IndexReader reader;
+    private IndexSearcher searcher;
+    private int numDocs;
+
+    @Override
+    public void setUp() throws Exception {
+        super.setUp();
+        directory = newDirectory();
+        RandomIndexWriter writer = new RandomIndexWriter(random(), directory, newIndexWriterConfig());
+        numDocs = randomIntBetween(10, 100);
+        for (int i = 0; i < numDocs; i++) {
+            Document doc = new Document();
+            doc.add(new StringField("field1", "value", Field.Store.NO));
+            if (i == 0) {
+                doc.add(new StringField("field2", "value", Field.Store.NO));
+            }
+            writer.addDocument(doc);
+        }
+        writer.flush();
+        reader = writer.getReader();
+        searcher = newSearcher(reader);
+        writer.close();
+    }
+
+    @Override
+    public void tearDown() throws Exception {
+        super.tearDown();
+        IOUtils.close(reader, directory);
+    }
+
+    public void testFiltering() throws IOException {
+        {
+            TopScoreDocCollector topScoreDocCollector = TopScoreDocCollector.create(1, 100);
+            searcher.search(new MatchAllDocsQuery(), topScoreDocCollector);
+            assertEquals(numDocs, topScoreDocCollector.topDocs().totalHits.value);
+        }
+        {
+            TopScoreDocCollector topScoreDocCollector = TopScoreDocCollector.create(1, 100);
+            TermQuery termQuery = new TermQuery(new Term("field2", "value"));
+            Weight filterWeight = termQuery.createWeight(searcher, ScoreMode.TOP_DOCS, 1f);
+            searcher.search(new MatchAllDocsQuery(), new FilteredCollector(topScoreDocCollector, filterWeight));
+            assertEquals(1, topScoreDocCollector.topDocs().totalHits.value);
+        }
+        {
+            TopScoreDocCollector topScoreDocCollector = TopScoreDocCollector.create(1, 100);
+            TermQuery termQuery = new TermQuery(new Term("field1", "value"));
+            Weight filterWeight = termQuery.createWeight(searcher, ScoreMode.TOP_DOCS, 1f);
+            searcher.search(new MatchAllDocsQuery(), new FilteredCollector(topScoreDocCollector, filterWeight));
+            assertEquals(numDocs, topScoreDocCollector.topDocs().totalHits.value);
+        }
+    }
+
+    public void testWeightIsNotPropagated() throws IOException {
+        {
+            TotalHitCountCollector totalHitCountCollector = new TotalHitCountCollector();
+            searcher.search(new MatchAllDocsQuery(), totalHitCountCollector);
+            assertEquals(reader.maxDoc(), totalHitCountCollector.getTotalHits());
+        }
+        {
+            TotalHitCountCollector totalHitCountCollector = new TotalHitCountCollector();
+            TermQuery termQuery = new TermQuery(new Term("field2", "value"));
+            Weight filterWeight = termQuery.createWeight(searcher, ScoreMode.TOP_DOCS, 1f);
+            searcher.search(new MatchAllDocsQuery(), new FilteredCollector(totalHitCountCollector, filterWeight));
+            assertEquals(1, totalHitCountCollector.getTotalHits());
+        }
+    }
+}