GH-3249: Fix incorrect Bloom filter data when reading from ByteArrayInputStream by using readFully() (#3250)

wangyum · web-flow · commit 0a86015cd96e · 2025-07-11T23:12:04.000+08:00
diff --git a/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetFileReader.java b/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetFileReader.java
@@ -1667,7 +1667,14 @@ public BloomFilter readBloomFilter(ColumnChunkMetaData meta) throws IOException
     byte[] bitset;
     if (null == bloomFilterDecryptor) {
       bitset = new byte[numBytes];
-      in.read(bitset);
+      // For negative bloomFilterLength (files from older versions), use readFully() instead of read().
+      // readFully() guarantees reading exactly numBytes bytes, while read() may read fewer bytes in a single
+      // call. This ensures the entire bitset is properly loaded.
+      if (bloomFilterLength < 0) {
+        f.readFully(bitset);
+      } else {
+        in.read(bitset);
+      }
     } else {
       bitset = bloomFilterDecryptor.decrypt(in, bloomFilterBitsetAAD);
       if (bitset.length != numBytes) {