address PR comments and use dict encoding in tpcds table

jayshrivastava · jayshrivastava · commit b076bacf37e2 · 2025-12-04T17:25:52.000-05:00
diff --git a/.gitignore b/.gitignore
@@ -3,5 +3,4 @@
 /benchmarks/data/
 testdata/tpch/*
 !testdata/tpch/queries
-testdata/tpch/data/
 testdata/tpcds/data/
diff --git a/src/test_utils/tpcds.rs b/src/test_utils/tpcds.rs
@@ -1,12 +1,19 @@
 use datafusion::{
+    arrow::{
+        array::{Array, ArrayRef, DictionaryArray, StringArray, StringViewArray},
+        datatypes::{DataType, Field, Schema, UInt16Type},
+        record_batch::RecordBatch,
+    },
     common::{internal_datafusion_err, internal_err},
     error::Result,
     execution::context::SessionContext,
     prelude::ParquetReadOptions,
 };
+use parquet::{arrow::ArrowWriter, file::properties::WriterProperties};
 use std::fs;
 use std::path::Path;
 use std::process::Command;
+use std::sync::Arc;
 
 pub fn get_data_dir() -> std::path::PathBuf {
     std::path::Path::new(env!("CARGO_MANIFEST_DIR")).join("testdata/tpcds/data")
@@ -74,15 +81,147 @@ pub const TPCDS_TABLES: &[&str] = &[
     "web_site",
 ];
 
+/// Tables that should have dictionary encoding applied for testing
+const DICT_ENCODING_TABLES: &[&str] = &["item", "customer", "store"];
+
+/// Force dictionary encoding for specific string columns in a table for extra test coverage.
+fn force_dictionary_encoding_for_table(
+    table_name: &str,
+    batch: RecordBatch,
+) -> Result<RecordBatch> {
+    let dict_columns = match table_name {
+        "item" => vec!["i_brand", "i_category", "i_class", "i_color", "i_size"],
+        "customer" => vec!["c_salutation"],
+        "store" => vec!["s_state", "s_country"],
+        _ => vec![], // No dictionary encoding for other tables
+    };
+
+    if dict_columns.is_empty() {
+        return Ok(batch);
+    }
+
+    let schema = batch.schema();
+    let mut new_fields = Vec::new();
+    let mut new_columns = Vec::new();
+
+    for (i, field) in schema.fields().iter().enumerate() {
+        let column = batch.column(i);
+
+        // Check if this column should be dictionary-encoded
+        if dict_columns.contains(&field.name().as_str())
+            && matches!(field.data_type(), DataType::Utf8 | DataType::Utf8View)
+        {
+            // Convert to dictionary encoding
+            let string_data =
+                if let Some(string_array) = column.as_any().downcast_ref::<StringArray>() {
+                    string_array.iter().collect::<Vec<_>>()
+                } else if let Some(view_array) = column.as_any().downcast_ref::<StringViewArray>() {
+                    view_array.iter().collect::<Vec<_>>()
+                } else {
+                    return internal_err!("Expected string array for column {}", field.name());
+                };
+
+            let dict_array: DictionaryArray<UInt16Type> = string_data.into_iter().collect();
+            let dict_field = Field::new(
+                field.name(),
+                DataType::Dictionary(Box::new(DataType::UInt16), Box::new(DataType::Utf8)),
+                field.is_nullable(),
+            );
+
+            new_fields.push(dict_field);
+            new_columns.push(Arc::new(dict_array) as ArrayRef);
+        } else {
+            new_fields.push((**field).clone());
+            new_columns.push(column.clone());
+        }
+    }
+
+    let new_schema = Arc::new(Schema::new(new_fields));
+    RecordBatch::try_new(new_schema, new_columns).map_err(|e| internal_datafusion_err!("{}", e))
+}
+
 pub async fn register_tpcds_table(
     ctx: &SessionContext,
     table_name: &str,
     data_dir: Option<&Path>,
+) -> Result<()> {
+    register_tpcds_table_with_options(ctx, table_name, data_dir, false).await
+}
+
+pub async fn register_tpcds_table_with_options(
+    ctx: &SessionContext,
+    table_name: &str,
+    data_dir: Option<&Path>,
+    dict_encode_items_table: bool,
 ) -> Result<()> {
     let default_data_dir = get_data_dir();
     let data_path = data_dir.unwrap_or(&default_data_dir);
 
-    // Check if this is a single parquet file
+    // Apply dictionary encoding if requested and materialize to disk
+    if dict_encode_items_table && DICT_ENCODING_TABLES.contains(&table_name) {
+        let table_dir_path = data_path.join(table_name);
+        if table_dir_path.is_dir() {
+            let dict_table_path = data_path.join(format!("{table_name}_dict"));
+
+            // Check if dictionary encoded version already exists
+            if dict_table_path.exists() {
+                // Use the existing dictionary encoded version
+                ctx.register_parquet(
+                    table_name,
+                    &dict_table_path.to_string_lossy(),
+                    ParquetReadOptions::default(),
+                )
+                .await?;
+                return Ok(());
+            }
+
+            // Register temporarily to read the original data
+            let temp_table_name = format!("temp_{table_name}");
+            ctx.register_parquet(
+                &temp_table_name,
+                &table_dir_path.to_string_lossy(),
+                ParquetReadOptions::default(),
+            )
+            .await?;
+
+            // Read data and apply dictionary encoding
+            let df = ctx.table(&temp_table_name).await?;
+            let batches = df.collect().await?;
+
+            let mut dict_batches = Vec::new();
+            for batch in batches {
+                dict_batches.push(force_dictionary_encoding_for_table(table_name, batch)?);
+            }
+
+            // Write dictionary-encoded data to disk
+            if !dict_batches.is_empty() {
+                fs::create_dir_all(&dict_table_path)?;
+                let dict_file_path = dict_table_path.join("data.parquet");
+                let file = fs::File::create(&dict_file_path)?;
+                let props = WriterProperties::builder().build();
+                let mut writer = ArrowWriter::try_new(file, dict_batches[0].schema(), Some(props))?;
+
+                for batch in &dict_batches {
+                    writer.write(batch)?;
+                }
+                writer.close()?;
+
+                // Register the dictionary encoded table
+                ctx.register_parquet(
+                    table_name,
+                    &dict_table_path.to_string_lossy(),
+                    ParquetReadOptions::default(),
+                )
+                .await?;
+            }
+
+            // Deregister the temporary table
+            ctx.deregister_table(&temp_table_name)?;
+            return Ok(());
+        }
+    }
+
+    // Use normal parquet registration for all tables
     let table_file_path = data_path.join(format!("{table_name}.parquet"));
     if table_file_path.is_file() {
         ctx.register_parquet(
@@ -113,10 +252,17 @@ pub async fn register_tpcds_table(
 }
 
 pub async fn register_tables(ctx: &SessionContext) -> Result<Vec<String>> {
+    register_tables_with_options(ctx, false).await
+}
+
+pub async fn register_tables_with_options(
+    ctx: &SessionContext,
+    dict_encode_items_table: bool,
+) -> Result<Vec<String>> {
     let mut registered_tables = Vec::new();
 
     for &table_name in TPCDS_TABLES {
-        register_tpcds_table(ctx, table_name, None).await?;
+        register_tpcds_table_with_options(ctx, table_name, None, dict_encode_items_table).await?;
         registered_tables.push(table_name.to_string());
     }
 
diff --git a/testdata/tpcds/generate.sh b/testdata/tpcds/generate.sh
@@ -2,6 +2,9 @@
 
 set -e
 
+# Get the directory where this script is located
+SCRIPT_DIR=$( cd -- "$( dirname -- "${BASH_SOURCE[0]}" )" &> /dev/null && pwd )
+
 if [ $# -ne 1 ]; then
     echo "Usage: $0 <scale_factor>"
     echo "Scale factor must be greater than or equal to 0"
@@ -22,46 +25,46 @@ if ! command -v duckdb &> /dev/null; then
 fi
 
 echo "Clearing testdata/tpcds/data directory..."
-rm -rf ./data
-mkdir data
+rm -rf "$SCRIPT_DIR/data"
+mkdir "$SCRIPT_DIR/data"
 
 echo "Removing existing database file..."
-rm -f tpcds.duckdb
+rm -f "$SCRIPT_DIR/tpcds.duckdb"
 
 echo "Generating TPC-DS data with scale factor $SCALE_FACTOR..."
-duckdb tpcds.duckdb -c "INSTALL tpcds; LOAD tpcds; CALL dsdgen(sf=$SCALE_FACTOR);"
+duckdb "$SCRIPT_DIR/tpcds.duckdb" -c "INSTALL tpcds; LOAD tpcds; CALL dsdgen(sf=$SCALE_FACTOR);"
 
 FILE_SIZE_BYTES=16777216
 
 echo "Exporting tables to parquet files..."
-duckdb tpcds.duckdb << EOF
-COPY store_sales TO 'data/store_sales' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY catalog_sales TO 'data/catalog_sales' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY web_sales TO 'data/web_sales' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY store_returns TO 'data/store_returns' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY catalog_returns TO 'data/catalog_returns' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY web_returns TO 'data/web_returns' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY inventory TO 'data/inventory' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY date_dim TO 'data/date_dim' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY time_dim TO 'data/time_dim' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY item TO 'data/item' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY customer TO 'data/customer' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY customer_address TO 'data/customer_address' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY customer_demographics TO 'data/customer_demographics' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY household_demographics TO 'data/household_demographics' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY income_band TO 'data/income_band' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY warehouse TO 'data/warehouse' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY store TO 'data/store' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY call_center TO 'data/call_center' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY web_site TO 'data/web_site' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY web_page TO 'data/web_page' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY ship_mode TO 'data/ship_mode' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY reason TO 'data/reason' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY promotion TO 'data/promotion' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
-COPY catalog_page TO 'data/catalog_page' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+duckdb "$SCRIPT_DIR/tpcds.duckdb" << EOF
+COPY store_sales TO '$SCRIPT_DIR/data/store_sales' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY catalog_sales TO '$SCRIPT_DIR/data/catalog_sales' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY web_sales TO '$SCRIPT_DIR/data/web_sales' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY store_returns TO '$SCRIPT_DIR/data/store_returns' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY catalog_returns TO '$SCRIPT_DIR/data/catalog_returns' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY web_returns TO '$SCRIPT_DIR/data/web_returns' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY inventory TO '$SCRIPT_DIR/data/inventory' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY date_dim TO '$SCRIPT_DIR/data/date_dim' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY time_dim TO '$SCRIPT_DIR/data/time_dim' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY item TO '$SCRIPT_DIR/data/item' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY customer TO '$SCRIPT_DIR/data/customer' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY customer_address TO '$SCRIPT_DIR/data/customer_address' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY customer_demographics TO '$SCRIPT_DIR/data/customer_demographics' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY household_demographics TO '$SCRIPT_DIR/data/household_demographics' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY income_band TO '$SCRIPT_DIR/data/income_band' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY warehouse TO '$SCRIPT_DIR/data/warehouse' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY store TO '$SCRIPT_DIR/data/store' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY call_center TO '$SCRIPT_DIR/data/call_center' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY web_site TO '$SCRIPT_DIR/data/web_site' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY web_page TO '$SCRIPT_DIR/data/web_page' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY ship_mode TO '$SCRIPT_DIR/data/ship_mode' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY reason TO '$SCRIPT_DIR/data/reason' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY promotion TO '$SCRIPT_DIR/data/promotion' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
+COPY catalog_page TO '$SCRIPT_DIR/data/catalog_page' (FORMAT PARQUET, COMPRESSION ZSTD, FILE_SIZE_BYTES ${FILE_SIZE_BYTES});
 EOF
 
 echo "Cleaning up temporary database..."
-rm -f tpcds.duckdb
+rm -f "$SCRIPT_DIR/tpcds.duckdb"
 
 echo "TPC-DS data generation complete!"
diff --git a/tests/tpcds_test.rs b/tests/tpcds_test.rs
@@ -7,7 +7,9 @@ mod tests {
     use datafusion_distributed::test_utils::{
         localhost::start_localhost_context,
         property_based::{compare_ordering, compare_result_set},
-        tpcds::{generate_tpcds_data, get_data_dir, get_test_tpcds_query, register_tables},
+        tpcds::{
+            generate_tpcds_data, get_data_dir, get_test_tpcds_query, register_tables_with_options,
+        },
     };
 
     use datafusion::arrow::array::RecordBatch;
@@ -29,11 +31,11 @@ mod tests {
         distributed_ctx.set_distributed_files_per_task(FILES_PER_TASK)?;
         distributed_ctx
             .set_distributed_cardinality_effect_task_scale_factor(CARDINALITY_TASK_COUNT_FACTOR)?;
-        register_tables(&distributed_ctx).await?;
+        register_tables_with_options(&distributed_ctx, true).await?;
 
         // Create single node context to compare results to.
         let single_node_ctx = SessionContext::new();
-        register_tables(&single_node_ctx).await?;
+        register_tables_with_options(&single_node_ctx, true).await?;
 
         Ok((distributed_ctx, single_node_ctx, worker_tasks))
     }
@@ -552,7 +554,7 @@ mod tests {
         ctx: &SessionContext,
         query_sql: &str,
     ) -> (Arc<dyn ExecutionPlan>, Result<Vec<RecordBatch>>) {
-        let df = ctx.sql(&query_sql).await.unwrap();
+        let df = ctx.sql(query_sql).await.unwrap();
         let task_ctx = ctx.task_ctx();
         let plan = df.create_physical_plan().await.unwrap();
         (plan.clone(), collect(plan, task_ctx).await) // Collect execution errors, do not unwrap.