ContextLab
diff --git a/‎benchmarks/dataframe_performance.py‎
Lines changed: 183 additions & 0 deletions b/‎benchmarks/dataframe_performance.py‎
Lines changed: 183 additions & 0 deletions
diff --git a/‎datawrangler/core/config.ini‎
Lines changed: 3 additions & 0 deletions b/‎datawrangler/core/config.ini‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎datawrangler/core/configurator.py‎
Lines changed: 46 additions & 0 deletions b/‎datawrangler/core/configurator.py‎
Lines changed: 46 additions & 0 deletions
diff --git a/‎datawrangler/decorate/decorate.py‎
Lines changed: 33 additions & 1 deletion b/‎datawrangler/decorate/decorate.py‎
Lines changed: 33 additions & 1 deletion
diff --git a/‎datawrangler/util/lazy_imports.py‎
Lines changed: 1 addition & 0 deletions b/‎datawrangler/util/lazy_imports.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎datawrangler/zoo/array.py‎
Lines changed: 19 additions & 6 deletions b/‎datawrangler/zoo/array.py‎
Lines changed: 19 additions & 6 deletions
@@ -0,0 +1,183 @@
+#!/usr/bin/env python
+"""Benchmark DataFrame performance between pandas and Polars backends."""
+
+import time
+import numpy as np
+import pandas as pd
+import polars as pl
+import sys
+import os
+
+# Add parent directory to path
+sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+import datawrangler as dw
+
+
+def generate_test_data(size='small'):
+    """Generate test data of different sizes."""
+    if size == 'small':
+        n = 1000
+    elif size == 'medium':
+        n = 100000
+    elif size == 'large':
+        n = 1000000
+    else:
+        raise ValueError(f"Unknown size: {size}")
+    
+    return {
+        'array': np.random.randn(n, 10),
+        'text': [f"Sample text {i}" for i in range(min(n, 1000))],  # Limit text for performance
+        'mixed': [np.random.randn(100), ["text", "data"], None, pd.DataFrame({'a': [1, 2, 3]})]
+    }
+
+
+def time_operation(func, *args, **kwargs):
+    """Time a single operation."""
+    start = time.time()
+    result = func(*args, **kwargs)
+    end = time.time()
+    return result, end - start
+
+
+def benchmark_array_wrangling(data, runs=5):
+    """Benchmark array wrangling with both backends."""
+    results = {'pandas': [], 'polars': []}
+    
+    for _ in range(runs):
+        # Pandas backend
+        _, time_pandas = time_operation(dw.wrangle, data['array'], backend='pandas')
+        results['pandas'].append(time_pandas)
+        
+        # Polars backend
+        _, time_polars = time_operation(dw.wrangle, data['array'], backend='polars')
+        results['polars'].append(time_polars)
+    
+    return {
+        'pandas': {
+            'mean': np.mean(results['pandas']),
+            'std': np.std(results['pandas']),
+            'min': np.min(results['pandas']),
+            'max': np.max(results['pandas'])
+        },
+        'polars': {
+            'mean': np.mean(results['polars']),
+            'std': np.std(results['polars']),
+            'min': np.min(results['polars']),
+            'max': np.max(results['polars'])
+        }
+    }
+
+
+def benchmark_dataframe_operations(size='medium', runs=5):
+    """Benchmark common DataFrame operations."""
+    n = 100000 if size == 'medium' else 1000000
+    
+    # Create test DataFrames
+    data = {
+        'A': np.random.randn(n),
+        'B': np.random.randn(n),
+        'C': np.random.choice(['X', 'Y', 'Z'], n),
+        'D': np.random.randint(0, 100, n)
+    }
+    
+    df_pandas = pd.DataFrame(data)
+    df_polars = pl.DataFrame(data)
+    
+    operations = {
+        'groupby_mean': lambda df: df.groupby('C').mean() if isinstance(df, pd.DataFrame) else df.group_by('C').mean(),
+        'filter': lambda df: df[df['A'] > 0] if isinstance(df, pd.DataFrame) else df.filter(pl.col('A') > 0),
+        'sort': lambda df: df.sort_values('B') if isinstance(df, pd.DataFrame) else df.sort('B'),
+        'join': lambda df: df.merge(df, on='C', suffixes=('_left', '_right')) if isinstance(df, pd.DataFrame) else df.join(df, on='C', suffix='_right')
+    }
+    
+    results = {}
+    
+    for op_name, op_func in operations.items():
+        results[op_name] = {'pandas': [], 'polars': []}
+        
+        for _ in range(runs):
+            # Pandas
+            _, time_pandas = time_operation(op_func, df_pandas)
+            results[op_name]['pandas'].append(time_pandas)
+            
+            # Polars
+            _, time_polars = time_operation(op_func, df_polars)
+            results[op_name]['polars'].append(time_polars)
+    
+    # Calculate statistics
+    for op_name in results:
+        for backend in ['pandas', 'polars']:
+            times = results[op_name][backend]
+            results[op_name][backend] = {
+                'mean': np.mean(times),
+                'std': np.std(times),
+                'speedup': np.mean(results[op_name]['pandas']) / np.mean(times) if backend == 'polars' else 1.0
+            }
+    
+    return results
+
+
+def format_results(results, title):
+    """Format benchmark results for display."""
+    print(f"\n{title}")
+    print("=" * len(title))
+    
+    if 'pandas' in results and 'polars' in results:
+        # Simple comparison
+        print(f"Pandas: {results['pandas']['mean']:.4f}s (±{results['pandas']['std']:.4f}s)")
+        print(f"Polars: {results['polars']['mean']:.4f}s (±{results['polars']['std']:.4f}s)")
+        speedup = results['pandas']['mean'] / results['polars']['mean']
+        print(f"Speedup: {speedup:.2f}x")
+    else:
+        # Detailed operations
+        for op_name, op_results in results.items():
+            print(f"\n{op_name}:")
+            print(f"  Pandas: {op_results['pandas']['mean']:.4f}s (±{op_results['pandas']['std']:.4f}s)")
+            print(f"  Polars: {op_results['polars']['mean']:.4f}s (±{op_results['polars']['std']:.4f}s)")
+            print(f"  Speedup: {op_results['polars']['speedup']:.2f}x")
+
+
+def main():
+    """Run all benchmarks."""
+    print("Data Wrangler DataFrame Performance Benchmarks")
+    print("=" * 50)
+    
+    # Test data sizes
+    sizes = ['small', 'medium']
+    
+    for size in sizes:
+        print(f"\n\nTesting with {size} data...")
+        data = generate_test_data(size)
+        
+        # Array wrangling benchmark
+        array_results = benchmark_array_wrangling(data, runs=5)
+        format_results(array_results, f"Array Wrangling ({size})")
+        
+        # DataFrame operations benchmark
+        if size in ['medium']:  # Only run intensive operations on medium data
+            df_results = benchmark_dataframe_operations(size, runs=3)
+            format_results(df_results, f"DataFrame Operations ({size})")
+    
+    # Memory usage comparison
+    print("\n\nMemory Usage Comparison")
+    print("=" * 30)
+    
+    # Create large array
+    large_array = np.random.randn(1000000, 10)
+    
+    # Pandas
+    df_pandas = dw.wrangle(large_array, backend='pandas')
+    pandas_memory = df_pandas.memory_usage(deep=True).sum() / 1024 / 1024  # MB
+    
+    # Polars
+    df_polars = dw.wrangle(large_array, backend='polars')
+    polars_memory = df_polars.estimated_size() / 1024 / 1024  # MB
+    
+    print(f"Pandas: {pandas_memory:.2f} MB")
+    print(f"Polars: {polars_memory:.2f} MB")
+    print(f"Memory saved: {(1 - polars_memory/pandas_memory) * 100:.1f}%")
+
+
+if __name__ == "__main__":
+    main()
@@ -1,6 +1,9 @@
 [supported_formats]
 types = ['dataframe', 'text', 'array', 'null']
 
+[backend]
+default = 'pandas'
+
 
 [text]
 model = ['CountVectorizer', 'LatentDirichletAllocation']
 
@@ -139,3 +139,49 @@ def __repr__(self):
                 return repr(self.__wrapped__)
 
         return WrappedClass
+
+
+# Global backend configuration
+_dataframe_backend = 'pandas'  # Default backend
+
+
+def set_dataframe_backend(backend):
+    """
+    Set the global DataFrame backend preference.
+    
+    Parameters
+    ----------
+    backend : str
+        The backend to use ('pandas' or 'polars')
+        
+    Raises
+    ------
+    ValueError
+        If backend is not 'pandas' or 'polars'
+    """
+    global _dataframe_backend
+    
+    if backend not in ['pandas', 'polars']:
+        raise ValueError(f"Invalid backend: {backend}. Must be 'pandas' or 'polars'")
+    
+    _dataframe_backend = backend
+
+
+def get_dataframe_backend():
+    """
+    Get the current global DataFrame backend preference.
+    
+    Returns
+    -------
+    str
+        The current backend ('pandas' or 'polars')
+    """
+    return _dataframe_backend
+
+
+def reset_dataframe_backend():
+    """
+    Reset the DataFrame backend to the default (pandas).
+    """
+    global _dataframe_backend
+    _dataframe_backend = 'pandas'
@@ -9,6 +9,7 @@
     get_sklearn_manifold,
     get_sklearn_feature_extraction_text,
     get_sklearn_mixture,
+    get_sklearn_impute,
     lazy_import_with_fallback
 )
 
@@ -43,6 +44,13 @@ def import_sklearn_models(module):
     -------
     :return: a list of valid models contained in the module
     """
+    # Handle experimental features like IterativeImputer
+    if module.__name__ == 'sklearn.impute':
+        try:
+            from sklearn.experimental import enable_iterative_imputer
+        except ImportError:
+            pass
+    
     models = [d for d in dir(module) if hasattr(getattr(module, d), 'fit_transform')]
     for m in models:
         exec(f'from {module.__name__} import {m}', globals())
@@ -74,6 +82,30 @@ def get_sklearn_model(x):
         else:
             return None
     elif type(x) is str:
+        # Check if it's in the impute models
+        if x in _get_impute_models():
+            # noinspection PyBroadException
+            try:
+                return get_sklearn_model(eval(x))
+            except:
+                pass
+        
+        # Check other model categories
+        if x in _get_reduce_models():
+            # noinspection PyBroadException
+            try:
+                return get_sklearn_model(eval(x))
+            except:
+                pass
+                
+        if x in _get_text_vectorizers():
+            # noinspection PyBroadException
+            try:
+                return get_sklearn_model(eval(x))
+            except:
+                pass
+        
+        # Try direct evaluation as fallback
         # noinspection PyBroadException
         try:
             return get_sklearn_model(eval(x))
@@ -162,7 +194,7 @@ def _get_impute_models():
     """Lazy initialization of impute models."""
     global impute_models
     if impute_models is None:
-        impute_models = import_sklearn_models(_get_sklearn_impute())
+        impute_models = import_sklearn_models(get_sklearn_impute())
     return impute_models
 
 # source: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html
 
@@ -142,6 +142,7 @@ def wrapper(*args, **kwargs):
 get_sklearn = lazy_import('sklearn')
 get_numpy = lazy_import('numpy')
 get_pandas = lazy_import('pandas')
+get_polars = lazy_import('polars')  # Now a required dependency
 get_torch = lazy_import_with_fallback(
     'torch',
     fallback_message="PyTorch not installed. Install with: pip install torch"
 
@@ -4,6 +4,8 @@
 import os
 from ..io import load
 from ..core.configurator import update_dict
+from ..util.lazy_imports import get_polars
+from .polars_dataframe import create_polars_dataframe
 
 
 def is_number(x):
@@ -53,28 +55,30 @@ def is_array(x):
     return False
 
 
-def wrangle_array(data, return_model=False, **kwargs):
+def wrangle_array(data, return_model=False, backend=None, **kwargs):
     """
-    Turn an Array into a Pandas DataFrame
+    Turn an Array into a DataFrame (pandas or Polars)
 
     Parameters
     ----------
     :param data: an Array (or path to an Array)
     :param return_model: if True, return a function for casting an Array into a DataFrame (along with the resulting
       DataFrame).  Default: False
+    :param backend: str, optional
+        The DataFrame backend to use ('pandas' or 'polars'). If None, uses the default backend (pandas)
     :param kwargs: a list of keyword arguments:
        - 'model': a callable function or constructor, or a dictionary containing the following keys:
          - 'model': a callable function or constructor
          - 'args': a list of arguments to pass to the function (in addition to data)
          - 'kwargs': a list of keyword arguments to pass to the function
-         default: pandas.DataFrame
+         default: pandas.DataFrame or polars.DataFrame (based on backend)
        - all other keyword arguments are passed to the model (or constructor).  These can be used to change how the
          DataFrame is created (e.g., passing columns=['one', 'two', 'three'] will change the column names of the
-         resulting DataFrame, assuming the "model" is pandas.DataFrame).
+         resulting DataFrame).
 
     Returns
     -------
-    :return: The resulting DataFrame
+    :return: The resulting DataFrame (pandas or Polars based on backend)
     """
     def stacker(x):
         while x.ndim >= 3:
@@ -93,7 +97,16 @@ def stacker(x):
 
     data = stacker(np.atleast_2d(data))
 
-    model = kwargs.pop('model', pd.DataFrame)
+    # Determine default model based on backend
+    if 'model' not in kwargs:
+        if backend == 'polars':
+            default_model = create_polars_dataframe
+        else:
+            default_model = pd.DataFrame
+    else:
+        default_model = pd.DataFrame
+    
+    model = kwargs.pop('model', default_model)
     if type(model) is dict:
         # noinspection PyArgumentList
         assert all([k in model.keys() for k in ['model', 'args', 'kwargs']]), ValueError(f'Invalid model: {model}')