Mrassimo
diff --git a/‎TASK.md‎
Lines changed: 186 additions & 89 deletions b/‎TASK.md‎
Lines changed: 186 additions & 89 deletions
diff --git a/‎bin/datapilot.js‎
Lines changed: 5 additions & 1 deletion b/‎bin/datapilot.js‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎tests/fixtures/diabetes_test.csv‎ ‎diabetes_patients.csv‎tests/fixtures/diabetes_test.csv renamed to diabetes_patients.csv b/‎tests/fixtures/diabetes_test.csv‎ ‎diabetes_patients.csv‎tests/fixtures/diabetes_test.csv renamed to diabetes_patients.csv
diff --git a/‎src/commands/eda/detectors/dataTypeDetector.js‎
Lines changed: 12 additions & 4 deletions b/‎src/commands/eda/detectors/dataTypeDetector.js‎
Lines changed: 12 additions & 4 deletions
diff --git a/‎src/commands/eda/index.js‎
Lines changed: 65 additions & 20 deletions b/‎src/commands/eda/index.js‎
Lines changed: 65 additions & 20 deletions
diff --git a/‎src/commands/eng.js‎
Lines changed: 2 additions & 1 deletion b/‎src/commands/eng.js‎
Lines changed: 2 additions & 1 deletion
@@ -100,6 +100,8 @@ async function runWithProgress(command, filePath, options) {
 
     spinner.stop();
     const result = await command(filePath, enhancedOptions);
+    // Ensure process exits cleanly after successful completion
+    process.exit(0);
     return result;
   } catch (error) {
     spinner.fail(`Analysis failed: ${error.message}`);
@@ -335,11 +337,13 @@ program
   .option('--delimiter <delimiter>', 'Force specific delimiter (comma, semicolon, tab, pipe)')
   .option('--timeout <ms>', 'Set timeout in milliseconds (default: 60000)', '60000')
   .option('--force', 'Continue analysis despite data quality warnings')
-  .option('--comprehensive', 'Use comprehensive analysis (default: true)', true)
+  .option('--comprehensive <bool>', 'Use comprehensive analysis (default: true)', 'true')
   .action(async (file, options) => {
     const filePath = validateFile(file);
     // Convert timeout to number
     if (options.timeout) options.timeout = parseInt(options.timeout);
+    // Convert comprehensive to boolean
+    if (options.comprehensive) options.comprehensive = options.comprehensive === 'true';
     await runWithProgress(llmContext, filePath, options);
   });
 
 
@@ -14,13 +14,17 @@ export function detectAnalysisNeeds(records, columnTypes) {
 
   const columns = Object.keys(columnTypes);
 
+  // Sample records for analysis detection on large datasets
+  const sampleSize = Math.min(1000, records.length);
+  const sampledRecords = records.length > 1000 ? records.slice(0, sampleSize) : records;
+  
   // Check for regression analysis (continuous variable with high uniqueness)
   const numericColumns = columns.filter(col => 
     ['integer', 'float'].includes(columnTypes[col].type)
   );
 
   numericColumns.forEach(col => {
-    const values = records.map(r => r[col]).filter(v => v !== null && v !== undefined);
+    const values = sampledRecords.map(r => r[col]).filter(v => v !== null && v !== undefined);
     const uniqueRatio = new Set(values).size / values.length;
     if (uniqueRatio > 0.7 && values.length > 30) {
       analyses.regression = true;
@@ -29,10 +33,10 @@ export function detectAnalysisNeeds(records, columnTypes) {
 
   // Check for time series analysis
   const dateColumns = columns.filter(col => columnTypes[col].type === 'date');
-  if (dateColumns.length > 0 && records.length > 30) {
+  if (dateColumns.length > 0 && sampledRecords.length > 30) {
     // Check for regular intervals
     const dateCol = dateColumns[0];
-    const dates = records
+    const dates = sampledRecords
       .map(r => r[dateCol])
       .filter(d => d instanceof Date)
       .sort((a, b) => a - b);
@@ -102,10 +106,14 @@ export function detectAnalysisNeeds(records, columnTypes) {
 export function findPotentialTargets(records, columnTypes) {
   const columns = Object.keys(columnTypes);
   const targets = [];
+  
+  // Sample for large datasets
+  const sampleSize = Math.min(1000, records.length);
+  const sampledRecords = records.length > 1000 ? records.slice(0, sampleSize) : records;
 
   columns.forEach(col => {
     const type = columnTypes[col];
-    const values = records.map(r => r[col]).filter(v => v !== null && v !== undefined);
+    const values = sampledRecords.map(r => r[col]).filter(v => v !== null && v !== undefined);
     const uniqueRatio = new Set(values).size / values.length;
 
     // Good regression target: continuous with high variance
 
@@ -34,8 +34,8 @@ export async function edaComprehensive(filePath, options = {}) {
   // Structured data mode for LLM consumption
   const structuredMode = options.structuredOutput || options.llmMode;
 
-  // Set timeout for analysis (default 30 seconds)
-  const timeoutMs = options.timeout || 30000;
+  // Set timeout for analysis (default 60 seconds for large datasets)
+  const timeoutMs = options.timeout || 60000;
 
   const analysisPromise = performAnalysis();
   const timeoutPromise = new Promise((_, reject) => {
@@ -48,7 +48,7 @@ export async function edaComprehensive(filePath, options = {}) {
     return await Promise.race([analysisPromise, timeoutPromise]);
   } catch (error) {
     outputHandler.restore();
-    if (spinner) spinner.error({ text: 'Analysis failed or timed out' });
+    if (spinner) spinner.fail('Analysis failed or timed out');
 
     if (error.message.includes('timed out')) {
       console.error(chalk.red('🚨 EDA Analysis Timeout'));
@@ -87,8 +87,10 @@ export async function edaComprehensive(filePath, options = {}) {
         }
 
         if (spinner) spinner.text = 'Detecting column types...';
+        const typeStart = Date.now();
         try {
           columnTypes = detectColumnTypes(records);
+          console.log(`Column type detection took ${Date.now() - typeStart}ms`);
         } catch (typeError) {
           throw new Error(`Column type detection failed: ${typeError.message}`);
         }
@@ -99,6 +101,17 @@ export async function edaComprehensive(filePath, options = {}) {
       const fileName = basename(filePath);
       const columns = Object.keys(columnTypes);
 
+      // Apply sampling for large datasets
+      const originalRecordCount = records.length;
+      if (records.length > 10000) {
+        if (spinner) spinner.text = `Sampling large dataset (${records.length} rows)...`;
+        const samplingStrategy = createSamplingStrategy(records, 'basic');
+        // For EDA, use max 5000 rows for analysis
+        samplingStrategy.sampleSize = Math.min(5000, samplingStrategy.sampleSize);
+        records = performSampling(records, samplingStrategy);
+        if (spinner) spinner.text = `Analyzing sample of ${records.length} rows from ${originalRecordCount} total rows...`;
+      }
+      
       // Handle empty dataset
       if (records.length === 0) {
         const report = formatComprehensiveEDAReport({
@@ -124,12 +137,22 @@ export async function edaComprehensive(filePath, options = {}) {
       if (spinner) spinner.text = 'Detecting analysis requirements...';
       const analysisNeeds = detectAnalysisNeeds(records, columnTypes);
 
+      // For very large datasets, disable expensive analyses
+      if (records.length > 10000) {
+        analysisNeeds.regression = false;
+        analysisNeeds.cart = false;
+        analysisNeeds.correlationAnalysis = false;
+        analysisNeeds.timeSeries = false;
+        analysisNeeds.mlReadiness = false;
+      }
+      
       // Initialize analysis object
       const analysis = {
         fileName,
         fileSize: formatFileSize(fileStats.size),
-        rowCount: records.length,
+        rowCount: originalRecordCount,
         columnCount: columns.length,
+        sampledRows: records.length < originalRecordCount ? records.length : undefined,
         columns: [],
         numericColumnCount: 0,
         categoricalColumnCount: 0,
@@ -147,19 +170,28 @@ export async function edaComprehensive(filePath, options = {}) {
       const columnAnalyses = {};
       let totalNonNull = 0;
 
-      // Process columns with timeout protection
+      // Process columns with timeout protection  
+      const sampleForStats = records.slice(0, Math.min(5000, records.length));
+      
       for (const column of columns) {
         try {
           const type = columnTypes[column];
-          const values = records.map(r => r[column]).filter(v => v !== null && v !== undefined);
+          // For large datasets, estimate non-null ratio from sample
+          const sampleValues = sampleForStats.map(r => r[column]);
+          const nonNullInSample = sampleValues.filter(v => v !== null && v !== undefined).length;
+          const nonNullRatio = nonNullInSample / sampleForStats.length;
+          const estimatedNonNullCount = Math.round(nonNullRatio * records.length);
+          
+          // Use sampled values for stats
+          const values = sampleValues.filter(v => v !== null && v !== undefined);
 
           const columnAnalysis = {
             name: column,
             type: type.type,
-            nonNullRatio: values.length / records.length
+            nonNullRatio: nonNullRatio
           };
 
-          totalNonNull += values.length;
+          totalNonNull += estimatedNonNullCount;
 
           // Add timeout protection for expensive calculations
           if (['integer', 'float'].includes(type.type) && values.length > 0) {
@@ -239,7 +271,7 @@ export async function edaComprehensive(filePath, options = {}) {
 
         for (const col of numericColumns) {
           const values = records.map(r => r[col]);
-          analysis.distributionAnalysis[col] = analyzeDistribution(values);
+          analysis.distributionAnalysis[col] = await analyzeDistribution(values);
         }
       }
 
@@ -265,8 +297,8 @@ export async function edaComprehensive(filePath, options = {}) {
         analysis.outlierRate = totalOutliers / (records.length * numericColumns.length);
       }
 
-      // CART analysis
-      if (analysisNeeds.cart) {
+      // CART analysis (skip for large datasets)
+      if (analysisNeeds.cart && records.length < 5000) {
         if (spinner) spinner.text = 'Performing CART analysis...';
         const targets = findPotentialTargets(records, columnTypes);
         if (targets.length > 0) {
@@ -277,32 +309,43 @@ export async function edaComprehensive(filePath, options = {}) {
             targets[0].column
           );
         }
+      } else if (analysisNeeds.cart) {
+        analysis.cartAnalysis = { skipped: true, reason: 'Dataset too large' };
       }
 
-      // Regression analysis
-      if (analysisNeeds.regression) {
+      // Regression analysis (skip for large datasets)
+      if (analysisNeeds.regression && records.length < 5000) {
         if (spinner) spinner.text = 'Performing regression analysis...';
         analysis.regressionAnalysis = performRegressionAnalysis(
           records, 
           columns, 
           columnTypes
         );
+      } else if (analysisNeeds.regression) {
+        analysis.regressionAnalysis = { skipped: true, reason: 'Dataset too large' };
       }
 
-      // Correlation analysis
-      if (analysisNeeds.correlationAnalysis) {
+      // Correlation analysis (skip for large datasets)
+      if (analysisNeeds.correlationAnalysis && records.length < 5000) {
         if (spinner) spinner.text = 'Analyzing correlations...';
         analysis.correlationAnalysis = performCorrelationAnalysis(records, columns, columnTypes);
+      } else if (analysisNeeds.correlationAnalysis) {
+        if (spinner) spinner.text = 'Skipping correlation analysis for large dataset...';
+        analysis.correlationAnalysis = { skipped: true, reason: 'Dataset too large' };
       }
 
-      // Pattern detection
+      // Pattern detection (limit for large datasets)
       if (analysisNeeds.patternDetection) {
         if (spinner) spinner.text = 'Detecting patterns...';
-        analysis.patterns = detectPatterns(records, columns, columnTypes);
+        const patternRecords = records.length > 5000 ? records.slice(0, 5000) : records;
+        analysis.patterns = detectPatterns(patternRecords, columns, columnTypes);
+        if (records.length > 5000) {
+          analysis.patterns.note = 'Analyzed first 5000 rows for patterns';
+        }
       }
 
-      // Time series analysis
-      if (analysisNeeds.timeSeries) {
+      // Time series analysis (limit for large datasets)
+      if (analysisNeeds.timeSeries && records.length < 10000) {
         if (spinner) spinner.text = 'Analyzing time series...';
         const dateColumn = analysis.dateColumns[0]; // Use first date column
         const numericColumns = columns.filter(col => 
@@ -316,6 +359,8 @@ export async function edaComprehensive(filePath, options = {}) {
             numericColumns
           );
         }
+      } else if (analysisNeeds.timeSeries) {
+        analysis.timeSeriesAnalysis = { skipped: true, reason: 'Dataset too large for time series analysis' };
       }
 
       // Australian data validation
@@ -385,7 +430,7 @@ export async function edaComprehensive(filePath, options = {}) {
 
     } catch (error) {
       outputHandler.restore();
-      if (spinner) spinner.error({ text: 'Error during analysis' });
+      if (spinner) spinner.fail('Error during analysis');
       console.error(error.message);
       if (!options.quiet) process.exit(1);
       throw error;
 
@@ -17,6 +17,7 @@ class ArchaeologyEngine {
   }
 
   async analyzeTable(csvPath, options = {}) {
+    const outputHandler = new OutputHandler(options);
     const knowledge = await this.knowledgeBase.load();
 
     const spinner = options.quiet ? null : ora('Reading CSV file...').start();
@@ -55,7 +56,7 @@ class ArchaeologyEngine {
     // Check if data is empty
     if (!records || records.length === 0) {
       outputHandler.restore();
-      if (spinner) spinner.error({ text: 'Empty dataset - no data to analyze' });
+      if (spinner) spinner.fail('Empty dataset - no data to analyze');
       console.error('No data found in the CSV file');
       if (!options.quiet) process.exit(1);
       return;