shahineb
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎paper/access/config.py‎
Lines changed: 6 additions & 6 deletions b/‎paper/access/config.py‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎paper/access/data.py‎
Lines changed: 26 additions & 2 deletions b/‎paper/access/data.py‎
Lines changed: 26 additions & 2 deletions
diff --git a/‎paper/access/plots/piControl/utils.py‎
Lines changed: 2 additions & 2 deletions b/‎paper/access/plots/piControl/utils.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎paper/access/trainer.py‎
Lines changed: 34 additions & 26 deletions b/‎paper/access/trainer.py‎
Lines changed: 34 additions & 26 deletions
diff --git a/‎paper/access/utils.py‎
Lines changed: 10 additions & 9 deletions b/‎paper/access/utils.py‎
Lines changed: 10 additions & 9 deletions
diff --git a/‎paper/intermodel/plot_losses.py‎
Lines changed: 68 additions & 0 deletions b/‎paper/intermodel/plot_losses.py‎
Lines changed: 68 additions & 0 deletions
diff --git a/‎paper/miroc/config.py‎
Lines changed: 7 additions & 8 deletions b/‎paper/miroc/config.py‎
Lines changed: 7 additions & 8 deletions
diff --git a/‎paper/miroc/data.py‎
Lines changed: 26 additions & 3 deletions b/‎paper/miroc/data.py‎
Lines changed: 26 additions & 3 deletions
@@ -183,6 +183,7 @@ cython_debug/
 *.eqx
 *.jpg
 *.png
+*.eps
 
 
 # VS Code
 
@@ -34,12 +34,12 @@ class DataConfig:
 
     Specifies dataset paths, climate model, experiments, and pattern scaling parameters.
     """
-    root_dir: str = "/orcd/data/raffaele/001/shahineb/cmip6/processed"  # CMIP6 data directory
+    root_dir: str = "/orcd/data/raffaele/001/shahineb/products/cmip6/processed"  # CMIP6 data directory
     model_name: str = "ACCESS-ESM1-5"  # Climate model to use
     train_experiments: List[str] = ("piControl", "historical", "ssp126", "ssp585")  # Training experiments
-    val_experiments: List[str] = ("ssp370",)  # Validation experiments
+    val_experiments: List[str] = ("1pctCO2",)  # Validation experiments
     variables: List[str] = ("tas", "pr", "hurs", "sfcWind")  # Climate variables
-    val_time_slice: Tuple[str, str] = ("2080-01", "2100-12")  # Time range for validation
+    val_time_slice: Tuple[str, str] = (None, None)  # Time range for validation
     pattern_scaling_path: str = os.path.join(CACHE_DIR, "β.npy")  # Path to save/load pattern scaling coefficients
     norm_stats_path: str = os.path.join(CACHE_DIR, "μ_σ.npz")  # Path to save/load normalization statistics
     in_memory: bool = True  # Whether to load full dataset into memory
@@ -55,9 +55,9 @@ class TrainingConfig:
     Defines hyperparameters, logging intervals, and output paths.
     """
     batch_size: int = 32  # Number of samples per batch
-    learning_rate: float = 3e-4  # Adam optimizer learning rate
+    learning_rate: float = 1e-4  # Adam optimizer learning rate
     ema_decay: float = 0.999  # Exponential moving average decay
-    epochs: int = 10  # Number of training epochs
+    epochs: int = 15  # Number of training epochs
     log_interval: int = 20  # Steps between metric logging
     queue_length: int = 30  # Length of sliding window for metrics
     sample_interval: int = 10000  # Steps between sample generation
@@ -90,7 +90,7 @@ class SamplingConfig:
     n_samples: int = 50  # Number of samples to generate per test point
     batch_size: int = 2  # Batch size for evaluation
     random_seed: int = 2100  # Seed for reproducibility
-    output_dir: str = f"/orcd/data/raffaele/001/shahineb/jax-esm-emulation/paper/{EXPERIMENT_NAME}/outputs"  # Output directory for inference
+    output_dir: str = f"/orcd/data/raffaele/001/shahineb/emulated/climemu/paper/{EXPERIMENT_NAME}/outputs"  # Output directory for inference
 
 
 @dataclass
 
@@ -196,12 +196,34 @@ def estimate_sigma_max(
         print(f"Loading σmax = {σmax} from {sigma_max_path}")
         return σmax
 
+    # Estimate the leading principal component
+    dataset_size = len(dataset)
+    subset_size = min(10000, dataset_size)
+    key = jr.PRNGKey(42)
+    indices = jr.permutation(key, dataset_size)[:subset_size].tolist()
+    dataset_subset = Subset(dataset, indices)
+    dummy_loader = DataLoader(dataset_subset, batch_size=10, collate_fn=numpy_collate)
+    X = []
+    for batch in tqdm(dummy_loader, desc=f"Loading {subset_size} samples"):
+        X.append(utils.process_batch(batch, μ, σ)[:, :-ctx_size])
+    X = jnp.concatenate(X)
+    μX = X.mean(axis=0)
+    Xc = X - μX
+    wlat = jnp.cos(jnp.deg2rad(dataset.cmip6data.lat))
+    G = jnp.einsum("nchw,h,mchw->nm", Xc, wlat, Xc)
+    Σ2, U = jnp.linalg.eigh(G)
+    u1 = U[:, -1]
+    σ1 = jnp.sqrt(Σ2[-1])
+    v1 = jnp.einsum("nchw,n->chw", Xc, u1) / σ1
+    v1 = v1 * wlat[:, None]
+    v1 = v1.ravel()
+    
     # Define search parameters
     σmax_low, σmax_high = search_interval
     max_split = 20
     n_montecarlo = 100
     max_montecarlo = 10000
-    npool = 50000
+    popsize = 8
     tgt_pow = 0.1
     tol = 0.001 + 1.96 * np.sqrt(tgt_pow * (1 - tgt_pow)  / max_montecarlo)
     key = jr.PRNGKey(seed)
@@ -218,7 +240,9 @@ def estimate_sigma_max(
                                          σmax=σmax,
                                          α=alpha,
                                          n_montecarlo=n_montecarlo,
-                                         npool=npool,
+                                         popsize=popsize,
+                                         v1=v1,
+                                         μX=μX,
                                          μ=μ,
                                          σ=σ,
                                          ctx_size=ctx_size,
 
@@ -8,10 +8,10 @@
 from dask.diagnostics import ProgressBar
 
 # Module-level path configuration
-CLIMATOLOGY_ROOT = "/home/shahineb/data/cmip6/processed"
+CLIMATOLOGY_ROOT = "/home/shahineb/data/products/cmip6/processed"
 CLIMATOLOGY_MODEL = 'ACCESS-ESM1-5'
 CLIMATOLOGY_MEMBER = 'r1i1p1f1'
-RAW_CMIP6_ROOT = "/orcd/home/002/shahineb/data/cmip6/raw"
+RAW_CMIP6_ROOT = "/orcd/home/002/shahineb/data/products/cmip6/raw"
 
 
 def groupby_month_and_year(ds):
 
@@ -36,6 +36,31 @@ class TrainingState:
     epoch: int = 0
 
 
+def log_training_metrics(config, state, loss,  grad):
+    wandb.log({"Train Loss": loss, "Gradient norm": grad}, step=state.step)
+
+
+def log_validation_metrics(config, state, val_loader, μ, σ, schedule, χval):
+    # Validation phase
+    val_loss = 0
+    n_val_steps = len(val_loader)
+    with tqdm(total=n_val_steps, desc="Evaluation") as pbar:        
+        for batch_idx, batch in enumerate(val_loader):
+            # Process batch and compute validation loss
+            x = utils.process_batch(batch, μ, σ)
+            _, χval = jr.split(χval)
+            val_value = denoising_batch_loss(
+                state.ema_model, config.model.context_channels, schedule, x, χval
+            )
+            val_loss += val_value.item()
+            # Update progress bar
+            pbar.set_description(f"Epoch {state.epoch + 1} | Val {round(val_loss / (batch_idx + 1), 2)}")
+            pbar.update(1)
+    # Log validation loss
+    wandb.log({"Validation Loss": val_loss / n_val_steps}, step=state.step)
+
+
+
 def train_epoch(
     state: TrainingState,
     train_loader: DataLoader,
@@ -104,38 +129,21 @@ def train_epoch(
             pbar.set_description(f"Epoch {state.epoch + 1} | Loss {round(running_loss, 2)}")
             _ = pbar.update(1)
 
-            # Log metrics at specified intervals
-            if (state.step + 1) % config.training.log_interval == 0:
-                wandb.log({
-                    "Train Loss": running_loss, 
-                    "Gradient norm": running_grad
-                }, step=state.step)
-   
-            # Generate and log samples at specified intervals
-            if (state.step + 1) % config.training.sample_interval == 0:
+            # Log training metrics at specified intervals
+            if (state.step + 1) % config.training.log_interval == 0 or (state.step + 1) & state.step == 0:
+                log_training_metrics(config, state, running_loss, running_grad)
+
+            # log validation metrics + samples at specified intervals
+            if (state.step + 1) % config.training.sample_interval == 0 or (state.step + 1) & state.step == 0:
+                log_validation_metrics(config, state, val_loader, μ, σ, schedule, χval)
+                _, χval = jr.split(χval)
+
                 # Generate samples from current model
                 pred_samples = log_sampler(model=ema_model, key=χtrain)
 
                 # Log samples and metrics to wandb
                 utils.log_samples(pred_samples, log_target_data, config.data.variables, state.step)
 
-    # Validation phase
-    val_loss = 0
-    with tqdm(total=n_val_steps, desc="Evaluation") as pbar:        
-        for batch_idx, batch in enumerate(val_loader):
-            # Process batch and compute validation loss
-            x = utils.process_batch(batch, μ, σ)
-            val_value = denoising_batch_loss(
-                state.ema_model, config.model.context_channels, schedule, x, χval
-            )
-            val_loss += val_value.item()
-            # Update progress bar
-            pbar.set_description(f"Epoch {state.epoch + 1} | Val {round(val_loss / (batch_idx + 1), 2)}")
-            pbar.update(1)
-
-    # Log validation loss
-    wandb.log({"Validation Loss": val_loss / n_val_steps}, step=state.step)
-
     # Checkpoint weights
     if (state.epoch + 1) % config.training.checkpoint_interval == 0:
         eqx.tree_serialise_leaves(config.training.checkpoint_filename, state.ema_model)
 
@@ -82,13 +82,12 @@ def process_batch(batch: Tuple, μ: jnp.ndarray, σ: jnp.ndarray) -> jnp.ndarray
 ################################################################################
 
 
-def estimate_power(dataset, σmax, α, n_montecarlo, npool, μ, σ, ctx_size, key):
+def estimate_power(dataset, σmax, α, n_montecarlo, popsize, v1, μX, μ, σ, ctx_size, key):
     # Initialize dataloader on subset of size n_iter
     dataset_size = len(dataset)
-    indices = jr.permutation(key, dataset_size)[:n_montecarlo].tolist()
-    rejections = 0
+    indices = jr.permutation(key, dataset_size)[:n_montecarlo * popsize].tolist()
     dataset_subset = Subset(dataset, indices)
-    dummy_loader = DataLoader(dataset_subset, batch_size=1, shuffle=True, collate_fn=numpy_collate)
+    dummy_loader = DataLoader(dataset_subset, batch_size=popsize, shuffle=True, collate_fn=numpy_collate)
 
     # Estimate power on this subset
     rejections = 0
@@ -97,12 +96,14 @@ def estimate_power(dataset, σmax, α, n_montecarlo, npool, μ, σ, ctx_size, ke
         for batch in dummy_loader:
             # Draw sample and flatten
             x = process_batch(batch, μ, σ)[:, :-ctx_size]
-            x0 = np.array(x.ravel())
-            x0 = np.random.choice(x0, size=npool, replace=False)
+            x0 = np.array(x - μX).reshape(popsize, -1)
+
+            # Add noise and project against lead PC
+            xn = x0 + σmax * np.random.randn(*x0.shape)
+            xnTv1 = xn @ v1
 
-            # Add noise and perform test
-            xn = x0 + σmax * np.random.randn(len(x0))
-            _, pvalue = kstest(xn, "norm", args=(0, σmax))
+            # Perform test
+            _, pvalue = kstest(xnTv1, "norm", args=(0, σmax))
             rejections += (pvalue < α)
             _ = pbar.update(1)
     return rejections / n_montecarlo
 
@@ -0,0 +1,68 @@
+# %%
+import os
+import numpy as np
+import pandas as pd
+import matplotlib.pyplot as plt
+
+
+
+# %%
+root = "/Users/shahine/Documents/Research/MIT/code/repos/climemu-private/paper/intermodel/wandb/"
+train_losses = {"MIROC6": pd.read_csv(os.path.join(root, 'miroc_train.csv')),
+                "MPI-ESM1-2-LR": pd.read_csv(os.path.join(root, 'mpi_train.csv')),
+                "ACCESS-ESM1-5": pd.read_csv(os.path.join(root, 'access_train.csv'))}
+
+val_losses = {"MIROC6": pd.read_csv(os.path.join(root, 'miroc_val.csv')),
+              "MPI-ESM1-2-LR": pd.read_csv(os.path.join(root, 'mpi_val.csv')),
+              "ACCESS-ESM1-5": pd.read_csv(os.path.join(root, 'access_val.csv'))}
+
+grad_df = {"MIROC6": pd.read_csv(os.path.join(root, 'miroc_grad.csv')),
+           "MPI-ESM1-2-LR": pd.read_csv(os.path.join(root, 'mpi_grad.csv')),
+           "ACCESS-ESM1-5": pd.read_csv(os.path.join(root, 'access_grad.csv'))}
+
+
+
+# %%
+fig, ax = plt.subplots(1, 2, figsize=(15, 5), gridspec_kw={'width_ratios': [1.5, 1]})
+
+train_df = train_losses['MIROC6']
+val_df = val_losses['MIROC6']
+ax[0].plot(train_df['Step'], train_df.iloc[:, 1], label='MIROC6 Training Loss', alpha=0.5, color='#0072B2', zorder=0)
+ax[0].plot(val_df['Step'], val_df.iloc[:, 1], ls='--', label='MIROC6 Validation Loss', color='#0072B2')
+
+train_df = train_losses['MPI-ESM1-2-LR']
+val_df = val_losses['MPI-ESM1-2-LR']
+ax[0].plot(train_df['Step'], train_df.iloc[:, 1], label='MPI-ESM1-2-LR Training Loss', alpha=0.5, color='#E69F00', zorder=0)
+ax[0].plot(val_df['Step'], val_df.iloc[:, 1], ls='--', label='MPI-ESM1-2-LR Validation Loss', color='#E69F00')
+
+train_df = train_losses['ACCESS-ESM1-5']
+val_df = val_losses['ACCESS-ESM1-5']
+ax[0].plot(train_df['Step'], train_df.iloc[:, 1], label='ACCESS-ESM1-5 Training Loss', alpha=0.5, color='#CC79A7', zorder=0)
+ax[0].plot(val_df['Step'], val_df.iloc[:, 1], ls='--', label='ACCESS-ESM1-5 Validation Loss', color='#CC79A7')
+
+ax[0].legend(frameon=False, fontsize=12, loc='lower left')
+ax[0].set_yscale('log')
+ax[0].set_xscale('log')
+ax[0].set_xlabel("Training Steps", fontsize=14)
+ax[0].set_ylabel("Loss", fontsize=14)
+ax[0].margins(0.01)
+
+grad_df_miroc = grad_df['MIROC6']
+ax[1].plot(grad_df_miroc['Step'], grad_df_miroc.iloc[:, 1], label='MIROC6 Gradient Norm', alpha=0.5, color='#0072B2')
+
+grad_df_mpi = grad_df['MPI-ESM1-2-LR']
+ax[1].plot(grad_df_mpi['Step'], grad_df_mpi.iloc[:, 1], label='MPI-ESM1-2-LR Gradient Norm', alpha=0.5, color='#E69F00')
+
+grad_df_access = grad_df['ACCESS-ESM1-5']
+ax[1].plot(grad_df_access['Step'], grad_df_access.iloc[:, 1], label='ACCESS-ESM1-5 Gradient Norm', alpha=0.5, color='#CC79A7')
+
+ax[1].legend(frameon=False, fontsize=12)
+ax[1].set_yscale('log')
+ax[1].set_xscale('log')
+ax[1].set_xlabel("Training Steps", fontsize=14)
+ax[1].set_ylabel("Gradient Norm", fontsize=14)
+ax[1].margins(0.01)
+
+plt.savefig("losses.jpg", dpi=300, bbox_inches="tight")
+
+# %%
@@ -3,7 +3,6 @@
 import os
 
 
-
 EXPERIMENT_DIR = os.path.dirname(__file__)
 CACHE_DIR = os.path.join(EXPERIMENT_DIR, "cache")
 EXPERIMENT_NAME = os.path.basename(EXPERIMENT_DIR)
@@ -34,18 +33,18 @@ class DataConfig:
 
     Specifies dataset paths, climate model, experiments, and pattern scaling parameters.
     """
-    root_dir: str = "/orcd/data/raffaele/001/shahineb/cmip6/processed"  # CMIP6 data directory
+    root_dir: str = "/orcd/data/raffaele/001/shahineb/products/cmip6/processed"  # CMIP6 data directory
     model_name: str = "MIROC6"  # Climate model to use
     train_experiments: List[str] = ("piControl", "historical", "ssp126", "ssp585")  # Training experiments
-    val_experiments: List[str] = ("ssp370",)  # Validation experiments
+    val_experiments: List[str] = ("1pctCO2",)  # Validation experiments
     variables: List[str] = ("tas", "pr", "hurs", "sfcWind")  # Climate variables
-    val_time_slice: Tuple[str, str] = ("2080-01", "2100-12")  # Time range for validation
+    val_time_slice: Tuple[str, str] = (None, None)  # Time range for validation
     pattern_scaling_path: str = os.path.join(CACHE_DIR, "β.npy")  # Path to save/load pattern scaling coefficients
     norm_stats_path: str = os.path.join(CACHE_DIR, "μ_σ.npz")  # Path to save/load normalization statistics
     in_memory: bool = True  # Whether to load full dataset into memory
     norm_max_samples: int = 10000  # Maximum number of samples to use for normalization
     sigma_max_path: str = os.path.join(CACHE_DIR, "σmax.npy")  # Path to save/load σmax
-    sigma_max_search_interval: List[int] = (0, 200)  # Interval in which we search for sigma max
+    sigma_max_search_interval: List[int] = (0, 400)  # Interval in which we search for sigma max
 
 
 @dataclass
@@ -55,9 +54,9 @@ class TrainingConfig:
     Defines hyperparameters, logging intervals, and output paths.
     """
     batch_size: int = 32  # Number of samples per batch
-    learning_rate: float = 3e-4  # Adam optimizer learning rate
+    learning_rate: float = 1e-4  # Adam optimizer learning rate
     ema_decay: float = 0.999  # Exponential moving average decay
-    epochs: int = 10  # Number of training epochs
+    epochs: int = 15  # Number of training epochs
     log_interval: int = 20  # Steps between metric logging
     queue_length: int = 30  # Length of sliding window for metrics
     sample_interval: int = 10000  # Steps between sample generation
@@ -90,7 +89,7 @@ class SamplingConfig:
     n_samples: int = 50  # Number of samples to generate per test point
     batch_size: int = 2  # Batch size for evaluation
     random_seed: int = 2100  # Seed for reproducibility
-    output_dir: str = f"/orcd/data/raffaele/001/shahineb/jax-esm-emulation/paper/{EXPERIMENT_NAME}/outputs"  # Output directory for inference
+    output_dir: str = f"/orcd/data/raffaele/001/shahineb/emulated/climemu/paper/{EXPERIMENT_NAME}/outputs"  # Output directory for inference
 
 
 @dataclass
 
@@ -196,12 +196,34 @@ def estimate_sigma_max(
         print(f"Loading σmax = {σmax} from {sigma_max_path}")
         return σmax
 
+    # Estimate the leading principal component
+    dataset_size = len(dataset)
+    subset_size = min(10000, dataset_size)
+    key = jr.PRNGKey(42)
+    indices = jr.permutation(key, dataset_size)[:subset_size].tolist()
+    dataset_subset = Subset(dataset, indices)
+    dummy_loader = DataLoader(dataset_subset, batch_size=10, collate_fn=numpy_collate)
+    X = []
+    for batch in tqdm(dummy_loader, desc=f"Loading {subset_size} samples"):
+        X.append(utils.process_batch(batch, μ, σ)[:, :-ctx_size])
+    X = jnp.concatenate(X)
+    μX = X.mean(axis=0)
+    Xc = X - μX
+    wlat = jnp.cos(jnp.deg2rad(dataset.cmip6data.lat))
+    G = jnp.einsum("nchw,h,mchw->nm", Xc, wlat, Xc)
+    Σ2, U = jnp.linalg.eigh(G)
+    u1 = U[:, -1]
+    σ1 = jnp.sqrt(Σ2[-1])
+    v1 = jnp.einsum("nchw,n->chw", Xc, u1) / σ1
+    v1 = v1 * wlat[:, None]
+    v1 = v1.ravel()
+    
     # Define search parameters
     σmax_low, σmax_high = search_interval
     max_split = 20
     n_montecarlo = 100
     max_montecarlo = 10000
-    npool = 50000
+    popsize = 8
     tgt_pow = 0.1
     tol = 0.001 + 1.96 * np.sqrt(tgt_pow * (1 - tgt_pow)  / max_montecarlo)
     key = jr.PRNGKey(seed)
@@ -218,7 +240,9 @@ def estimate_sigma_max(
                                          σmax=σmax,
                                          α=alpha,
                                          n_montecarlo=n_montecarlo,
-                                         npool=npool,
+                                         popsize=popsize,
+                                         v1=v1,
+                                         μX=μX,
                                          μ=μ,
                                          σ=σ,
                                          ctx_size=ctx_size,
@@ -246,7 +270,6 @@ def estimate_sigma_max(
             if np.allclose(σmax_low, σmax_high, atol=1):
                 break
 
-
     # Save and return
     if sigma_max_path:
         print(f"Saving σmax = {σmax} to {sigma_max_path}")
-Original file line number
+Diff line change
 *.eqx
 *.jpg
 *.png
 +*.eps
 # VS Code