TMIP-code
diff --git a/‎notebooks/ACCESS_output_checks.ipynb‎
Lines changed: 1 addition & 1 deletion b/‎notebooks/ACCESS_output_checks.ipynb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎scripts/archive_unarchived_CMIP6_ACCESS_GM_files.py‎
Lines changed: 35 additions & 21 deletions b/‎scripts/archive_unarchived_CMIP6_ACCESS_GM_files.py‎
Lines changed: 35 additions & 21 deletions
diff --git a/‎scripts/archive_unarchived_CMIP6_ACCESS_GM_files.sh‎
Lines changed: 12 additions & 10 deletions b/‎scripts/archive_unarchived_CMIP6_ACCESS_GM_files.sh‎
Lines changed: 12 additions & 10 deletions
diff --git a/‎scripts/build_average_CMIP5_ACCESS_transport_state_on_Gadi.py‎ renamed to ‎scripts/average_CMIP5_ACCESS_variables.py‎
Lines changed: 10 additions & 10 deletions b/‎scripts/build_average_CMIP5_ACCESS_transport_state_on_Gadi.py‎ renamed to ‎scripts/average_CMIP5_ACCESS_variables.py‎
Lines changed: 10 additions & 10 deletions
diff --git a/‎scripts/build_average_CMIP5_ACCESS_transport_state_on_Gadi.sh‎ renamed to ‎scripts/average_CMIP5_ACCESS_variables.sh‎
Lines changed: 3 additions & 3 deletions b/‎scripts/build_average_CMIP5_ACCESS_transport_state_on_Gadi.sh‎ renamed to ‎scripts/average_CMIP5_ACCESS_variables.sh‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎scripts/average_CMIP6_ACCESS_variables.py‎
Lines changed: 11 additions & 11 deletions b/‎scripts/average_CMIP6_ACCESS_variables.py‎
Lines changed: 11 additions & 11 deletions
diff --git a/‎scripts/build_average_CMIP6_ACCESS_piControl_transport_state_on_Gadi.py‎
Lines changed: 2 additions & 2 deletions b/‎scripts/build_average_CMIP6_ACCESS_piControl_transport_state_on_Gadi.py‎
Lines changed: 2 additions & 2 deletions
@@ -2634,7 +2634,7 @@
    "source": [
     "umo_datadask = select_latest_data(searched_cat,\n",
     "    dict(\n",
-    "        # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}\n",
+    "        chunks={'time': -1, 'lev':-1}\n",
     "    ),\n",
     "    variable_id = \"umo\",\n",
     "    member_id = \"r2i1p1f1\",\n",
 
@@ -6,10 +6,10 @@
 # interactive use only
 model="ACCESS-ESM1-5"
 experiment="historical"
-# year_start = 1850
-year_start = 1940
-# year_end = 2015
-year_end = 1950
+# decade_start = 1850
+decade_start = 1940
+# decade_end = 2015
+decade_end = 1950
 
 
 # Model etc. defined from script input
@@ -19,10 +19,10 @@
 print("Experiment: ", experiment, " (type: ", type(experiment), ")")
 members = sys.argv[3].split(',')
 print("members: ", members, " (type: ", type(members), ")")
-year_start = int(sys.argv[4])
-print("year_start: ", year_start, " (type: ", type(year_start), ")")
-year_end = int(sys.argv[5])
-print("year_end: ", year_end, " (type: ", type(year_end), ")")
+decade_start = int(sys.argv[4])
+print("decade_start: ", decade_start, " (type: ", type(decade_start), ")")
+decade_end = int(sys.argv[5])
+print("decade_end: ", decade_end, " (type: ", type(decade_end), ")")
 
 # 1. Load packages
 
@@ -45,6 +45,20 @@
 # # Load xmip for preprocessing (trying to get consistent metadata for making matrices down the road)
 # from xmip.preprocessing import combined_preprocessing
 
+decades = range(decade_start, decade_end, 10)
+print(f"\nDecades:\n")
+print(*decades)
+
+# Historical runs go from 1850 to 2015, and future scenarios from 2015 to 2100.
+# I want to save data per decade, so I need some logic branching to deal with the 2010s.
+def decade_years(decade, experiment):
+    if decade == 2010:
+        if (experiment == "historical"):
+            return range(2010, 2015)
+        else:
+            return range(2015, 2020)
+    else:
+        return range(decade, decade + 10)
 
 
 
@@ -57,13 +71,11 @@
 # members = ["HI-09", "HI-10", "HI-11", "HI-12"]
 # members = ["HI-05"]
 
-
-
 print("Starting client")
 
 # This `if` statement is required in scripts (not required in Jupyter)
 if __name__ == '__main__':
-    client = Client(n_workers=24, threads_per_worker=1)
+    client = Client(n_workers=40, threads_per_worker=1)
     #, threads_per_worker=1, memory_limit='16GB') # Note: with 1thread/worker cannot plot thetao. Maybe I need to understand why?
     # added threads_per_worker=1 back again because I possibly hitting some random unsafe multithreading issue:
     # https://forum.access-hive.org.au/t/netcdf-not-a-valid-id-errors/389
@@ -72,29 +84,31 @@
     for member in members:
 
         # print ensemble/member
-        inputdir = f'/scratch/p66/pbd562/petrichor/get/{member}/history/ocn'
-        outputdir = f'{gdatadatadir}/{model}/{member}'
+        if experiment == "historical":
+            inputdir = f'/scratch/p66/pbd562/petrichor/get/{member}/history/ocn'
+        else:
+            inputdir = f'/scratch/p66/pbd562/petrichor/get/{experiment}/{member}/history/ocn'
+
+        outputdir = f'{gdatadatadir}/{model}/{experiment}/{member}'
         print(f"\nProcessing {member}")
 
         # directory to save the data to (as NetCDF)
         print("Creating directory: ", outputdir)
         os.makedirs(outputdir, exist_ok=True)
 
-        for decade in range(year_start, year_end, 10):
+        for decade in decades:
 
-            print(f'\nDecade {decade}')
+            print(f'\nDecade {decade}:\n')
 
-            if decade == 2010:
-                num_years = 5
-            else:
-                num_years = 10
+            years = decade_years(decade, experiment)
+            print(*years)
 
             # subset of the files required
-            paths = [f'{inputdir}/ocean_month.nc-{year}1231' for year in range(decade, decade + num_years)]
+            paths = [f'{inputdir}/ocean_month.nc-{year}1231' for year in years]
 
             # Exit early if cannot find all files
             if not all([os.path.isfile(fname) for fname in paths]):
-                print(f'Missing files for {member} {decade}-{decade + num_years}')
+                print(f'Missing files for {member} {decade}s')
                 continue
 
             # load the data
 
@@ -2,10 +2,10 @@
 
 #PBS -P xv83
 #PBS -N archive_GM
-#PBS -l ncpus=28
+#PBS -l ncpus=48
 #PBS -l mem=180GB
 #PBS -l jobfs=4GB
-#PBS -l walltime=1:00:00
+#PBS -l walltime=24:00:00
 #PBS -l storage=gdata/xv83+gdata/dk92+gdata/hh5+gdata/xp65+gdata/p73+scratch/p66
 #PBS -l wd
 #PBS -o output/PBS/
@@ -23,20 +23,22 @@ conda info
 echo "Loading python3/3.12.1"
 module load python3/3.12.1
 
-# CHANGE HERE the model, experiment, ensemble, etc.
+# CHANGE HERE the model, experiment, members, decades.
 model=ACCESS-ESM1-5
 # model=ACCESS-CM2
+
 experiment=historical
-# year_start=1850
-year_start=1960
-# year_end=2015
-year_end=1970
-# members=("HI-05","HI-06")
-members=("HI-12")
+members=("HI-37","HI-38","HI-39","HI-40","HI-41","HI-42","HI-43","HI-44")
+decade_start=1850
+decade_end=2020
+# experiment=ssp370
+# members=("SSP-370-39","SSP-370-40","SSP-370-41","SSP-370-42","SSP-370-43","SSP-370-44")
+# decade_start=2010
+# decade_end=2100
 
 
 echo "Running transport-state script"
-python scripts/archive_unarchived_CMIP6_ACCESS_GM_files.py $model $experiment $members $year_start $year_end \
+python scripts/archive_unarchived_CMIP6_ACCESS_GM_files.py $model $experiment $members $decade_start $decade_end \
 &> output/$PBS_JOBID.$model.monthly.datafromTilo.out
 
 
@@ -227,7 +227,7 @@ def sort_ensembles(ensembles):
             print("Loading volcello data")
             volcello_datadask = select_latest_data(searched_cat,
                 dict(
-                    chunks={'i': 60, 'j': 60, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable = "volcello",
                 ensemble = "r0i0p0", # <- in the CMIP5 ACCESS catalog, the fixed data is in ensemble r0i0p0 (not in any other ensemble)
@@ -247,7 +247,7 @@ def sort_ensembles(ensembles):
             print("Loading areacello data")
             areacello_datadask = select_latest_data(searched_cat,
                 dict(
-                    chunks={'i': 60, 'j': 60}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable = "areacello",
                 ensemble = "r0i0p0", # <- in the CMIP5 ACCESS catalog, the fixed data is in ensemble r0i0p0 (not in any other ensemble)
@@ -267,7 +267,7 @@ def sort_ensembles(ensembles):
             print("Loading umo data")
             umo_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable = "umo",
                 ensemble = ensemble,
@@ -290,7 +290,7 @@ def sort_ensembles(ensembles):
             print("Loading vmo data")
             vmo_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable = "vmo",
                 ensemble = ensemble,
@@ -313,7 +313,7 @@ def sort_ensembles(ensembles):
             print("Loading uo data")
             uo_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable = "uo",
                 ensemble = ensemble,
@@ -336,7 +336,7 @@ def sort_ensembles(ensembles):
             print("Loading vo data")
             vo_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable = "vo",
                 ensemble = ensemble,
@@ -359,7 +359,7 @@ def sort_ensembles(ensembles):
             print("Loading mlotst data")
             mlotst_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable = "mlotst",
                 ensemble = ensemble,
@@ -384,7 +384,7 @@ def sort_ensembles(ensembles):
             print("Loading thetao data")
             thetao_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable = "thetao",
                 ensemble = ensemble,
@@ -407,7 +407,7 @@ def sort_ensembles(ensembles):
             print("Loading so data")
             so_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable = "so",
                 ensemble = ensemble,
@@ -430,7 +430,7 @@ def sort_ensembles(ensembles):
             print("Loading agessc data")
             agessc_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable = "agessc",
                 ensemble = ensemble,
 
@@ -2,7 +2,7 @@
 
 #PBS -P xv83
 #PBS -N CMIP5_ACCESS_preprocessing
-#PBS -l ncpus=5
+#PBS -l ncpus=28
 #PBS -l mem=180GB
 #PBS -l jobfs=4GB
 #PBS -l walltime=3:00:00
@@ -17,7 +17,7 @@ cd ~/Projects/TMIP/notebooks
 echo "Loading conda/analysis3-24.04 module"
 module use /g/data/hh5/public/modules
 module load conda/analysis3-24.04
-conda init
+
 conda activate conda/analysis3-24.04
 conda info
 
@@ -32,7 +32,7 @@ year_start=1990
 num_years=10
 
 echo "Running transport-state script"
-python scripts/build_average_CMIP5_ACCESS_transport_state_on_Gadi.py $model $experiment $ensemble $year_start $num_years \
+python scripts/average_CMIP5_ACCESS_variables.py $model $experiment $ensemble $year_start $num_years \
 &> output/$model.$experiment.allensembles.$year_start.$num_years.$PBS_JOBID.out
 
 
@@ -214,7 +214,7 @@ def sort_members(members):
 
 # This `if` statement is required in scripts (not required in Jupyter)
 if __name__ == '__main__':
-    client = Client(n_workers=4)#, threads_per_worker=1, memory_limit='16GB') # Note: with 1thread/worker cannot plot thetao. Maybe I need to understand why?
+    client = Client(n_workers=4, threads_per_worker=1) #, memory_limit='16GB') # Note: with 1thread/worker cannot plot thetao. Maybe I need to understand why?
 
     for member in sorted_members:
 
@@ -231,7 +231,7 @@ def sort_members(members):
             print("Loading volcello data")
             volcello_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable_id = "volcello",
                 member_id = member,
@@ -251,7 +251,7 @@ def sort_members(members):
             print("Loading areacello data")
             areacello_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable_id = "areacello",
                 member_id = member,
@@ -271,7 +271,7 @@ def sort_members(members):
             print("Loading umo data")
             umo_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable_id = "umo",
                 member_id = member,
@@ -294,7 +294,7 @@ def sort_members(members):
             print("Loading vmo data")
             vmo_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable_id = "vmo",
                 member_id = member,
@@ -317,7 +317,7 @@ def sort_members(members):
             print("Loading uo data")
             uo_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable_id = "uo",
                 member_id = member,
@@ -340,7 +340,7 @@ def sort_members(members):
             print("Loading vo data")
             vo_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable_id = "vo",
                 member_id = member,
@@ -363,7 +363,7 @@ def sort_members(members):
             print("Loading mlotst data")
             mlotst_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable_id = "mlotst",
                 member_id = member,
@@ -392,7 +392,7 @@ def sort_members(members):
             print("Loading thetao data")
             thetao_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable_id = "thetao",
                 member_id = member,
@@ -415,7 +415,7 @@ def sort_members(members):
             print("Loading so data")
             so_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable_id = "so",
                 member_id = member,
@@ -438,7 +438,7 @@ def sort_members(members):
             print("Loading agessc data")
             agessc_datadask = select_latest_data(searched_cat,
                 dict(
-                    # chunks={'i': 60, 'j': 60, 'time': -1, 'lev':50}
+                    chunks={'time': -1, 'lev':-1}
                 ),
                 variable_id = "agessc",
                 member_id = member,
 
@@ -167,7 +167,7 @@ def sort_members(members):
         print("Loading volcello data")
         volcello_datadask = select_latest_data(searched_cat,
             dict(
-                chunks={'i': 60, 'j': 60, 'lev':50}
+                chunks={'time': -1, 'lev':-1}
             ),
             variable_id = "volcello",
             member_id = member,
@@ -178,7 +178,7 @@ def sort_members(members):
         print("Loading areacello data")
         areacello_datadask = select_latest_data(searched_cat,
             dict(
-                chunks={'i': 60, 'j': 60}
+                chunks={'time': -1, 'lev':-1}
             ),
             variable_id = "areacello",
             member_id = member,