Merge pull request #321 from sthaha/upgrade-deps-no-sys-change

Sunil Thaha · web-flow · commit 4bdcc9c734d2 · 2024-07-24T16:33:11.000+10:00
chore(pyproject): upgrade dependencies
diff --git a/cmd/main.py b/cmd/main.py
@@ -545,7 +545,7 @@ def estimate(args):
                     for energy_component, _ in predicted_power_map.items():
                         predicted_power_colname = default_predicted_col_func(energy_component)
                         label_power_columns = [col for col in power_labels if energy_component in col and col != predicted_power_colname]
-                        sum_power_label = data.groupby([TIMESTAMP_COL]).mean()[label_power_columns].sum(axis=1).sort_index()
+                        sum_power_label = data.groupby([TIMESTAMP_COL])[label_power_columns].mean().sum(axis=1).sort_index()
                         sum_predicted_power = data_with_prediction.groupby([TIMESTAMP_COL]).sum().sort_index()[predicted_power_colname]
                         mae, mse, mape = compute_error(sum_power_label, sum_predicted_power)
                         summary_item = dict()
@@ -668,7 +668,7 @@ def plot(args):
                 subtitles += [energy_component]
                 predicted_power_colname = default_predicted_col_func(energy_component)
                 label_power_columns = [col for col in power_labels if energy_component in col and col != predicted_power_colname]
-                data[energy_component] = best_restult.groupby([TIMESTAMP_COL]).mean()[label_power_columns].sum(axis=1).sort_index()
+                data[energy_component] = best_restult.groupby([TIMESTAMP_COL])[label_power_columns].mean().sum(axis=1).sort_index()
                 data[predicted_power_colname] = best_restult.groupby([TIMESTAMP_COL]).sum().sort_index()[predicted_power_colname]
                 cols += [[energy_component, predicted_power_colname]]
                 actual_power_cols += [energy_component]
diff --git a/pyproject.toml b/pyproject.toml
@@ -25,21 +25,21 @@ classifiers = [
   "Programming Language :: Python :: 3.10",
 ]
 dependencies = [
-  "flask==2.1.2",
+  "flask==3.0.3",
   "joblib==1.4.2",
-  "numpy==1.22.4",
-  "pandas==1.4.4",
+  "numpy==2.0.1",
+  "pandas==2.2.2",
   "prometheus-api-client==0.5.5",
   "prometheus-client==0.20.0",
-  "protobuf==3.19.4",
+  "protobuf==5.27.2",
   "psutil==6.0.0",
   "py-cpuinfo==9.0.0",
   "pyudev==0.24.3",
   "pyyaml_env_tag==0.1",
   "scikit-learn==1.5.1",
-  "scipy==1.9.1",
+  "scipy==1.14.0",
   "seaborn==0.13.2",
-  "Werkzeug==2.2.2",
+  "Werkzeug==3.0.3",
   "xgboost==2.1.0",
 ]
 
diff --git a/src/train/extractor/extractor.py b/src/train/extractor/extractor.py
@@ -103,8 +103,8 @@ def extract(self, query_results, energy_components, feature_group, energy_source
         is_aggr = node_level and aggr
         if is_aggr:
             # sum stat of all containers
-            sum_feature = feature_power_data.groupby([TIMESTAMP_COL]).sum()[workload_features]
-            mean_power = feature_power_data.groupby([TIMESTAMP_COL]).mean()[power_columns]
+            sum_feature = feature_power_data.groupby([TIMESTAMP_COL])[workload_features].sum()
+            mean_power = feature_power_data.groupby([TIMESTAMP_COL])[power_columns].mean()
             feature_power_data = sum_feature.join(mean_power)
         else:
             feature_power_data = feature_power_data.groupby([TIMESTAMP_COL, container_id_colname]).sum()
diff --git a/src/train/extractor/preprocess.py b/src/train/extractor/preprocess.py
@@ -43,9 +43,10 @@ def get_extracted_power_labels(extracted_data, energy_components, label_cols):
         extracted_power_labels[component_label_col] = extracted_power_labels[target_cols].sum(axis=1)
     return extracted_power_labels
 
+
 def find_correlations(energy_source, feature_power_data, power_columns, workload_features):
-    power_data = feature_power_data[power_columns].reset_index().groupby([TIMESTAMP_COL]).mean()
-    feature_data = feature_power_data[workload_features].reset_index().groupby([TIMESTAMP_COL]).sum()
+    power_data = feature_power_data.reset_index().groupby([TIMESTAMP_COL])[power_columns].mean()
+    feature_data = feature_power_data.reset_index().groupby([TIMESTAMP_COL])[workload_features].sum()
     energy_components = PowerSourceMap[energy_source]
     target_cols = [col for col in power_columns if col_to_component(col) == energy_components[0]]
     process_power_data = power_data.copy()
diff --git a/src/train/isolator/isolator.py b/src/train/isolator/isolator.py
@@ -76,7 +76,7 @@ def squeeze_data(container_level_data, label_cols):
         groupped_sum_data[ratio_col] /= groupped_sum_data['sum_ratio']
     groupped_sum_data = groupped_sum_data.drop(columns=['sum_ratio'])
     # use mean value for node-level information
-    groupped_mean_data = container_level_data.groupby([TIMESTAMP_COL]).mean()[node_level_columns]  
+    groupped_mean_data = container_level_data.groupby([TIMESTAMP_COL])[node_level_columns].mean()
     squeeze_data = groupped_sum_data.join(groupped_mean_data)
     squeeze_data[container_id_colname] = all_container_key
     return squeeze_data.reset_index()
diff --git a/src/util/loader.py b/src/util/loader.py
@@ -266,8 +266,8 @@ def get_metadata_df(model_toppath, model_type, fg, energy_source, pipeline_name)
     group_path = get_model_group_path(model_toppath, output_type=ModelOutputType[model_type], feature_group=FeatureGroup[fg], energy_source=energy_source, pipeline_name=pipeline_name, assure=False)
     metadata_df = _get_metadata_df(group_path)
     if len(metadata_df) > 0:
-        metadata_df[['trainer', 'node_type']] = metadata_df['model_name'].str.split('_', 1, expand=True)
-        metadata_df['node_type'] = metadata_df['node_type'].astype(int)
+        metadata_df[["trainer", "node_type"]] = metadata_df["model_name"].str.split("_", n=1, expand=True)
+        metadata_df["node_type"] = metadata_df["node_type"].astype(int)
     return metadata_df, group_path
 
 def get_all_metadata(model_toppath, pipeline_name, clean_empty=False):
@@ -326,16 +326,19 @@ def get_export_path(output_path, pipeline_name, assure=True):
         return assure_path(export_path)
     return export_path
 
+
 def get_preprocess_folder(pipeline_path, assure=True):
     preprocess_folder = os.path.join(pipeline_path, PREPROCESS_FOLDERNAME)
     if assure:
         return assure_path(preprocess_folder)
     return preprocess_folder
 
+
 def get_general_filename(prefix, energy_source, fg, ot, extractor, isolator=None):
     fg_suffix = "" if fg is None else "_" + fg.name
     if ot.name == ModelOutputType.DynPower.name:
         return "{}_dyn_{}_{}_{}{}".format(prefix, extractor, isolator, energy_source, fg_suffix)
     if ot.name == ModelOutputType.AbsPower.name:
         return "{}_abs_{}_{}{}".format(prefix, extractor, energy_source, fg_suffix)
-    return None
+    return None
+
diff --git a/tests/estimator_model_test.py b/tests/estimator_model_test.py
@@ -33,7 +33,7 @@ def test_model(group_path, model_name, test_data_with_label, power_columns, powe
     for energy_component, _ in predicted_power_map.items():
         label_power_columns = [col for col in power_columns if energy_component in col]
         predicted_power_colname = default_predicted_col_func(energy_component)
-        sum_power_label = test_data_with_label.groupby([TIMESTAMP_COL]).mean()[label_power_columns].sum(axis=1).sort_index()
+        sum_power_label = test_data_with_label.groupby([TIMESTAMP_COL])[label_power_columns].mean().sum(axis=1).sort_index()[label_power_columns].sum(axis=1).sort_index()
         sum_predicted_power = data_with_prediction.groupby([TIMESTAMP_COL]).sum().sort_index()[predicted_power_colname]
         mae, mse, mape = compute_error(sum_power_label, sum_predicted_power)
         if power_range is None:
diff --git a/tests/model_tester.py b/tests/model_tester.py
@@ -106,7 +106,7 @@ def process(train_dataset_name, test_dataset_name, target_path):
                             label_power_columns = [col for col in power_columns if energy_component in col]
                             # sum label value for all unit
                             # mean to squeeze value of power back
-                            sum_power_label = predicted_data.groupby([TIMESTAMP_COL]).mean()[label_power_columns].sum(axis=1).sort_index()
+                            sum_power_label = predicted_data.groupby([TIMESTAMP_COL])[label_power_columns].mean().sum(axis=1).sort_index()
                             # append predicted value to data_with_prediction
                             
                             # TO-DO: use predict_and_sort in train_isolator.py