Replacing pd.Series with dict for simplicity

Neeratyoy · Neeratyoy · commit c4920ea11ef6 · 2019-06-11T12:20:20.000+02:00
diff --git a/openml/datasets/dataset.py b/openml/datasets/dataset.py
@@ -178,23 +178,23 @@ def __str__(self):
         header = '{}\n{}\n'.format(header, '=' * len(header))
 
         base_url = "{}".format(openml.config.server[:-len('api/v1/xml')])
-        fields = pd.Series({"Name": self.name,
-                            "Version": self.version,
-                            "Format": self.format,
-                            "Upload Date": self.upload_date.replace('T', ' '),
-                            "Licence": self.licence,
-                            "Download URL": self.url,
-                            "OpenML URL": "{}d/{}".format(base_url, self.dataset_id),
-                            "Data file": self.data_file,
-                            "Pickle file": self.data_pickle_file,
-                            "# of features": len(self.features)})
-
+        fields = {"Name": self.name,
+                  "Version": self.version,
+                  "Format": self.format,
+                  "Upload Date": self.upload_date.replace('T', ' '),
+                  "Licence": self.licence,
+                  "Download URL": self.url,
+                  "OpenML URL": "{}d/{}".format(base_url, self.dataset_id),
+                  "Data file": self.data_file,
+                  "Pickle file": self.data_pickle_file,
+                  "# of features": len(self.features)}
         if self.qualities['NumberOfInstances'] is not None:
-            fields.append(pd.Series({"# of instances": int(self.qualities['NumberOfInstances'])}))
+            fields["# of instances"] = int(self.qualities['NumberOfInstances'])
 
+        # determines the order in which the information will be printed
         order = ["Name", "Version", "Format", "Upload Date", "Licence", "Download URL",
-                 "OpenML URL", "Data File", "Pickle File", "# of features"]
-        fields = list(fields.reindex(order).dropna().iteritems())
+                 "OpenML URL", "Data File", "Pickle File", "# of features", "# of instances"]
+        fields = [(key, fields[key]) for key in order if key in fields]
 
         longest_field_name_length = max(len(name) for name, value in fields)
         field_line_format = "{{:.<{}}}: {{}}".format(longest_field_name_length)
diff --git a/openml/evaluations/evaluation.py b/openml/evaluations/evaluation.py
@@ -56,24 +56,24 @@ def __str__(self):
         header = '{}\n{}\n'.format(header, '=' * len(header))
 
         base_url = "{}".format(openml.config.server[:-len('api/v1/xml')])
-        fields = pd.Series({"Upload Date": self.upload_time,
-                            "Run ID": self.run_id,
-                            "OpenML Run URL": "{}r/{}".format(base_url, self.run_id),
-                            "Task ID": self.task_id,
-                            "OpenML Task URL": "{}t/{}".format(base_url, self.task_id),
-                            "Flow ID": self.flow_id,
-                            "OpenML Flow URL": "{}f/{}".format(base_url, self.flow_id),
-                            "Setup ID": self.setup_id,
-                            "Data ID": self.data_id,
-                            "Data Name": self.data_name,
-                            "OpenML Data URL": "{}d/{}".format(base_url, self.data_id),
-                            "Metric Used": self.function,
-                            "Result": self.value})
+        fields = {"Upload Date": self.upload_time,
+                  "Run ID": self.run_id,
+                  "OpenML Run URL": "{}r/{}".format(base_url, self.run_id),
+                  "Task ID": self.task_id,
+                  "OpenML Task URL": "{}t/{}".format(base_url, self.task_id),
+                  "Flow ID": self.flow_id,
+                  "OpenML Flow URL": "{}f/{}".format(base_url, self.flow_id),
+                  "Setup ID": self.setup_id,
+                  "Data ID": self.data_id,
+                  "Data Name": self.data_name,
+                  "OpenML Data URL": "{}d/{}".format(base_url, self.data_id),
+                  "Metric Used": self.function,
+                  "Result": self.value}
 
         order = ["Uploader Date", "Run ID", "OpenML Run URL", "Task ID", "OpenML Task URL"
                  "Flow ID", "OpenML Flow URL", "Setup ID", "Data ID", "Data Name",
                  "OpenML Data URL", "Metric Used", "Result"]
-        fields = list(fields.reindex(order).dropna().iteritems())
+        fields = [(key, fields[key]) for key in order if key in fields]
 
         longest_field_name_length = max(len(name) for name, value in fields)
         field_line_format = "{{:.<{}}}: {{}}".format(longest_field_name_length)
diff --git a/openml/flows/flow.py b/openml/flows/flow.py
@@ -140,18 +140,19 @@ def __str__(self):
         header = '{}\n{}\n'.format(header, '=' * len(header))
 
         base_url = "{}".format(openml.config.server[:-len('api/v1/xml')])
-        fields = pd.Series({"Flow ID": "{} (version {})".format(self.flow_id, self.version),
-                            "Flow URL": "{}f/{}".format(base_url, self.flow_id),
-                            "Flow Name": self.name,
-                            "Flow Description": self.description,
-                            "Upload Date": self.upload_date.replace('T', ' '),
-                            "Dependencies": self.dependencies})
+        fields = {"Flow ID": "{} (version {})".format(self.flow_id, self.version),
+                  "Flow URL": "{}f/{}".format(base_url, self.flow_id),
+                  "Flow Name": self.name,
+                  "Flow Description": self.description,
+                  "Upload Date": self.upload_date.replace('T', ' '),
+                  "Dependencies": self.dependencies}
         if self.binary_url is not None:
-            fields = fields.append(pd.Series({"Binary URL": self.binary_url}))
+            fields["Binary URL"] = self.binary_url
 
+        # determines the order in which the information will be printed
         order = ["Flow ID", "Flow URL", "Flow Name", "Flow Description", "Binary URL",
                  "Upload Date", "Dependencies"]
-        fields = list(fields.reindex(order).dropna().iteritems())
+        fields = [(key, fields[key]) for key in order if key in fields]
 
         longest_field_name_length = max(len(name) for name, value in fields)
         field_line_format = "{{:.<{}}}: {{}}".format(longest_field_name_length)
diff --git a/openml/runs/run.py b/openml/runs/run.py
@@ -69,29 +69,29 @@ def __str__(self):
         header = '{}\n{}\n'.format(header, '=' * len(header))
 
         base_url = "{}".format(openml.config.server[:-len('api/v1/xml')])
-        fields = pd.Series({"Uploader Name": self.uploader_name,
-                            "Uploader Profile": "{}u/{}".format(base_url, self.uploader),
-                            "Metric": self.task_evaluation_measure,
-                            "Run ID": self.run_id,
-                            "Run URL": "{}r/{}".format(base_url, self.run_id),
-                            "Task ID": self.task_id,
-                            "Task Type": self.task_type,
-                            "Task URL": "{}t/{}".format(base_url, self.run_id),
-                            "Flow ID": self.flow_id,
-                            "Flow Name": self.flow_name,
-                            "Flow URL": "{}f/{}".format(base_url, self.flow_id),
-                            "Setup ID": self.setup_id,
-                            "Setup String": self.setup_string,
-                            "Dataset ID": self.dataset_id,
-                            "Dataset URL": "{}d/{}".format(base_url, self.dataset_id)})
+        fields = {"Uploader Name": self.uploader_name,
+                  "Uploader Profile": "{}u/{}".format(base_url, self.uploader),
+                  "Metric": self.task_evaluation_measure,
+                  "Run ID": self.run_id,
+                  "Run URL": "{}r/{}".format(base_url, self.run_id),
+                  "Task ID": self.task_id,
+                  "Task Type": self.task_type,
+                  "Task URL": "{}t/{}".format(base_url, self.run_id),
+                  "Flow ID": self.flow_id,
+                  "Flow Name": self.flow_name,
+                  "Flow URL": "{}f/{}".format(base_url, self.flow_id),
+                  "Setup ID": self.setup_id,
+                  "Setup String": self.setup_string,
+                  "Dataset ID": self.dataset_id,
+                  "Dataset URL": "{}d/{}".format(base_url, self.dataset_id)}
         if self.task_evaluation_measure in self.evaluations:
-            value = self.evaluations[self.task_evaluation_measure]
-            fields = fields.append(pd.Series({"Result": value}))
+            fields["Result"] = self.evaluations[self.task_evaluation_measure]
 
+        # determines the order in which the information will be printed
         order = ["Uploader Name", "Uploader Profile", "Metric", "Result", "Run ID", "Run URL",
                  "Task ID", "Task Type", "Task URL", "Flow ID", "Flow Name", "Flow URL",
                  "Setup ID", "Setup String", "Dataset ID", "Dataset URL"]
-        fields = list(fields.reindex(order).dropna().iteritems())
+        fields = [(key, fields[key]) for key in order if key in fields]
 
         longest_field_name_length = max(len(name) for name, value in fields)
         field_line_format = "{{:.<{}}}: {{}}".format(longest_field_name_length)
diff --git a/openml/setups/setup.py b/openml/setups/setup.py
@@ -33,12 +33,14 @@ def __str__(self):
         header = '{}\n{}\n'.format(header, '=' * len(header))
 
         base_url = "{}".format(openml.config.server[:-len('api/v1/xml')])
-        fields = pd.Series({"Setup ID": self.setup_id,
-                            "Flow ID": self.flow_id,
-                            "Flow URL": "{}f/{}".format(base_url, self.flow_id),
-                            "# of Parameters": len(self.parameters)})
+        fields = {"Setup ID": self.setup_id,
+                  "Flow ID": self.flow_id,
+                  "Flow URL": "{}f/{}".format(base_url, self.flow_id),
+                  "# of Parameters": len(self.parameters)}
+
+        # determines the order in which the information will be printed
         order = ["Setup ID", "Flow ID", "Flow URL", "# of Parameters"]
-        fields = list(fields.reindex(order).dropna().iteritems())
+        fields = [(key, fields[key]) for key in order if key in fields]
 
         longest_field_name_length = max(len(name) for name, value in fields)
         field_line_format = "{{:.<{}}}: {{}}".format(longest_field_name_length)
@@ -86,26 +88,27 @@ def __str__(self):
         header = '{}\n{}\n'.format(header, '=' * len(header))
 
         base_url = "{}".format(openml.config.server[:-len('api/v1/xml')])
-        fields = pd.Series({"ID": self.id,
-                            "Flow ID": self.flow_id,
-                            # "Flow Name": self.flow_name,
-                            "Flow Name": self.full_name,
-                            "Flow URL": "{}f/{}".format(base_url, self.flow_id),
-                            "Parameter Name": self.parameter_name})
+        fields = {"ID": self.id,
+                  "Flow ID": self.flow_id,
+                  # "Flow Name": self.flow_name,
+                  "Flow Name": self.full_name,
+                  "Flow URL": "{}f/{}".format(base_url, self.flow_id),
+                  "Parameter Name": self.parameter_name}
         # indented prints for parameter attributes
         # indention = 2 spaces + 1 | + 2 underscores
         indent = "{}|{}".format(" " * 2, "_" * 2)
         parameter_data_type = "{}Data Type".format(indent)
+        fields[parameter_data_type] = self.data_type
         parameter_default = "{}Default".format(indent)
+        fields[parameter_default] = self.default_value
         parameter_value = "{}Value".format(indent)
-        fields = fields.append(pd.Series({parameter_data_type: self.data_type,
-                                          parameter_default: self.default_value,
-                                          parameter_value: self.value}))
+        fields[parameter_value] = self.value
 
+        # determines the order in which the information will be printed
         order = ["ID", "Flow ID", "Flow Name", "Flow URL", "Parameter Name",
                  parameter_data_type, parameter_default, parameter_value]
-        fields = list(fields.reindex(order).dropna().iteritems())
-        
+        fields = [(key, fields[key]) for key in order if key in fields]
+
         longest_field_name_length = max(len(name) for name, value in fields)
         field_line_format = "{{:.<{}}}: {{}}".format(longest_field_name_length)
         body = '\n'.join(field_line_format.format(name, value) for name, value in fields)
diff --git a/openml/study/study.py b/openml/study/study.py
@@ -93,26 +93,27 @@ def __init__(
     def __str__(self):
         # header is provided by the sub classes
         base_url = "{}".format(openml.config.server[:-len('api/v1/xml')])
-        fields = pd.Series({"ID": self.id,
-                            "Name": self.name,
-                            "Status": self.status,
-                            "Main Entity Type": self.main_entity_type,
-                            "Study URL": "{}s/{}".format(base_url, self.id),
-                            "Creator": "{}u/{}".format(base_url, self.creator),
-                            "Upload Time": self.creation_date.replace('T', ' ')})
+        fields = {"ID": self.id,
+                  "Name": self.name,
+                  "Status": self.status,
+                  "Main Entity Type": self.main_entity_type,
+                  "Study URL": "{}s/{}".format(base_url, self.id),
+                  "Creator": "{}u/{}".format(base_url, self.creator),
+                  "Upload Time": self.creation_date.replace('T', ' ')}
         if self.data is not None:
-            fields = fields.append(pd.Series({"# of Data": len(self.data)}))
+            fields["# of Data"] = len(self.data)
         if self.tasks is not None:
-            fields = fields.append(pd.Series({"# of Tasks": len(self.tasks)}))
+            fields["# of Tasks"] = len(self.tasks)
         if self.flows is not None:
-            fields = fields.append(pd.Series({"# of Flows": len(self.flows)}))
+            fields["# of Flows"] = len(self.flows)
         if self.runs is not None:
-            fields = fields.append(pd.Series({"# of Runs": len(self.runs)}))
+            fields["# of Runs"] = len(self.runs)
 
+        # determines the order in which the information will be printed
         order = ["ID", "Name", "Status", "Main Entity Type", "Study URL",
                  "# of Data", "# of Tasks", "# of Flows", "# of Runs",
                  "Creator", "Upload Time"]
-        fields = list(fields.reindex(order).dropna().iteritems())
+        fields = [(key, fields[key]) for key in order if key in fields]
 
         longest_field_name_length = max(len(name) for name, value in fields)
         field_line_format = "{{:.<{}}}: {{}}".format(longest_field_name_length)
diff --git a/openml/tasks/task.py b/openml/tasks/task.py
@@ -47,23 +47,24 @@ def __str__(self):
         header = '{}\n{}\n'.format(header, '=' * len(header))
 
         base_url = "{}".format(openml.config.server[:-len('api/v1/xml')])
-        fields = pd.Series({"Task Type": self.task_type,
-                            "Task ID": self.task_id,
-                            "Task URL": "{}t/{}".format(base_url, self.task_id)})
+        fields = {"Task Type": self.task_type,
+                  "Task ID": self.task_id,
+                  "Task URL": "{}t/{}".format(base_url, self.task_id)}
         if self.evaluation_measure is not None:
-            fields = fields.append(pd.Series({"Evaluation Measure": self.evaluation_measure}))
+            fields["Evaluation Measure"] = self.evaluation_measure
         if self.estimation_procedure is not None:
-            fields = fields.append(pd.Series({"Estimation Procedure": self.estimation_procedure['type']}))
+            fields["Estimation Procedure"] = self.estimation_procedure['type']
         if self.target_name is not None:
-            fields = fields.append(pd.Series({"Target Feature": self.target_name}))
+            fields["Target Feature"] = self.target_name
             if hasattr(self, 'class_labels'):
-                fields = fields.append(pd.Series({"# of Classes": len(self.class_labels)}))
+                fields["# of Classes"] = len(self.class_labels)
             if hasattr(self, 'cost_matrix'):
-                fields = fields.append(pd.Series({"Cost Matrix": "Available"}))
+                fields["Cost Matrix"] = "Available"
 
+        # determines the order in which the information will be printed
         order = ["Task Type", "Task ID", "Task URL", "Estimation Procedure", "Evaluation Measure",
                  "Target Feature", "# of Classes", "Cost Matrix"]
-        fields = list(fields.reindex(order).dropna().iteritems())
+        fields = [(key, fields[key]) for key in order if key in fields]
 
         longest_field_name_length = max(len(name) for name, value in fields)
         field_line_format = "{{:.<{}}}: {{}}".format(longest_field_name_length)