cli: Fix numpy int* and float* json output

John Andersen · sakshamarora1 · pdxjohnny · commit 00b693aea7ee · 2019-12-10T15:22:07.000-08:00
Fixes: #261 Co-authored-by: Saksham Arora <sakshamarora1001@gmail.com> Signed-off-by: John Andersen <john.s.andersen@intel.com>
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -28,6 +28,7 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 - MySQL packaging issue.
 - Develop service running one off operations correctly json-loads dict types.
 - Operations with configs can be run via the development service
+- JSON dumping numpy int\* and float\* caused crash on dump.
 ### Removed
 - CLI command `operations` removed in favor of `dataflow run`
 - Duplicate dataflow diagram code from development service
diff --git a/dffml/util/cli/cmd.py b/dffml/util/cli/cmd.py
@@ -32,6 +32,7 @@ class JSONEncoder(json.JSONEncoder):
     """
 
     def default(self, obj):
+        typename_lower = str(type(obj)).lower()
         if isinstance(obj, Repo):
             return obj.dict()
         elif isinstance(obj, Feature):
@@ -40,6 +41,11 @@ def default(self, obj):
             return str(obj.value)
         elif isinstance(obj, type):
             return str(obj.__qualname__)
+        elif "numpy." in typename_lower:
+            if ".int" in typename_lower or ".uint" in typename_lower:
+                return int(obj)
+            elif typename_lower.startswith("float"):
+                return float(obj)
         elif str(obj).startswith("typing."):
             return str(obj).split(".")[-1]
         return json.JSONEncoder.default(self, obj)
@@ -169,17 +175,8 @@ def sanitize_args(cls, args):
         return args
 
     @classmethod
-    def main(cls, loop=asyncio.get_event_loop(), argv=sys.argv):
-        """
-        Runs cli commands in asyncio loop and outputs in appropriate format
-        """
-        result = None
-        try:
-            result = loop.run_until_complete(cls.cli(*argv[1:]))
-        except KeyboardInterrupt:  # pragma: no cover
-            pass  # pragma: no cover
-        loop.run_until_complete(loop.shutdown_asyncgens())
-        loop.close()
+    async def _main(cls, *args):
+        result = await cls.cli(*args)
         if not result is None and result is not DisplayHelp:
             json.dump(
                 result,
@@ -191,6 +188,21 @@ def main(cls, loop=asyncio.get_event_loop(), argv=sys.argv):
             )
             print()
 
+    @classmethod
+    def main(cls, loop=None, argv=sys.argv):
+        """
+        Runs cli commands in asyncio loop and outputs in appropriate format
+        """
+        if loop is None:
+            loop = asyncio.get_event_loop()
+        result = None
+        try:
+            result = loop.run_until_complete(cls._main(*argv[1:]))
+        except KeyboardInterrupt:  # pragma: no cover
+            pass  # pragma: no cover
+        loop.run_until_complete(loop.shutdown_asyncgens())
+        loop.close()
+
     @classmethod
     def args(cls, args, *above) -> Dict[str, Any]:
         """
diff --git a/tests/integration/test_models.py b/tests/integration/test_models.py
@@ -0,0 +1,123 @@
+"""
+This file contains integration tests. We use the CLI to exercise functionality of
+various DFFML classes and constructs.
+"""
+import re
+import os
+import io
+import json
+import inspect
+import pathlib
+import asyncio
+import contextlib
+import unittest.mock
+from typing import Dict, Any
+
+from dffml.repo import Repo
+from dffml.base import config
+from dffml.df.types import Definition, Operation, DataFlow, Input
+from dffml.df.base import op
+from dffml.cli.cli import CLI
+from dffml.model.model import Model
+from dffml.service.dev import Develop
+from dffml.util.packaging import is_develop
+from dffml.util.entrypoint import load
+from dffml.config.config import BaseConfigLoader
+from dffml.util.asynctestcase import AsyncTestCase
+
+from .common import IntegrationCLITestCase
+
+
+class TestScikitClassification(IntegrationCLITestCase):
+    async def test_run(self):
+        self.required_plugins("dffml-model-scikit")
+        # Create the training data
+        train_filename = self.mktempfile() + ".csv"
+        pathlib.Path(train_filename).write_text(
+            inspect.cleandoc(
+                """
+                Clump_Thickness,Uniformity_of_Cell_Size,Uniformity_of_Cell_Shape,Marginal_Adhesion,Single_Epithelial_Cell_Size,Bare_Nuclei,Bland_Chromatin,Normal_Nucleoli,Mitoses,Class
+                3,4,5,2,6,8,4,1,1,4
+                1,1,1,1,3,2,2,1,1,2
+                3,1,1,3,8,1,5,8,1,2
+                8,8,7,4,10,10,7,8,7,4
+                """
+            )
+            + "\n"
+        )
+        # Create the test data
+        test_filename = self.mktempfile() + ".csv"
+        pathlib.Path(test_filename).write_text(
+            inspect.cleandoc(
+                """
+                Clump_Thickness,Uniformity_of_Cell_Size,Uniformity_of_Cell_Shape,Marginal_Adhesion,Single_Epithelial_Cell_Size,Bare_Nuclei,Bland_Chromatin,Normal_Nucleoli,Mitoses,Class
+                1,1,1,1,1,1,3,1,1,2
+                7,2,4,1,6,10,5,4,3,4
+                """
+            )
+            + "\n"
+        )
+        # Create the prediction data
+        predict_filename = self.mktempfile() + ".csv"
+        pathlib.Path(predict_filename).write_text(
+            inspect.cleandoc(
+                """
+                Clump_Thickness,Uniformity_of_Cell_Size,Uniformity_of_Cell_Shape,Marginal_Adhesion,Single_Epithelial_Cell_Size,Bare_Nuclei,Bland_Chromatin,Normal_Nucleoli,Mitoses,Class
+                5,3,3,3,6,10,3,1,1
+                """
+            )
+            + "\n"
+        )
+        # Features
+        features = "-model-features def:Clump_Thickness:int:1 def:Uniformity_of_Cell_Size:int:1 def:Uniformity_of_Cell_Shape:int:1 def:Marginal_Adhesion:int:1 def:Single_Epithelial_Cell_Size:int:1 def:Bare_Nuclei:int:1 def:Bland_Chromatin:int:1 def:Normal_Nucleoli:int:1 def:Mitoses:int:1".split()
+        # Train the model
+        await CLI.cli(
+            "train",
+            "-model",
+            "scikitsvc",
+            *features,
+            "-model-predict",
+            "Class",
+            "-sources",
+            "training_data=csv",
+            "-source-filename",
+            train_filename,
+        )
+        # Assess accuracy
+        await CLI.cli(
+            "accuracy",
+            "-model",
+            "scikitsvc",
+            *features,
+            "-model-predict",
+            "Class",
+            "-sources",
+            "test_data=csv",
+            "-source-filename",
+            test_filename,
+        )
+        # Ensure JSON output works as expected (#261)
+        with contextlib.redirect_stdout(self.stdout):
+            # Make prediction
+            await CLI._main(
+                "predict",
+                "all",
+                "-model",
+                "scikitsvc",
+                *features,
+                "-model-predict",
+                "Class",
+                "-sources",
+                "predict_data=csv",
+                "-source-filename",
+                predict_filename,
+            )
+        results = json.loads(self.stdout.getvalue())
+        self.assertTrue(isinstance(results, list))
+        self.assertTrue(results)
+        results = results[0]
+        self.assertIn("prediction", results)
+        results = results["prediction"]
+        self.assertIn("value", results)
+        results = results["value"]
+        self.assertEqual(4, results)