Merge pull request #95 from target/release/2.4.0

James Bell · web-flow · commit d6872d716ba0 · 2018-11-08T06:50:24.000-06:00
Release/2.4.0
diff --git a/docs/GreaseGuide/data_model.rst b/docs/GreaseGuide/data_model.rst
@@ -16,6 +16,7 @@ will look like this::
         "job": String, # <-- name of command to be run if logic is true
         "exe_env": String, # <-- If not provided will be default as 'general'
         "source": String, # <-- source of data to be provided
+        "retry_maximum": int, # <-- Maximum number of times your command will run before stopping. Default is 5 retries.
         "logic": { # <-- Logical blocks to be evaluated by Detection
             "Regex": [ # <-- example for regex detector
                 {
diff --git a/setup.py b/setup.py
@@ -4,7 +4,7 @@
 
 setup(
     name='tgt_grease',
-    version='2.3.10',
+    version='2.4.0',
     license="MIT",
     description='Modern distributed automation engine built with love by Target',
     long_description="""
diff --git a/tgt_grease/core/Types/Command.py b/tgt_grease/core/Types/Command.py
@@ -44,6 +44,15 @@ def __init__(self, Logger=None):
             .get_collection(self.__class__.__name__)
         self.start_time = datetime.utcnow()
         self.exec_data = {'execVal': False, 'retVal': False, 'data': {}}
+        self.__failures = 0
+
+    @property
+    def failures(self):
+        return self.__failures
+
+    @failures.setter
+    def failures(self, val):
+        self.__failures = val
 
     def getExecVal(self):
         """Get the execution attempt success
@@ -141,3 +150,11 @@ def execute(self, context):
 
         """
         pass
+
+    def prevent_retries(self):
+        """
+        Sets a flag in the command's return data that will signal to stop retrying, even before the default
+        retry limit is met.
+
+        """
+        self.setData("no_retry", True)
diff --git a/tgt_grease/management/Model/monitor.py b/tgt_grease/management/Model/monitor.py
@@ -16,11 +16,8 @@ class NodeMonitoring(object):
 
     """
 
-    def __init__(self, ioc=None):
-        if isinstance(ioc, GreaseContainer):
-            self.ioc = ioc
-        else:
-            self.ioc = GreaseContainer()
+    def __init__(self, ioc=GreaseContainer()):
+        self.ioc = ioc
         self.centralScheduler = Scheduling(self.ioc)
         self.scheduler = Scheduler(self.ioc)
 
@@ -33,47 +30,59 @@ def monitor(self):
         """
         servers = self.getServers()
         retVal = False
-        self.ioc.getLogger().debug("Total servers to monitor [{0}]".format(len(servers)), trace=True)
+        self.ioc.getLogger().debug(
+            "Total servers to monitor [{0}]".format(len(servers)), trace=True)
         for server in servers:
             if self.serverAlive(server.get('_id')):
                 retVal = True
                 continue
             else:
-                self.ioc.getLogger().warning("Server [{0}] preparing to be culled from pool".format(server.get('_id')))
-                self.ioc.getLogger().warning("Server [{0}] preparing to be deactivated".format(server.get('_id')))
+                self.ioc.getLogger().warning(
+                    "Server [{0}] preparing to be culled from pool".format(server.get('_id')))
+                self.ioc.getLogger().warning(
+                    "Server [{0}] preparing to be deactivated".format(server.get('_id')))
                 if not self.deactivateServer(server.get('_id')):
                     self.ioc.getLogger().error(
-                        "Failed deactivating server [{0}]".format(server.get('_id'))
+                        "Failed deactivating server [{0}]".format(
+                            server.get('_id'))
                     )
                     retVal = False
                     break
                 self.ioc.getLogger().warning(
-                    "Server [{0}] preparing to reallocate detect jobs".format(server.get('_id'))
+                    "Server [{0}] preparing to reallocate detect jobs".format(
+                        server.get('_id'))
                 )
                 if not self.rescheduleDetectJobs(server.get('_id')):
                     self.ioc.getLogger().error(
-                        "Failed rescheduling detect jobs [{0}]".format(server.get('_id'))
+                        "Failed rescheduling detect jobs [{0}]".format(
+                            server.get('_id'))
                     )
                     retVal = False
                     break
                 self.ioc.getLogger().warning(
-                    "Server [{0}] preparing to reallocate schedule jobs".format(server.get('_id'))
+                    "Server [{0}] preparing to reallocate schedule jobs".format(
+                        server.get('_id'))
                 )
                 if not self.rescheduleScheduleJobs(server.get('_id')):
                     self.ioc.getLogger().error(
-                        "Failed rescheduling detect jobs [{0}]".format(server.get('_id'))
+                        "Failed rescheduling detect jobs [{0}]".format(
+                            server.get('_id'))
                     )
                     retVal = False
                     break
                 self.ioc.getLogger().warning(
-                    "Server [{0}] preparing to reallocate jobs".format(server.get('_id'))
+                    "Server [{0}] preparing to reallocate jobs".format(
+                        server.get('_id'))
                 )
                 if not self.rescheduleJobs(server.get('_id')):
                     self.ioc.getLogger().error(
-                        "Failed rescheduling detect jobs [{0}]".format(server.get('_id'))
+                        "Failed rescheduling detect jobs [{0}]".format(
+                            server.get('_id'))
                     )
                     retVal = False
                     break
+
+        self.schedule_orphans()
         return retVal
 
     def scanComplete(self):
@@ -118,10 +127,12 @@ def scanComplete(self):
             'createTime': datetime.datetime.utcnow(),
             'expiry': Deduplication.generate_max_expiry_time(1)
         })
-        server = self.ioc.getCollection('JobServer').find_one({'_id': ObjectId(self.ioc.getConfig().NodeIdentity)})
+        server = self.ioc.getCollection('JobServer').find_one(
+            {'_id': ObjectId(self.ioc.getConfig().NodeIdentity)})
         if not server:
             self.ioc.getLogger().critical(
-                "Failed to find server [{0}] after monitoring occurred!".format(self.ioc.getConfig().NodeIdentity)
+                "Failed to find server [{0}] after monitoring occurred!".format(
+                    self.ioc.getConfig().NodeIdentity)
             )
         self.ioc.getCollection('JobServer').update_one({
             '_id': ObjectId(self.ioc.getConfig().NodeIdentity)},
@@ -159,7 +170,8 @@ def serverAlive(self, serverId):
         Server = coll.find_one({'server': ObjectId(serverId)})
         if Server:
             # We have a server already in the system
-            serverStats = self.ioc.getCollection('JobServer').find_one({'_id': ObjectId(serverId)})
+            serverStats = self.ioc.getCollection(
+                'JobServer').find_one({'_id': ObjectId(serverId)})
             if serverStats:
                 # compare previous results to see if there has been change
                 if dict(Server).get('jobs', 0) < dict(serverStats).get('jobs', 0):
@@ -173,28 +185,33 @@ def serverAlive(self, serverId):
                             }
                         }
                     )
-                    self.ioc.getLogger().trace("JobServer [{0}] is alive".format(serverId), trace=True)
+                    self.ioc.getLogger().trace(
+                        "JobServer [{0}] is alive".format(serverId), trace=True)
                     return True
                 else:
                     if dict(Server).get('checkTime', datetime.datetime.utcnow()) < \
                             datetime.datetime.utcnow() - datetime.timedelta(minutes=10):
                         # server has aged out
                         self.ioc.getLogger().trace(
-                            "JobServer [{0}] is not alive; Timestamp has not changed in ten minutes".format(serverId),
+                            "JobServer [{0}] is not alive; Timestamp has not changed in ten minutes".format(
+                                serverId),
                             trace=True
                         )
                         return False
                     else:
                         # server is in a degraded state
-                        self.ioc.getLogger().warning("JobServer [{0}] is degraded!".format(serverId), trace=True)
+                        self.ioc.getLogger().warning(
+                            "JobServer [{0}] is degraded!".format(serverId), trace=True)
                         return True
             else:
                 # Failed to find server in JobServer collection
-                self.ioc.getLogger().error("JobServer not found during node monitoring! [{0}]".format(serverId))
+                self.ioc.getLogger().error(
+                    "JobServer not found during node monitoring! [{0}]".format(serverId))
                 return False
         else:
             # we have a new server
-            serverStats = self.ioc.getCollection('JobServer').find_one({'_id': ObjectId(serverId)})
+            serverStats = self.ioc.getCollection(
+                'JobServer').find_one({'_id': ObjectId(serverId)})
             if serverStats:
                 coll.insert_one(
                     {
@@ -203,11 +220,13 @@ def serverAlive(self, serverId):
                         'checkTime': datetime.datetime.utcnow()
                     }
                 )
-                self.ioc.getLogger().info("New JobServer persisted in monitoring [{0}]".format(serverId))
+                self.ioc.getLogger().info(
+                    "New JobServer persisted in monitoring [{0}]".format(serverId))
                 return True
             else:
                 # Failed to find server in JobServer collection
-                self.ioc.getLogger().error("New JobServer not found during node monitoring! [{0}]".format(serverId))
+                self.ioc.getLogger().error(
+                    "New JobServer not found during node monitoring! [{0}]".format(serverId))
                 return False
 
     def deactivateServer(self, serverId):
@@ -228,10 +247,12 @@ def deactivateServer(self, serverId):
                     }
                 }
         ).modified_count < 1:
-            self.ioc.getLogger().warning("Server [{0}] failed to be deactivated".format(serverId))
+            self.ioc.getLogger().warning(
+                "Server [{0}] failed to be deactivated".format(serverId))
             return False
         else:
-            self.ioc.getLogger().warning("Server [{0}] deactivated".format(serverId))
+            self.ioc.getLogger().warning(
+                "Server [{0}] deactivated".format(serverId))
             return True
 
     def rescheduleDetectJobs(self, serverId):
@@ -245,10 +266,12 @@ def rescheduleDetectJobs(self, serverId):
 
         """
         retval = True
-        server = self.ioc.getCollection('JobServer').find_one({'_id': ObjectId(serverId)})
+        server = self.ioc.getCollection(
+            'JobServer').find_one({'_id': ObjectId(serverId)})
         if not server:
             self.ioc.getLogger().error(
-                "Failed to load server details while trying to reschedule detection [{0}]".format(serverId)
+                "Failed to load server details while trying to reschedule detection [{0}]".format(
+                    serverId)
             )
             return False
         for job in self.ioc.getCollection('SourceData').find(
@@ -284,10 +307,12 @@ def rescheduleScheduleJobs(self, serverId):
 
         """
         retval = True
-        server = self.ioc.getCollection('JobServer').find_one({'_id': ObjectId(serverId)})
+        server = self.ioc.getCollection(
+            'JobServer').find_one({'_id': ObjectId(serverId)})
         if not server:
             self.ioc.getLogger().error(
-                "Failed to load server details while trying to reschedule schedules [{0}]".format(serverId)
+                "Failed to load server details while trying to reschedule schedules [{0}]".format(
+                    serverId)
             )
             return False
         for job in self.ioc.getCollection('SourceData').find(
@@ -323,10 +348,12 @@ def rescheduleJobs(self, serverId):
 
         """
         retval = True
-        server = self.ioc.getCollection('JobServer').find_one({'_id': ObjectId(serverId)})
+        server = self.ioc.getCollection(
+            'JobServer').find_one({'_id': ObjectId(serverId)})
         if not server:
             self.ioc.getLogger().error(
-                "Failed to load server details while trying to reschedule schedules [{0}]".format(serverId)
+                "Failed to load server details while trying to reschedule schedules [{0}]".format(
+                    serverId)
             )
             return False
         for job in self.ioc.getCollection('SourceData').find(
@@ -351,3 +378,64 @@ def rescheduleJobs(self, serverId):
                     }
                 )
         return retval
+
+    def schedule_orphans(self):
+        self.ioc.getLogger().info("Checking for orphaned jobs...", verbose=True)
+        self.schedule_detection_orphans()
+        self.schedule_scheduling_orphans()
+        self.schedule_execution_orphans()
+
+    def schedule_detection_orphans(self):
+        dead_servers = list(self.ioc.getCollection(
+            "JobServer").find({'active': False}))
+
+        # Look for any active jobs with an inactive parent server, and reschedule them.
+        for orphan in self.ioc.getCollection('SourceData').find(
+            {
+                'grease_data.detection.server': {"$in": [ObjectId(parent.get('_id')) for parent in dead_servers]},
+                'grease_data.detection.end': None
+            }
+        ):
+            if self.centralScheduler.scheduleDetection(orphan.get('source'), orphan.get('configuration'), [orphan]):
+                self.ioc.getLogger().info(
+                    "Rescheduled orphan detection record: [{}]".format(orphan), verbose=True)
+            else:
+                self.ioc.getLogger().error(
+                    "Unable to reschedule orphan detection record: [{}]".format(orphan))
+
+    def schedule_scheduling_orphans(self):
+        dead_servers = list(self.ioc.getCollection(
+            "JobServer").find({'active': False}))
+
+        # Look for any active jobs with an inactive parent server, and reschedule them.
+        for orphan in self.ioc.getCollection('SourceData').find(
+            {
+                'grease_data.scheduling.server': {"$in": [ObjectId(parent.get('_id')) for parent in dead_servers]},
+                'grease_data.scheduling.end': None
+            }
+        ):
+            if self.centralScheduler.scheduleScheduling(orphan.get('_id')):
+                self.ioc.getLogger().info(
+                    "Rescheduled orphan scheduling record: [{}]".format(orphan), verbose=True)
+            else:
+                self.ioc.getLogger().error(
+                    "Unable to reschedule orphan detection record: [{}]".format(orphan))
+
+    def schedule_execution_orphans(self):
+        dead_servers = list(self.ioc.getCollection(
+            "JobServer").find({'active': False}))
+
+        # Look for any active jobs with an inactive parent server, and reschedule them.
+        for orphan in self.ioc.getCollection('SourceData').find(
+            {
+                'grease_data.execution.server': {"$in": [ObjectId(parent.get('_id')) for parent in dead_servers]},
+                'grease_data.execution.failures': {"$lt": 6},
+                'grease_data.execution.commandSuccess': False
+            }
+        ):
+            if self.scheduler.schedule(orphan):
+                self.ioc.getLogger().info(
+                    "Rescheduled orphan scheduling record: [{}]".format(orphan), verbose=True)
+            else:
+                self.ioc.getLogger().error(
+                    "Unable to reschedule orphan detection record: [{}]".format(orphan))
diff --git a/tgt_grease/router/Commands/Daemon.py b/tgt_grease/router/Commands/Daemon.py
@@ -71,7 +71,8 @@ def server(self):
             'grease_data.execution.server': ObjectId(self.ioc.getConfig().NodeIdentity),
             'grease_data.execution.commandSuccess': False,
             'grease_data.execution.executionSuccess': False,
-            'grease_data.execution.failures': {'$lt': 6}
+            'grease_data.execution.failures': {'$lt': 6},
+            '$or': [{'grease_data.execution.returnData.no_retry': {'$exists': False}}, {'grease_data.execution.returnData.no_retry': False}]
         })
         # Get Node Information
         Node = self.ioc.getCollection('JobServer').find_one({'_id': ObjectId(self.ioc.getConfig().NodeIdentity)})
@@ -113,11 +114,29 @@ def _run_job(self, job, JobCollection):
         if not self.contextManager['jobs'].get(job.get('_id')):
             # New Job to run
             if isinstance(job.get('configuration'), bytes):
-                conf = job.get('configuration').decode()
+                conf = self.conf.get_config(job.get('configuration').decode())
             else:
-                conf = job.get('configuration')
-            inst = self.impTool.load(self.conf.get_config(conf).get('job', ''))
+                conf = self.conf.get_config(job.get('configuration'))
+            # Honor a config's retry maximum if present
+            if conf.get('retry_maximum') and \
+                job.get('grease_data', {}).get('execution', {}).get('failures', 0) - 1 >= conf.get("retry_maximum", 5):
+                self.ioc.getLogger().info(
+                    "Job has hit its retry maximum of {0}".format(conf.get('retry_maximum', 5)),
+                    additional=job
+                )
+                JobCollection.update_one(
+                    {'_id': ObjectId(job['_id'])},
+                    {
+                        '$set': {
+                            'grease_data.execution.returnData.no_retry': True
+                        }
+                    }
+                )
+                return
+
+            inst = self.impTool.load(conf.get('job', ''))
             if inst and isinstance(inst, Command):
+                inst.failures = job.get("grease_data", {}).get("execution", {}).get("failures")
                 inst.ioc.getLogger().foreground = self.ioc.getLogger().foreground
                 thread = threading.Thread(
                     target=inst.safe_execute,
diff --git a/tgt_grease/router/Commands/tests/test_daemon_process.py b/tgt_grease/router/Commands/tests/test_daemon_process.py

Original file line number	Diff line number	Diff line change
`@@ -16,6 +16,7 @@ will look like this::`
`16`	`16`	`"job": String, # <-- name of command to be run if logic is true`
`17`	`17`	`"exe_env": String, # <-- If not provided will be default as 'general'`
`18`	`18`	`"source": String, # <-- source of data to be provided`
	`19`	`+ "retry_maximum": int, # <-- Maximum number of times your command will run before stopping. Default is 5 retries.`
`19`	`20`	`"logic": { # <-- Logical blocks to be evaluated by Detection`
`20`	`21`	`"Regex": [ # <-- example for regex detector`
`21`	`22`	`{`