Add warning: total GPU quota is greater than total GPU count (#69)

tardieu · web-flow · commit 16c086e32e60 · 2024-09-30T13:57:31.000-04:00
diff --git a/tools/cluster-checker/checker.js b/tools/cluster-checker/checker.js
@@ -4,10 +4,10 @@ const k8s = require('@kubernetes/client-node')
 const k8srp = require('kubernetes-resource-parser')
 
 const nodeResources = {
-  'nvidia.com/gpu' : 8,
-  'nvidia.com/roce_gdr' : 2,
-  'cpu' : 80,
-  'memory' : '800G'
+  'nvidia.com/gpu': 8,
+  'nvidia.com/roce_gdr': 2,
+  'cpu': 80,
+  'memory': '800G'
 }
 
 class Client {
@@ -39,11 +39,11 @@ class Client {
     return res.body
   }
 
-  async readOperatorConfig() {
+  async readOperatorConfig () {
     const options = [
-      {ns: 'redhat-ods-applications', cm: 'codeflare-operator-config', key: 'config.yaml', f: cm => cm.appwrapper?.Config },
-      {ns: 'mlbatch-system', cm: 'appwrapper-operator-config', key: 'config.yaml', f: cm => cm.appwrapper },
-      {ns: 'appwrapper-system', cm: 'appwrapper-operator-config', key: 'config.yaml', f: cm => cm.appwrapper }
+      { ns: 'redhat-ods-applications', cm: 'codeflare-operator-config', key: 'config.yaml', f: cm => cm.appwrapper?.Config },
+      { ns: 'mlbatch-system', cm: 'appwrapper-operator-config', key: 'config.yaml', f: cm => cm.appwrapper },
+      { ns: 'appwrapper-system', cm: 'appwrapper-operator-config', key: 'config.yaml', f: cm => cm.appwrapper }
     ]
     for (const opt of options) {
       try {
@@ -149,7 +149,7 @@ function reservation (pod) {
 }
 
 // check container resource requests against node_resources
-function checkContainerResources(namespace, workload, workloadReplicas, container) {
+function checkContainerResources (namespace, workload, workloadReplicas, container) {
   // selectively merge limits into requests
   const resources = {}
   for (const k in container.resources?.requests ?? []) {
@@ -181,13 +181,13 @@ function checkContainerResources(namespace, workload, workloadReplicas, containe
   }
 
   // warn if the resource:GPU ratio is not proportional to Node resources
-  if (gdr > 0 && ((gpus == 0) || (gpus/gdr < nodeResources['nvidia.com/gpu']/nodeResources['nvidia.com/roce_gdr']))) {
+  if (gdr > 0 && ((gpus == 0) || (gpus / gdr < nodeResources['nvidia.com/gpu'] / nodeResources['nvidia.com/roce_gdr']))) {
     console.log(`WARNING: workload "${namespace.metadata.name}/${workload.metadata.name}" has a container requesting ${gdr} roce_gdr but only ${gpus} GPUs`)
   }
-  if (gpus > 0 && (cpus > 0) && (cpus/gpus > nodeResources['cpu']/nodeResources['nvidia.com/gpu'])) {
+  if (gpus > 0 && (cpus > 0) && (cpus / gpus > nodeResources['cpu'] / nodeResources['nvidia.com/gpu'])) {
     console.log(`WARNING: workload "${namespace.metadata.name}/${workload.metadata.name}" has a container requesting ${cpus} cpus but only ${gpus} GPUs`)
   }
-  if (gpus > 0 && (mem > 0) && (mem/gpus > k8srp.memoryParser(nodeResources['memory'])/nodeResources['nvidia.com/gpu'])) {
+  if (gpus > 0 && (mem > 0) && (mem / gpus > k8srp.memoryParser(nodeResources['memory']) / nodeResources['nvidia.com/gpu'])) {
     console.log(`WARNING: workload "${namespace.metadata.name}/${workload.metadata.name}" has a container requesting ${resources['memory']} memory but only ${gpus} GPUs`)
   }
 
@@ -376,6 +376,10 @@ async function main () {
       console.log('WARNING: nominal GPU quota is greater than schedulable GPU count')
     }
 
+    if (quotaGPUs + slackGPUs > clusterGPUs) {
+      console.log('WARNING: total GPU quota is greater than total GPU count')
+    }
+
     // check all accessible namespaces
     const namespaces = await client.namespaces()
     for (const namespace of namespaces) {