Sanketika-Obsrv
diff --git a/‎api-service/src/configs/Config.ts‎
Lines changed: 1 addition & 0 deletions b/‎api-service/src/configs/Config.ts‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎api-service/src/configs/alertsConfig.json‎
Lines changed: 140 additions & 18 deletions b/‎api-service/src/configs/alertsConfig.json‎
Lines changed: 140 additions & 18 deletions
diff --git a/‎api-service/src/controllers/Alerts/Metric.ts‎
Lines changed: 1 addition & 2 deletions b/‎api-service/src/controllers/Alerts/Metric.ts‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎api-service/src/controllers/DataIngestion/DataIngestionController.ts‎
Lines changed: 1 addition & 0 deletions b/‎api-service/src/controllers/DataIngestion/DataIngestionController.ts‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎api-service/src/controllers/DataOut/DataOutController.ts‎
Lines changed: 4 additions & 0 deletions b/‎api-service/src/controllers/DataOut/DataOutController.ts‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎api-service/src/controllers/QueryWrapper/SqlQueryWrapper.ts‎
Lines changed: 2 additions & 1 deletion b/‎api-service/src/controllers/QueryWrapper/SqlQueryWrapper.ts‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎api-service/src/metrics/prometheus/helpers.ts‎
Lines changed: 3 additions & 4 deletions b/‎api-service/src/metrics/prometheus/helpers.ts‎
Lines changed: 3 additions & 4 deletions
@@ -131,6 +131,7 @@ export const config = {
   },
   "user_token_public_key": process.env.user_token_public_key || "",
   "is_RBAC_enabled": process.env.is_rbac_enabled || "true",
+  "telemetry_log": process.env.telemetry_log || '{"enable":true,"response_data":false}',
   "otel": {
     "enable": process.env.otel_enable || "false",
     "collector_endpoint": process.env.otel_collector_endpoint || "http://localhost:4318"
 
@@ -3,54 +3,176 @@
     "alerts": {
       "dataset_metrics_flink": [
         {
-          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_ExtractorJob_dataset_id_extractor_failed_count[5m]))",
-          "alias": "Number of Failed Extraction Events",
-          "description": "This alert tracks how many events failed the extraction stage",
+          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_ExtractorJob_dataset_id_extractor_failed_count[5m])) + sum(sum_over_time(flink_taskmanager_job_task_operator_ExtractorJob_dataset_id_extractor_duplicate_count[5m])) + sum(sum_over_time(flink_taskmanager_job_task_operator_PipelinePreprocessorJob_dataset_id_validator_failed_count[5m]))",
+          "alias": "[DATASET]: Detected high rate of invalid data than expected",
+          "category": "Processing",
+          "severity": "critical",
+          "code": "ALERT_1203",
+          "description": "The dataset is unhealthy, and the query results may be incorrect",
+          "summary": "Invalid data has been ingested in the system, preventing it from being processed. Henceforth, queries on this dataset may not return accurate data.",
           "frequency": "5m",
           "interval": "5m",
           "operator": "gt",
           "threshold": 0
         },
         {
-          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_ExtractorJob_dataset_id_extractor_duplicate_count[5m]))",
-          "alias": "Number of Duplicate Extraction Events",
-          "description": "This alert tracks how many duplicate events were found during extraction stage",
+          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_PipelinePreprocessorJob_dataset_id_dedup_failed_count[5m]))",
+          "alias": "[DATASET]: Detected higher rate of duplicate data than expected",
+          "category": "Processing",
+          "severity": "warning",
+          "code": "ALERT_1204",
+          "description": "The dataset is unhealthy, and the query results may be incorrect",
+          "summary": "Duplicate data has been ingested in the system, preventing it from being processed. Henceforth, queries on this dataset may not return accurate data.",
           "frequency": "5m",
           "interval": "5m",
           "operator": "gt",
           "threshold": 0
         },
         {
-          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_PipelinePreprocessorJob_dataset_id_dedup_failed_count[5m]))",
-          "alias": "Number of Duplicate Preprocessing Events",
-          "description": "This alert tracks how many duplicate events were found during preprocessing stage",
+          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_DenormalizerJob_dataset_id_denorm_failed[5m])) + sum(sum_over_time(flink_taskmanager_job_task_operator_DenormalizerJob_dataset_id_denorm_partial_success[5m]))",
+          "alias": "[DATASET]: Detected higher incidence of failures during data enrichment.",
+          "category": "Processing",
+          "severity": "warning",
+          "code": "ALERT_1205",
+          "description": "The dataset is unhealthy, and the query results may be incorrect",
+          "summary": "The data ingested into the system is failing the enrichment process, which may cause queries on this dataset to return inaccurate data.",
           "frequency": "5m",
           "interval": "5m",
           "operator": "gt",
           "threshold": 0
         },
         {
-          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_PipelinePreprocessorJob_dataset_id_validator_failed_count[5m]))",
-          "alias": "Number of Failed Validation Events",
-          "description": "This alert tracks how many events failed the validation stage",
+          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_TransformerJob_dataset_id_transform_failed_count[5m])) + sum(sum_over_time(flink_taskmanager_job_task_operator_TransformerJob_dataset_id_transform_partial_count[5m]))",
+          "alias": "[DATASET]: Detected higher incidence of failures during data transformations.",
+          "category": "Processing",
+          "severity": "warning",
+          "code": "ALERT_1206",
+          "description": "The dataset is unhealthy, and the query results may be incorrect",
+          "summary": "The data ingested into the system is failing the data transformation process, which may cause queries on this dataset to return inaccurate data.",
           "frequency": "5m",
           "interval": "5m",
           "operator": "gt",
           "threshold": 0
         },
         {
-          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_DenormalizerJob_dataset_id_denorm_failed[5m])) + sum(sum_over_time(flink_taskmanager_job_task_operator_DenormalizerJob_dataset_id_denorm_partial_success[5m]))",
-          "alias": "Number of Failed Denorm Events",
-          "description": "This alert tracks how many events failed the denorm stage",
+          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_PipelinePreprocessorJob_dataset_id_validator_total_count[$__range]))",
+          "alias": "[DATASET]: No data has been received for the past hour.",
+          "category": "Processing",
+          "severity": "warning",
+          "code": "ALERT_1209",
+          "description": "The dataset hasn’t received any new data for the past hour, which may affect the querying of the new data.",
+          "summary": "The dataset has not received any new data, which will impact real-time data processing",
+          "frequency": "5m",
+          "interval": "60m",
+          "operator": "lt",
+          "threshold": 1
+        }
+      ],
+      "dataset_metrics_druid": [
+        {
+          "metric": "max(druid_supervisors{supervisor_name=\"dataset_id\", state=\"RUNNING\"} or (0 * absent(druid_supervisors{supervisor_name=\"dataset_id\", state=\"RUNNING\"})))",
+          "alias": "[DATASET]: Druid supervisor is in an unhealthy state",
+          "category": "Querying",
+          "severity": "critical",
+          "code": "ALERT_1309",
+          "description": "The dataset is unhealthy, and no new data has been available for querying since the system encountered the issue.",
+          "summary": "The associated Druid Supervisor is in an unhealthy state, preventing druid ingestion tasks from running. As a result, real-time data cannot be queried.",
+          "frequency": "5m",
+          "interval": "5m",
+          "operator": "lt",
+          "threshold": 1
+        },
+        {
+          "metric": "druid_ingest_events_unparseable_total{dataSource=\"dataset_id\"}",
+          "alias": "[DATASET]: Detected higher amount of unparseable data.",
+          "flattened": true,
+          "category": "Querying",
+          "severity": "critical",
+          "code": "ALERT_1308",
+          "description": "The dataset is unhealthy, and the query results may be incorrect",
+          "summary": "Unparseable data has been detected in the system, preventing it from being processed. Henceforth, queries on this dataset may not return accurate data until the issue is resolved.",
           "frequency": "5m",
           "interval": "5m",
           "operator": "gt",
           "threshold": 0
         },
         {
-          "metric": "sum(sum_over_time(flink_taskmanager_job_task_operator_TransformerJob_dataset_id_transform_failed_count[5m])) + sum(sum_over_time(flink_taskmanager_job_task_operator_TransformerJob_dataset_id_transform_partial_count[5m]))",
-          "alias": "Number of Failed Transformer Events",
-          "description": "This alert tracks how many events failed the transformation stage",
+          "metric": "druid_ingest_kafka_lag{dataSource=\"dataset_id\"}",
+          "alias": "[DATASET]: Detected higher amount of query lag than expected.",
+          "category": "Querying",
+          "flattened": true,
+          "severity": "critical",
+          "code": "ALERT_1307",
+          "description": "A large amount of data is still waiting to be processed. This may cause delays in querying the most recent data",
+          "summary": "High indexer lag in the dataset indicates processing of new data is delayed. Because of this delay, new data isn’t available when querying the dataset.",
+          "frequency": "5m",
+          "interval": "60m",
+          "operator": "gt",
+          "threshold": 5000000
+        },
+        {
+          "metric": "druid_ingest_kafka_lag{dataSource=\"dataset_id\"}",
+          "alias": "[DATASET]: Druid Supervisor Ingestion Failure Due to Offsets.",
+          "category": "Querying",
+          "flattened": true,
+          "severity": "critical",
+          "code": "ALERT_1312",
+          "description": "The dataset is unhealthy, and no new data has been available for querying since the issue occurred",
+          "summary": "The supervisor is experiencing a negative offset, preventing it from ingesting new data. As a result, real-time data is unavailable for querying.",
+          "frequency": "5m",
+          "interval": "5m",
+          "operator": "lt",
+          "threshold": 0
+        },
+        {
+          "metric": "count(druid_tasks_duration{task_status='FAILED', datasource='dataset_id'}) OR on() vector(0)",
+          "alias": "[DATASET]: Druid tasks are in an unhealthy state",
+          "category": "Querying",
+          "severity": "critical",
+          "code": "ALERT_1310",
+          "description": "The dataset is unhealthy, and no new data has been available for querying since the system encountered the issue.",
+          "summary": "The Druid ingestion tasks are in an unhealthy state, causing data ingestion delays and failures. As a result, real-time data may not be available for querying.",
+          "frequency": "5m",
+          "interval": "5m",
+          "operator": "gt",
+          "threshold": 0
+        }
+      ],
+      "api_metric": [
+        {
+          "metric": "sum(sum_over_time(node_failed_api_calls{dataset_id='<dataset_id>', id='api.data.out'}[$__range])) or vector(0)",
+          "alias": "[DATASET]: The Data Query API is encountering more failures to retrieve the data",
+          "category": "Querying",
+          "severity": "warning",
+          "code": "ALERT_1305",
+          "description": "The dataset has been unavailable for querying data for an extented period",
+          "summary": "Query failures are preventing access to the dataset, resulting in an inability to retrieve data as expected.",
+          "frequency": "5m",
+          "interval": "5m",
+          "operator": "gt",
+          "threshold": 0
+        },
+        {
+          "metric": "avg(avg_over_time(node_query_response_time{dataset_id='<dataset_id>', id='api.data.out'}[$__range])) or vector(0)",
+          "alias": "[DATASET]: The Data Query API is facing delays in retrieving data",
+          "category": "Querying",
+          "severity": "warning",
+          "code": "ALERT_1306",
+          "description": "There is a delay in querying the dataset for an extended period.",
+          "summary": "Delays in queries are affecting access to the dataset, leading to delayed data retrieval.",
+          "frequency": "5m",
+          "interval": "5m",
+          "operator": "gt",
+          "threshold": 1000
+        },
+        {
+          "metric": "sum(sum_over_time(node_failed_api_calls{dataset_id='<dataset_id>', id='api.data.in'}[$__range])) or vector(0)",
+          "alias": "[DATASET]: Failed to ingest data into the system",
+          "category": "Ingestion",
+          "severity": "warning",
+          "code": "ALERT_1101",
+          "description": "Detected failures while adding new data to the dataset.",
+          "summary": "Failed to add new data to the dataset, impacting real-time data availability.",
           "frequency": "5m",
           "interval": "5m",
           "operator": "gt",
 
@@ -11,8 +11,7 @@ const telemetryObject = { type: "metric", ver: "1.0.0" };
 const createMetricHandler = async (req: Request, res: Response, next: NextFunction) => {
     try {
         const { component } = req.body;
-        const transformComponent = _.toLower(component);
-        const metricsBody = await Metrics.create({ ...(req.body), component: transformComponent });
+        const metricsBody = await Metrics.create({ ...(req.body), component: component });
         updateTelemetryAuditEvent({ request: req, object: { id: metricsBody?.dataValues?.id, ...telemetryObject } });
         ResponseHandler.successResponse(req, res, { status: httpStatus.OK, data: { id: metricsBody.dataValues.id } });
     } catch (error: any) {
 
@@ -21,6 +21,7 @@ const requestValidation = async (req: Request) => {
     if (_.isEmpty(dataset)) {
         throw obsrvError(datasetKey, "DATASET_NOT_FOUND", `Dataset with id/alias name '${datasetKey}' not found`, "NOT_FOUND", 404)
     }
+    _.set(req, "body.request.dataset_id", dataset.dataset_id);
     return dataset
 }
 
 
@@ -10,6 +10,7 @@ import { datasetService } from "../../services/DatasetService";
 import { obsrvError } from "../../types/ObsrvError";
 
 export const apiId = "api.data.out";
+export const query_data = {"data": {}};
 
 const requestValidation = async (req: Request) => {
     const datasourceKey = req.params?.dataset_id;
@@ -21,6 +22,7 @@ const requestValidation = async (req: Request) => {
     if (_.isEmpty(datasource)) {
         throw obsrvError(datasourceKey, "DATASET_NOT_FOUND", `Dataset with id/alias name '${datasourceKey}' not found`, "NOT_FOUND", 404)
     }
+    _.set(req, "body.request.dataset_id", datasource.dataset_id);
     return datasource
 }
 
@@ -34,6 +36,7 @@ const dataOut = async (req: Request, res: Response) => {
 
     if (isValidQuery === true && _.isObject(query)) {
         const result = await executeNativeQuery(query);
+        _.set(query_data, "data", result.data);
         logger.info({ apiId, msgid, requestBody, datasetId, message: "Native query executed successfully" })
         return ResponseHandler.successResponse(req, res, {
             status: 200, data: result?.data
@@ -42,6 +45,7 @@ const dataOut = async (req: Request, res: Response) => {
 
     if (isValidQuery === true && _.isString(query)) {
         const result = await executeSqlQuery({ query })
+        _.set(query_data, "data", result.data);
         logger.info({ apiId, msgid, requestBody, datasetId, message: "SQL query executed successfully" })
         return ResponseHandler.successResponse(req, res, {
             status: 200, data: result?.data
 
@@ -10,6 +10,7 @@ import { AxiosResponse } from "axios";
 
 const apiId = "api.obsrv.data.sql-query";
 const errorCode = "SQL_QUERY_FAILURE"
+export const result_data = {"data": {}};
 
 export const sqlQuery = async (req: Request, res: Response) => {
     const resmsgid = _.get(res, "resmsgid");
@@ -26,7 +27,6 @@ export const sqlQuery = async (req: Request, res: Response) => {
                 errCode: "BAD_REQUEST"
             } as ErrorObject, req, res);
         }
-
         const query = req.body.query as string;
         let result: AxiosResponse;
         if (isTableSchemaQuery(query)) {
@@ -37,6 +37,7 @@ export const sqlQuery = async (req: Request, res: Response) => {
                 headers: { Authorization: authorization },
             });
         }
+        _.set(result_data, "data", result.data);
         logger.info({ messsge: "Successfully fetched data using sql query", apiId, resmsgid })
         ResponseHandler.flatResponse(req, res, result)
     } catch (error: any) {
 
@@ -44,21 +44,20 @@ export const onGone = (req: any, res: Response) => {
 }
 
 export const onObsrvFailure = (req: any, res: Response,error: ObsrvError) => {
-    const { duration = 0, metricLabels }: Metric = getMetricLabels(req, res)
-    metricLabels.dataset_id = error.datasetId
+    const { duration = 0, metricLabels }: Metric = getMetricLabels(req, res, error)
     const { statusCode = 404 } = res
     const labels = { ...metricLabels, status: statusCode }
     duration && setQueryResponseTime({ duration, labels })
     incrementApiCalls({ labels })
     incrementFailedApiCalls({ labels });
 }
 
-const getMetricLabels = (req: any, res: Response) => {
+const getMetricLabels = (req: any, res: Response, errorBody?: ObsrvError) => {
     const { id, entity, originalUrl, startTime } = req;
     const { statusCode = 200 } = res
     const request_size = req.socket.bytesRead
     const response_size = res.getHeader("content-length");
-    const dataset_id = _.get(req, ["body", "request", "dataset_id"]) || _.get(req, ["params", "dataset_id"]) || null    
+    const dataset_id = _.get(req, ["body", "request", "dataset_id"]) || _.get(req, ["params", "dataset_id"]) || _.get(errorBody, "datasetId") || null    
     const duration = getDuration(startTime);
     const metricLabels = { entity, id, endpoint: originalUrl, dataset_id, status: statusCode, request_size, response_size }
     return { duration, metricLabels }
Original file line number	Diff line number	Diff line change
`@@ -21,6 +21,7 @@ const requestValidation = async (req: Request) => {`
`21`	`21`	`if (_.isEmpty(dataset)) {`
`22`	`22`	throw obsrvError(datasetKey, "DATASET_NOT_FOUND", `Dataset with id/alias name '${datasetKey}' not found`, "NOT_FOUND", 404)
`23`	`23`	`}`
	`24`	`+ _.set(req, "body.request.dataset_id", dataset.dataset_id);`
`24`	`25`	`return dataset`
`25`	`26`	`}`
`26`	`27`