|
2 | 2 |
|
3 | 3 | ## 概述 |
4 | 4 |
|
5 | | -本文档为最新数据库设计,总计包含 6 张表: |
| 5 | +本文档为最新数据库设计,总计包含 7 张表: |
6 | 6 |
|
7 | 7 | - alert_issues |
8 | 8 | - alert_issue_comments |
9 | 9 | - alert_meta_change_logs |
10 | 10 | - alert_rules |
11 | 11 | - alert_rule_metas |
12 | 12 | - service_states |
| 13 | +- heal_actions |
13 | 14 |
|
14 | 15 | ## 数据表设计 |
15 | 16 |
|
|
111 | 112 |
|
112 | 113 | --- |
113 | 114 |
|
114 | | -### 7) service_states(服务状态表) |
| 115 | +### 6) service_states(服务状态表) |
115 | 116 |
|
116 | 117 | 追踪服务在某一版本上的健康状态与处置进度。 |
117 | 118 |
|
|
127 | 128 | **索引建议:** |
128 | 129 | - PRIMARY KEY: `(service, version)` |
129 | 130 |
|
| 131 | +--- |
| 132 | + |
| 133 | +### 7) heal_actions(告警治愈解决方案表) |
| 134 | + |
| 135 | +存储不同故障域对应的治愈方案和规则。 |
| 136 | + |
| 137 | +| 字段名 | 类型 | 说明 | |
| 138 | +|--------|------|------| |
| 139 | +| id | varchar(255) PK | 治愈方案 ID | |
| 140 | +| desc | text | 简单描述,如 action 是处理什么告警场景的 | |
| 141 | +| type | varchar(255) | 对应的故障域类型 | |
| 142 | +| rules | jsonb | 条件规则:{condition1: action1, condition2: action2} | |
| 143 | + |
| 144 | +**索引建议:** |
| 145 | +- PRIMARY KEY: `id` |
| 146 | +- INDEX: `(type)` |
| 147 | + |
| 148 | +**示例数据:** |
| 149 | +```sql |
| 150 | +INSERT INTO heal_actions (id, desc, type, rules) VALUES |
| 151 | +('service_version_rollback', '服务版本回滚方案', 'service_version_issue', |
| 152 | + '{"deployment_status": "deploying", "action": "rollback", "target": "previous_version"}'), |
| 153 | +('service_version_alert', '服务版本告警方案', 'service_version_issue', |
| 154 | + '{"deployment_status": "deployed", "action": "alert", "message": "版本已发布,暂不支持自动回滚"}'); |
| 155 | +``` |
| 156 | + |
| 157 | +TODO: health_state映射逻辑 |
| 158 | + |
130 | 159 | ## 数据关系(ER) |
131 | 160 |
|
132 | 161 | ```mermaid |
@@ -175,13 +204,25 @@ erDiagram |
175 | 204 | text content |
176 | 205 | } |
177 | 206 |
|
| 207 | + heal_actions { |
| 208 | + varchar id PK |
| 209 | + text desc |
| 210 | + varchar type |
| 211 | + jsonb rules |
| 212 | + } |
| 213 | +
|
178 | 214 | %% 通过 service 等标签在应用层逻辑关联 |
179 | 215 | alert_rule_metas ||..|| alert_rules : "by alert_name" |
180 | 216 | service_states ||..|| alert_rule_metas : "by service/version labels" |
| 217 | + heal_actions ||..|| alert_issues : "by fault domain analysis" |
181 | 218 | ``` |
182 | 219 |
|
183 | 220 | ## 数据流转 |
184 | 221 |
|
185 | 222 | 1. 以 `alert_rules` 为模版,结合 `alert_rule_metas` 渲染出面向具体服务/版本等的规则(labels 可为空 `{}` 表示全局默认,或包含如 service/version 等标签)。 |
186 | 223 | 2. 指标或规则参数发生调整时,记录到 `alert_meta_change_logs`。 |
187 | | -3. 规则触发创建 `alert_issues`;处理过程中的动作写入 `alert_issue_comments`。 |
| 224 | +3. 规则触发创建 `alert_issues`;处理过程中的动作写入 `alert_issue_comments`。 |
| 225 | +4. **告警治愈流程**: |
| 226 | + - P0 告警:根据 `alert_issues.labels` 识别故障域,查询 `heal_actions` 获取治愈方案 |
| 227 | + - 执行治愈操作(如回滚),成功后更新 `alert_issues` 和 `service_states` 状态 |
| 228 | + - P1/P2 告警:直接进入下钻分析,记录分析结果到 `alert_issue_comments` |
0 commit comments