|
2 | 2 |
|
3 | 3 | ## 概述 |
4 | 4 |
|
5 | | -本文档为最新数据库设计,总计包含 7 张表: |
| 5 | +本文档为最新数据库设计,总计包含 6 张表: |
6 | 6 |
|
7 | 7 | - alert_issues |
8 | 8 | - alert_issue_comments |
9 | 9 | - alert_meta_change_logs |
10 | 10 | - alert_rules |
11 | 11 | - alert_rule_metas |
12 | 12 | - service_states |
13 | | -- heal_actions |
14 | 13 |
|
15 | 14 | ## 数据表设计 |
16 | 15 |
|
|
112 | 111 |
|
113 | 112 | --- |
114 | 113 |
|
115 | | -### 6) service_states(服务状态表) |
| 114 | +### 7) service_states(服务状态表) |
116 | 115 |
|
117 | 116 | 追踪服务在某一版本上的健康状态与处置进度。 |
118 | 117 |
|
|
128 | 127 | **索引建议:** |
129 | 128 | - PRIMARY KEY: `(service, version)` |
130 | 129 |
|
131 | | ---- |
132 | | - |
133 | | -### 7) heal_actions(告警治愈解决方案表) |
134 | | - |
135 | | -存储不同故障域对应的治愈方案和规则。 |
136 | | - |
137 | | -| 字段名 | 类型 | 说明 | |
138 | | -|--------|------|------| |
139 | | -| id | varchar(255) PK | 治愈方案 ID | |
140 | | -| desc | text | 简单描述,如 action 是处理什么告警场景的 | |
141 | | -| type | varchar(255) | 对应的故障域类型 | |
142 | | -| rules | jsonb | 条件规则:{condition1: action1, condition2: action2} | |
143 | | - |
144 | | -**索引建议:** |
145 | | -- PRIMARY KEY: `id` |
146 | | -- INDEX: `(type)` |
147 | | - |
148 | | -**示例数据:** |
149 | | -```sql |
150 | | -INSERT INTO heal_actions (id, desc, type, rules) VALUES |
151 | | -('service_version_rollback', '服务版本回滚方案', 'service_version_issue', |
152 | | - '{"deployment_status": "deploying", "action": "rollback", "target": "previous_version"}'), |
153 | | -('service_version_alert', '服务版本告警方案', 'service_version_issue', |
154 | | - '{"deployment_status": "deployed", "action": "alert", "message": "版本已发布,暂不支持自动回滚"}'); |
155 | | -``` |
156 | | - |
157 | | -TODO: health_state映射逻辑 |
158 | | - |
159 | 130 | ## 数据关系(ER) |
160 | 131 |
|
161 | 132 | ```mermaid |
@@ -204,25 +175,13 @@ erDiagram |
204 | 175 | text content |
205 | 176 | } |
206 | 177 |
|
207 | | - heal_actions { |
208 | | - varchar id PK |
209 | | - text desc |
210 | | - varchar type |
211 | | - jsonb rules |
212 | | - } |
213 | | -
|
214 | 178 | %% 通过 service 等标签在应用层逻辑关联 |
215 | 179 | alert_rule_metas ||..|| alert_rules : "by alert_name" |
216 | 180 | service_states ||..|| alert_rule_metas : "by service/version labels" |
217 | | - heal_actions ||..|| alert_issues : "by fault domain analysis" |
218 | 181 | ``` |
219 | 182 |
|
220 | 183 | ## 数据流转 |
221 | 184 |
|
222 | 185 | 1. 以 `alert_rules` 为模版,结合 `alert_rule_metas` 渲染出面向具体服务/版本等的规则(labels 可为空 `{}` 表示全局默认,或包含如 service/version 等标签)。 |
223 | 186 | 2. 指标或规则参数发生调整时,记录到 `alert_meta_change_logs`。 |
224 | | -3. 规则触发创建 `alert_issues`;处理过程中的动作写入 `alert_issue_comments`。 |
225 | | -4. **告警治愈流程**: |
226 | | - - P0 告警:根据 `alert_issues.labels` 识别故障域,查询 `heal_actions` 获取治愈方案 |
227 | | - - 执行治愈操作(如回滚),成功后更新 `alert_issues` 和 `service_states` 状态 |
228 | | - - P1/P2 告警:直接进入下钻分析,记录分析结果到 `alert_issue_comments` |
| 187 | +3. 规则触发创建 `alert_issues`;处理过程中的动作写入 `alert_issue_comments`。 |
0 commit comments