Skip to content

Commit e50177c

Browse files
committed
foreword: sudo prompt, explain more about SLA
1 parent c54c917 commit e50177c

File tree

1 file changed

+21
-1
lines changed

1 file changed

+21
-1
lines changed

docs/foreword.md

Lines changed: 21 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -34,7 +34,13 @@ DevOps
3434

3535
## 可靠性指标
3636

37-
当我们讨论「可靠性」时,经常可以听到像「3 个 9」「4 个 9」这样的描述,这代表了服务正常运行的时间比例。如果服务的可靠性有 **3 个 9(99.9%),那么每年则最多允许不可用 8 小时 41 分钟 38 秒**。如果再加一个 9(99.99%),那么每年的不可用时间段就**最多只允许 52 分钟 9.8 秒**。在签订法律合同时,这项指标也被称为 **SLA(Service Level Agreement)**,代表了服务提供商和客户之间的可用性约定。
37+
当我们讨论「可靠性」时,经常可以听到像「3 个 9」「4 个 9」这样的描述,这代表了服务正常运行的时间比例。如果服务的可靠性有 **3 个 9(99.9%),那么每年则最多允许不可用 8 小时 41 分钟 38 秒**。如果再加一个 9(99.99%),那么每年的不可用时间段就**最多只允许 52 分钟 9.8 秒**。在签订法律合同时,这项指标也被称为 **SLA(Service Level Agreement)**,代表了服务提供商和客户之间的可用性约定,如果服务没能达到 SLA 的要求,服务提供商需要提供补偿。
38+
39+
!!! note "`s/SLA/availability/g`"
40+
41+
不少时候,SLA 这个词会被误用来描述某个服务的「可用性」,这通常是不正确的(除非你与服务提供商签订了正式协议)。特别是对公益性质的网络服务而言,因为这类服务无法承担违约赔偿责任,因此只能够尽力而为保障可用性,而不能使用 SLA 这种有合同约束效力的词汇。
42+
43+
更好的说法是「某个服务的可用性(uptime 或 availability)在某年达到 / 预期能达到 99.9%」。
3844

3945
那么如何定义「可用」呢?这就与 SLI(Service Level Indicator)有关了。SLI 是用来衡量服务情况的具体值,例如,HTTP 的响应时间就是一种典型的 SLI。
4046

@@ -53,6 +59,20 @@ DevOps
5359

5460
因此,这是一份**能力、道德素养与责任心缺一不可**的任务。同时,在将系统的重要权限授予其他用户时,也请确保对应的用户了解相关的注意事项,并能够为自己的行为负责。特别需要注意的是,目前大语言模型无法代替没有任何经验的用户进行系统管理(这一点也可以从下面的例子看到),并且由于忽略警告、盲目听从建议等原因,可能会导致更严重的后果。
5561

62+
!!! example "sudo 的首次提示语"
63+
64+
当作为普通用户第一次使用 `sudo` 命令时,你会看到下面这段话:
65+
66+
```text
67+
We trust you have received the usual lecture from the local System
68+
Administrator. It usually boils down to these three things:
69+
#1) Respect the privacy of others.
70+
#2) Think before you type.
71+
#3) With great power comes great responsibility.
72+
```
73+
74+
这三点(隐私、谨慎、责任)概括了上面提到的必要原则。
75+
5676
USENIX 的 [System Administrators' Code of Ethics](https://www.usenix.org/system-administrators-code-ethics)(系统管理员伦理守则)对这些必要的原则有着更深入的描述。
5777

5878
此外,在维护的过程中,出现问题是不可避免的。但是在出现问题之后,应当**避免责备某个具体的人**。正如绝大部分的飞机事故都是各个方面的问题共同导致,几乎不会出现某一个人需要承担全部责任的结果一样,一个合格的系统管理员,需要能够系统地分析故障原因(这也被称为 Post-Mortem,即「事后分析」),并且针对分析得到的问题,或编写工具,或改进流程,这样才能够有效地防止同样的问题再次发生。

0 commit comments

Comments
 (0)