[ASSIGNOR] Implement CostAwareAssignor by harryteng9527 · Pull Request #1524 · opensource4you/astraea

harryteng9527 · 2023-02-27T15:13:40Z

此 PR 實作 CostAwareAssignor，基於使用者選擇的 cost function 量化 partition 的負載，再依照量化的負載分配 partition 給 consumers，達到負載平衡的目的

分配方式

此 PR 實作較直覺的 greedy 分配，將 tp 分配給負載最低的 consumer。在分配前，會先用 tp 篩選 consumer，以下為篩選流程：

將沒有訂閱此 topic 的 consumer 過濾掉
利用 tp 的 incompatibility 過濾不適合分配的 consumer，關於 incompatibility 可參考 [COST] Provide feedback on incompatible partitions for partition cost #1578 與 [COST] Implement feedback for network ingress cost #1637
若有適合分配的 consumers，則從中挑選負載最低的 consumer 分配。否則，從有訂閱該 topic 的 consumer(s) 中挑選負載最低的 consumer

什麼是適合分配的 consumer

分配 tp 當下，consumer 當時被分配到的 partitions 的 incompatibility 中不存在 tp，即為適合的 consumer

以 NetworkIngressCost 為例，因為流入速度較慢的 partition 會拖慢同節點內其他 partitions 的消費速度，所以同個節點中，流入速度差異過大的 partition 會被視為不適合放在同一個 consumer 上 (詳細可看 #1475 )

先前 PR 內容

這隻 PR 先做出分配節點內流量相近的 partitions 給同一個 consumer，並在這隻 PR 上討論上面幾點，或是這隻 PR 先把第1版 NetworkIngressAssignor 實作完，之後再開其他 PR 優化

目前有以現在推上來的第1版做實驗，實驗環境與流程 #1475 相同

Throughput

Latency

做完實驗後發現，NetworkIngress assignor 能夠將 consumer 處理不完的資料(partition)分配給其他 consumer，所以整體的吞吐量上升，也降低了延遲。
只不過目前的實驗情境(使用 throttle )是刻意製造的，希望之後改用 Key distribution 製造出比較能說服人的情境

chia7712 · 2023-02-28T14:41:38Z

做完實驗後發現，NetworkIngress assignor 能夠將 consumer 處理不完的資料(partition)分配給其他 consumer，所以整體的吞吐量上升，也降低了延遲。
只不過目前的實驗情境(使用 throttle )是刻意製造的，希望之後改用 Key distribution 製造出比較能說服人的情境

請問可否提供明確的數字？例如大概提升了幾趴

common/src/main/java/org/astraea/common/assignor/NetworkIngressAssignor.java

harryteng9527 · 2023-03-01T03:47:02Z

請問可否提供明確的數字？例如大概提升了幾趴

吞吐量

Range 的平均吞吐量為 718MB/s
NetworkIngress 的平均吞吐量為 779 MB/s

NetworkIngress 的分配讓 consumers 的吞吐量大約提昇 8.5％

latency

consumer 處理每個 fetch request 的 latency 如下：

Range 處理 fetch request 的 latency 為 15.7 ms
NetworkIngress 處理 fetch request 的 latency 為 10.92 ms

NetworkIngress 的延遲相較 Range assignor 降低了 30 %

計算 latency 的方式如下：

L_i 為 consumer_i 的 average fetch latency
R_i 為 consumer_i 平均發送的 fetch request 數量
n 為 consumer 的總數

common/src/main/java/org/astraea/common/assignor/NetworkIngressAssignor.java

common/src/main/java/org/astraea/common/assignor/CostAwareAssignor.java

chia7712 · 2023-03-08T15:43:35Z

麻煩rebase

harryteng9527 · 2023-05-02T15:10:39Z

這次的 commit 為 Assignor 新增 Combinator 與 Shuffler 兩個元件，為了測試有沒有達到負載平衡的功能，所以沒有另外開 PR 實作這兩個元件，元件所做的工作大致如下：

Combinator

利用 greedy 的策略將 partition 分配給 cost 最低的 consumer，這邊不會考慮 incompatible 的情形

Shuffler

主要的工作是將 partitions 一直洗牌組合，最後在組合的解中找到一組相對好的解。但在洗牌前會先去判斷 greedy 的分配結果可不可行（主要是因為洗牌找解的過程中，可能會滿耗時的(實測大概 10 sec 左右)）

先判斷有無 incompatibility，若無則直接回傳 combinator 所分配的結果
若有 incompatibility，先計算 consumer 有沒有被分配到 incompatible partition。若 consumer 拿到的 partitions 都是適合的，直接回傳 combinator 所分配的結果
若 consumer 拿到的 partitions 中有不適合的，開始做 shuffler 的洗牌組合
為每個隨機組合計算標準差，取標準差最低的 10%，從中取得最少擁有不適合 partition 的組合當作最終 assignment

洗牌組合流程

流程大概如下：

使用者可設定找解的時間，在時間內找出一大堆解(assignment 的組合)
用限制的條件(訂閱內容、incompatible)去 filter 掉解，找出符合限制的解
從符合限制的解中，找出較好的解將之當作assignment

計算隨機組合的標準差

計算標準差是為了看組合中 consumer 之間分配的 cost 差異有沒有很大

chia7712 · 2023-05-02T15:32:12Z

@harryteng9527 感謝更新，可否先提供一下數字？例如這個方法的改善程度，以及計算出一個可用結果所需的時間（成本）

harryteng9527 · 2023-05-02T17:39:03Z

實驗環境

節點

總共使用 15 台節點做實驗：

6 台節點當 Brokers
3 台節點當 Producer 端，每台開啟 3 個 producers
6 台節點當 Consumer 端，每台開啟 2 個 consumers

	Broker	Producer	Consumer
Total	6	9	12

Topic / Partition 數量

叢集內有 10 個 topics，每個 topic 有 16 個 partitions，共 160 個 partitions

Partition 依照 Kafka 預設的擺放

Producer 發送的 record size / 分佈

key 使用 zipfian 分佈，exponent 設定為 1.25
record size 約為 1KiB

找解成本

以上面提到的實驗環境來評估找解的成本，主要會有下列幾項：

等待 bean 的時間 + 找一大堆解的時間(使用者可自訂，預設為 5 秒) + 從一大堆解中找到最終解的時間
=> 18 ms + 5000 ms + 1418 ms = 6436 ms

成本會跟使用者所設定的找解時間與 partition 數量有關係，這次實驗所隨機找到的解數量有：95657 個

整體差距

以下實驗是使用 Performance tool，分別選擇 Range assignor 與 CostAware assignor 量測 consumers 吞吐量，執行時間為 3 分鐘

上圖為執行 Performance tool 測試時，全部 Topic 的 ByteIn 與 ByteOut 圖表，綠色為 ByteIn、黃色為 ByteOut

從這張圖可以看到使用 CostAware assignor 時， consumer 消費 topics 的速度跟得上 producer 送到 topics 的速度。而使用 Range assignor 會有大約 1GiB 的 Lag

平均值

Range 平均吞吐量：4.084615385 GiB
CostAware 平均吞吐量：4.852307692 GiB

CostAware assignor 的平均吞吐量提升了 18.79 %

最大值&最小值差異

這邊比較使用 Range 與 CostAware assignor 時，Consumer group 吞吐量最大值與最小值的差異

Range 最大值與 CostAware 最大值的差距：2 GiB
Range 最小值與 CostAware 最小值的差距：0.44 GiB

chia7712 · 2023-05-02T18:02:13Z

從這張圖可以看到使用 CostAware assignor 時， consumer 消費 topics 的速度跟得上 producer 送到 topics 的速度

請問一下綠色 (ByteIn) 的圖看不太出差異，可否提供一下數字？平均和最大最小的寫入吞吐量

harryteng9527 · 2023-05-02T18:10:45Z

平均和最大最小的寫入吞吐量

	平均寫入吞吐量 (GiB)	最大寫入吞吐量 (GiB)	最小寫入吞吐量 (GiB)
Range 實驗	5.091538462	6.35	4.79
CostAware 實驗	5.112307692	6.34	4.45

common/src/main/java/org/astraea/common/assignor/Combinator.java

common/src/main/java/org/astraea/common/assignor/Shuffler.java

common/src/main/java/org/astraea/common/assignor/Combinator.java

chia7712 · 2023-05-02T18:22:38Z

命名的部分要稍微思考一下，如果程式碼的實作和命名差很多，通常代表寫的時候腦袋有點混亂 ...

harryteng9527 · 2023-05-23T13:26:15Z

目前對 Cost-Aware assignor 做了多次實驗，都有通過查核點，使用的 Cost-Aware assignor 是使用這隻 PR 的程式碼來測試

以下是查核點實驗所執行的時間、查核項目：

第一、三個查核點執行 3 分鐘的實驗，確認 group 的吞吐量與 consumer 最大、最小吞吐量差異，都有提昇 15 %
第二個查核點執行約 15 分鐘的實驗，量測使用兩個不同 assignor 的 consumers 的 e2e latency

實驗環境

6 台節點當 brokers，共有 160 個 partitions
3 台節點當 producers，六台節點當 consumers

Client 端皆開啟 Performance tool，Producer 發送的 records 大小固定 1KiB，Key 的分佈為 ZipFian

第一、三查核點

此二查核點是比較 Cost-Aware assignor 與 Kafka default assignor 的吞吐量以及 consumer 最大、小吞吐量差異（吞吐量全距）

Grafana snapshot

實驗時間為三分鐘，兩個實驗可以一起跑，以下是實驗數據

Consumer group 吞吐量

在執行三分鐘的時間內，Producers 平均吞吐量如下表

	Range 實驗	Cost-Aware 實驗
Producer 平均吞吐量	3014.46 MiB/s	2808.07 MiB/s

Consumer group 的吞吐量折線圖如下，因為有將負載(流入 partition 的流量)較平均的分配給 consumers，所以使用 Cost-Aware assignor 的 consumer group 吞吐量較高

Consumer group 的平均吞吐量提昇約 30%，計算與圖表如下：

使用 Cost-Aware assignor 的 cnsumer group 平均吞吐量為 2427.16 MiB/s
使用 Range assignor 的 consumer group 平均吞吐量為 1864.38 MiB/s

Consumer group 中最大與最小吞吐量差值

下面是用 consumer group 中 consumer 吞吐量全距(吞吐量最大的 consumer 減去吞吐量最小的 consumer) 所製成的折線圖

全距平均值如下

使用 Cost-Aware assignor 的 consumers 全距為 59.93 MiB
使用 Range assignor 的 consumers 全距為 386.51 MiB

第二查核點

此查核點是與 Kafka default assignor 比較，可降低平均 e2e latency 15%

Grafana snapshot

實驗的時間約為 15 mins，e2e latency 的實驗數據是用 Performance tool 紀錄的，下面是平均端對端延遲的實驗圖表

平均端對端延遲

此圖表所紀錄的是 Consumer group 中 consumer 每秒的端對端延遲平均值，計算方式如下表格

Time\Consumer name	c1	c2	c3	平均端對端延遲 (ms)
1 sec	5	15	22	(5+15+22)/3 = 14
2 sec	15	7	4	8.67
3 sec	3	69	654	242

表格中的 Time 為圖表的 x 軸

y 軸的點代表表格內的 平均端對端延遲，計算方式為 consumer 的 e2e latency 平均

平均端對端延遲的平均值

Cost-Aware 的 e2e 平均值為 811.2 ms，為實驗時每秒端對端延遲的平均
Kafka default 的 e2e 平均值為 2214.28 ms

滿足查核點的 e2e latency 降低 15 %

測試 15 分鐘的吞吐量圖表

因為在測試 e2e 情境時，也有觀察吞吐量，所以也放一下 15min 的實驗狀況。

Producer 每秒吞吐量如下表格

	Range 實驗	Cost-Aware 實驗
Producer 平均吞吐量	2321.76 MiB/s	2430.45 MiB/s

以下分別是吞吐量以及平均吞吐量的圖表，目前計算下來平均吞吐量能提昇 33 %

使用 Cost-Aware assignor 的平均吞吐量為 2236 MiB/s
使用 Range assignor 的平均吞吐量為 1678 MiB/s

harryteng9527 added 5 commits February 27, 2023 12:02

Implement NetworkIngressAssignor

011ccb3

Add a test for checking greedyAssign

f77a8c7

Add round-robin assign when the cost equals zero

34f8492

spotless

17fa82c

Merge branch 'main' into impl-assignor

2f6c7e7

harryteng9527 requested a review from chia7712 February 27, 2023 15:13

chia7712 reviewed Feb 28, 2023

View reviewed changes

common/src/main/java/org/astraea/common/assignor/NetworkIngressAssignor.java Outdated Show resolved Hide resolved

harryteng9527 added 4 commits March 2, 2023 10:01

add throwing exception when there is no mbeanObjects

ed52d24

Merge branch 'main' into impl-assignor

a9938e8

spotless

9a1f57e

add more condition to verify whether there are sufficient metrics or not

152e5bb

harryteng9527 changed the title ~~Implement NetworkIngress assignor~~ [ASSIGNOR] Implement NetworkIngress assignor Mar 2, 2023

harryteng9527 added 6 commits March 4, 2023 12:26

Merge branch 'main' into impl-assignor

1e5cb45

Add a parameter to set the waiting time that wait for fetch beanObject

a3e99b8

mask ClusterInfo with subscribed topics

18a98ce

Add calculating the traffic interval to the score of cost

748259e

Merge branch 'main' into impl-assignor

03afbb6

tweak and add comment

25f84c8

chia7712 reviewed Mar 6, 2023

View reviewed changes

common/src/main/java/org/astraea/common/assignor/NetworkIngressAssignor.java Outdated Show resolved Hide resolved

harryteng9527 added 6 commits March 7, 2023 13:36

rename and add comment

29c569c

rename and add more comment

e92a050

Move Kafka configuration to ours

9d85e8e

Add test

c2a8293

Merge branch 'main' into impl-assignor

9c514d3

Add ClusterInfo masked

5f389f1

harryteng9527 commented Mar 8, 2023

View reviewed changes

common/src/main/java/org/astraea/common/assignor/CostAwareAssignor.java Show resolved Hide resolved

harryteng9527 commented Mar 8, 2023

View reviewed changes

common/src/main/java/org/astraea/common/assignor/CostAwareAssignor.java Outdated Show resolved Hide resolved

harryteng9527 added 11 commits April 25, 2023 08:57

Rename interfaces

8e925cc

revise shuffle

9db68d2

Reduce the complexity of shuffle

7462966

Add test

2fade96

Merge branch 'origin/main' into impl-assignor

a6b9b3b

Merge branch 'origin/main' into impl-assignor

74f24cf

Spotless

af35031

Add wait

3e4b57c

Revise wait

f842f00

Remove retry and test

3b0258a

Merge branch 'origin/main' into impl-assignor

353eca7

chia7712 reviewed May 2, 2023

View reviewed changes

common/src/main/java/org/astraea/common/assignor/Combinator.java Outdated Show resolved Hide resolved

chia7712 reviewed May 2, 2023

View reviewed changes

common/src/main/java/org/astraea/common/assignor/Shuffler.java Outdated Show resolved Hide resolved

chia7712 reviewed May 2, 2023

View reviewed changes

common/src/main/java/org/astraea/common/assignor/Combinator.java Outdated Show resolved Hide resolved

harryteng9527 added 7 commits May 23, 2023 13:50

Merge branch 'main' into impl-assignor

80219e4

Use new shuffler

0d5820e

Add filter to avoid Null pointer and make skewCostLimiter more strict

7e5aac6

Modify randomShuffler signature, replace config to shuffleTime

98be5ee

Add GeneratorTest and modify Hint

9fb2b11

Fix Hint

43a25f9

Merge branch 'main' into impl-assignor

d4f55a8

harryteng9527 mentioned this pull request May 24, 2023

[ASSIGNOR] 調查端對端延遲過高原因 #1774

Open

chinghongfang mentioned this pull request Jun 7, 2023

[METRICS] Topic Metric Store metric 收集不完全 #1810

Open

Conversation

harryteng9527 commented Feb 27, 2023 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

分配方式

什麼是適合分配的 consumer

先前 PR 內容

Throughput

Latency

Uh oh!

chia7712 commented Feb 28, 2023

Uh oh!

Uh oh!

harryteng9527 commented Mar 1, 2023

吞吐量

latency

Uh oh!

Uh oh!

Uh oh!

Uh oh!

chia7712 commented Mar 8, 2023

Uh oh!

harryteng9527 commented May 2, 2023 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Combinator

Shuffler

洗牌組合流程

計算隨機組合的標準差

Uh oh!

chia7712 commented May 2, 2023

Uh oh!

harryteng9527 commented May 2, 2023 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

實驗環境

節點

Topic / Partition 數量

Producer 發送的 record size / 分佈

找解成本

整體差距

平均值

最大值&最小值差異

Uh oh!

chia7712 commented May 2, 2023

Uh oh!

harryteng9527 commented May 2, 2023

Uh oh!

Uh oh!

Uh oh!

Uh oh!

chia7712 commented May 2, 2023

Uh oh!

harryteng9527 commented May 23, 2023 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

實驗環境

第一、三查核點

Consumer group 吞吐量

Consumer group 中最大與最小吞吐量差值

第二查核點

平均端對端延遲

平均端對端延遲的平均值

測試 15 分鐘的吞吐量圖表

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

harryteng9527 commented Feb 27, 2023 •

edited

Loading

harryteng9527 commented May 2, 2023 •

edited

Loading

harryteng9527 commented May 2, 2023 •

edited

Loading

harryteng9527 commented May 23, 2023 •

edited

Loading