future-architect
diff --git a/‎documents/forAsync/async_guidelines.md‎
Lines changed: 109 additions & 17 deletions b/‎documents/forAsync/async_guidelines.md‎
Lines changed: 109 additions & 17 deletions
diff --git a/‎documents/forAsync/images/direct_dispatch.drawio.png‎
5.14 KB b/‎documents/forAsync/images/direct_dispatch.drawio.png‎
5.14 KB
@@ -167,11 +167,43 @@ graph LR
 - 非同期から非同期を呼び出す基準としては、**前段と後続でイベント処理の粒度が変わるケース**は許容する
   - **呼び出し元より粒度が「大きく」なるケース（集約）**
     - **（例）ECサイト：** 注文（同期）→ 在庫引当（非同期1）→ **倉庫内のピッキング指示（非同期2）**
-    - **理由：** 引当の都度ピッキング指示を出すより、一定数近隣のロケーションからのピッキングが溜まった時点でまとめて指示をする方が効率的なため
+    - **理由：** 引当の都度ピッキング指示を出すより、一定数近隣のロケーションからのピッキングが溜まった時点でまとめて指示をする方が効率的なため。ただし、この場合は別プロセスでポーリングさせピッキングが溜まった時点での指示を第一に考える
   - **呼び出し元より粒度が「細かく」なるケース（分散）**
     - **（例）月次決済：** 締め処理（同期）→ 請求額計算（非同期1）→ **個々のユーザ決済実行（非同期2）**
     - **理由：** 複数のユーザーに対する決済処理を「非同期1」の中で順次ループ処理すると、1件の失敗や遅延が全体の完了を遅らせるリスクがあるため、個別に分割して実行する
 
+判断フローの例を示す。
+
+```mermaid
+graph LR
+    Start([コンシューマー処理中]) --> Purpose{さらに非同期処理を<br>呼び出す目的は？}
+
+    Purpose -- "データ整合性<br>(外部API連携など)" --> RollbackCheck{外部SaaS失敗時に<br>自DBもロールバック可か？}
+    RollbackCheck -- Yes --> RetryAll>単一トランザクションで<br>全体リトライ]
+    RollbackCheck -- No --> FinalChain
+
+    Purpose -- "性能向上<br>(並列化)" --> ProgParallel{言語機能による<br>並列化は現実的か？}
+    ProgParallel -- Yes --> ProgThread>プログラム内で並列化]
+    ProgParallel -- No --> GranularityCheck
+
+    Purpose -- "リカバリ単位の分割<br>(ロングトランザクション)" --> GranularityCheck{元のタスク粒度を<br>細かく分割できるか？}
+
+    GranularityCheck -- Yes --> SplitTask>プロデューサー側での<br>分割を検討]
+    GranularityCheck -- No --> FinalChain
+
+    Purpose -- 流量制御 --> FlowCheck1{コンシューマーの<br>同時実行数の制限可能か？}
+    FlowCheck1 -- Yes --> Avoid1>設定値での制御を優先する]
+
+    FlowCheck1 -- No --> PollingCheck{ポーリング等<br>別の非同期方式は<br>採用可能か？}
+    PollingCheck -- Yes --> AdoptPolling>ポーリング等の検討]
+
+    PollingCheck -- No --> FlowCheck2{Sleep等ロジックでの<br>回避が現実的か？}
+    FlowCheck2 -- Yes --> Avoid2>ロジックでの制御を検討]
+    FlowCheck2 -- No --> FinalChain
+
+    FinalChain>非同期の連鎖を検討]
+```
+
 # バッチから非同期呼び出し
 
 非同期処理の呼び出しは、ユーザーの操作イベント経由だけではなく、バッチ処理から呼びだされる場合もありえる。[バッチ設計ガイドライン](https://future-architect.github.io/arch-guidelines/documents/forBatch/batch_guidelines.html#%E9%9D%9E%E5%90%8C%E6%9C%9F%E3%82%BF%E3%82%B9%E3%82%AF) を参照すること。
@@ -320,7 +352,7 @@ SQSを利用する場合の重複排除（Exactly once）の仕組みには以
 推奨は以下の通り。
 
 - 原則、（1）を採用する。FIFOキュー利用によるクラウド利用費用の増加は多くのケースで誤差レベルであると考えられるため
-- スループットが重視されるケース（数千～数万TPS）や5分間という制限を超えた重複排除が必要なケースは（2）を採用する
+- スループットが重視されるケース（数千～数万TPS）や[SQS FIFOキューの重複排除ウィンドウである5分間](https://docs.aws.amazon.com/ja_jp/AWSSimpleQueueService/latest/SQSDeveloperGuide/using-messagededuplicationid-property.html)を超える必要があるケースは（2）を採用する
 
 # リトライ
 
@@ -340,7 +372,13 @@ SQSを利用する場合の重複排除（Exactly once）の仕組みには以
 
 メッセージロックのタイムアウトとは、キューにおいてコンシューマーがメッセージを取得し処理している間、そのメッセージを他のコンシューマーから見えなくし重複処理を防ぐための時間制限のことである。Amazon SQSでは、このメッセージロックのタイムアウトを「Visibility Timeout：可視性タイムアウト」と呼ぶ。
 
-タイムアウト値の設定についてのトレードオフは以下の通り。
+設定の主体:
+
+- 本設定は、キューの定義またはコンシューマー側で行う。プロデューサーの指定は不可
+- キュー定義: キュー作成時にデフォルト値として指定できる
+- コンシューマー側: メッセージ受信時に動的にタイムアウト値を指定できる。処理中にAPI（`ChangeMessageVisibility`）を呼び出して延長もできる
+
+タイムアウト設定のトレードオフ:
 
 - **短すぎる場合:** メッセージの処理中にタイムアウトを迎えた場合、他のコンシューマーが同じメッセージを取得して処理を開始してしまうため、処理が重複して実行されてしまう
 - **長すぎる場合:** メッセージの処理中に、一時的なエラー（ネットワークエラーなど）が発生した場合などは、コンシューマーは処理を中断し、メッセージをキューに戻すことでリトライを試みることが一般的である。タイムアウト値が長いと、この再試行が許可されるまでの時間が長くなるため、リカバリまでの時間が長くなり、メッセージが滞留することで全体のスループットが低下する
@@ -355,7 +393,61 @@ SQSを利用する場合の重複排除（Exactly once）の仕組みには以
 
 # メッセージ送信の信頼性
 
-非同期処理の課題の1つとして、「DBの更新」と「後続メッセージの送信」という2操作の整合性をどのように保つかがある。
+プロデューサー側で自領域のDB更新とキューへのメッセージ送信の整合性をどのように保つかが課題となる。例えば、キューの送信には成功したが自領域のDBのコミットに失敗してしまうことが考えられる。この場合、コンシューマーは起動するが処理対象のデータが存在しないため不整合となる。これはファントムメッセージと呼ばれる。
+
+```mermaid
+---
+title: 【失敗例】ファントムメッセージ
+---
+%%{init: {'sequence': {'mirrorActors': false}}}%%
+sequenceDiagram
+    autonumber
+    participant App as プロデューサー
+    participant DB as DB
+    participant Queue as キュー
+    participant Worker as コンシューマー
+
+    App->>DB: 業務処理
+    App->>Queue: Send Message
+    Queue-->>App: OK (Ack)
+
+    rect rgb(255, 230, 230)
+        App->>DB: COMMIT
+        DB--xApp: ❌ エラー / タイムアウト
+    end
+
+
+    Queue->>Worker: メッセージ受信
+    activate Worker
+    Worker->>DB: データ参照 (SELECT)
+    DB-->>Worker: 0件 (Not Found)
+    Note right of Worker: ❌ データ不整合<br>メッセージは届いたのにデータがない
+    deactivate Worker
+```
+
+これは、単純に順序を逆転しても解決しない。むしろ、一部処理が成功したと見せかけて後続のコンシューマーが起動しないというメッセージロストが発生する分、事態は悪化しているとも言える。
+
+```mermaid
+---
+title: 【失敗例】メッセージロスト
+---
+%%{init: {'sequence': {'mirrorActors': false}}}%%
+sequenceDiagram
+    autonumber
+    participant App as プロデューサー
+    participant DB as DB
+    participant Queue as キュー
+    participant Worker as コンシューマー
+
+    App->>DB: 業務処理
+    App->>DB: COMMIT
+    DB-->>App: OK
+
+    App->>Queue: Send Message
+    Queue--xApp: ❌ ネットワークエラー / 障害
+
+    Note over Worker: ❌️後続処理が起動しない
+```
 
 代表的な対応案にトランザクションアウトボックスパターンがある。
 
@@ -364,20 +456,20 @@ SQSを利用する場合の重複排除（Exactly once）の仕組みには以
 1. 各コンシューマーは自身の担う業務ロジック処理と、処理完了を示すステータス更新を1トランザクションで実施する。
 2. 後続コンシューマーへのメッセージ連携は、別のトランザクションで行う。
 
-これにより、1→2の順序性の担保と、2単体でのリトライが可能となる。  
+これにより、1→2の順序性の担保と、2単体でのリトライが可能となる。
 :::
 
-トランザクションアウトボックスパターンと、1トランザクション内ですべてを行う直接ディスパッチ処理方式を下表で比較する。
+ファントムメッセージが発生する直接ディスパッチ方式と、トランザクションアウトボックスパターンのポーリング版、CDC版を下表で比較する。
 
-| \#                       | （1）直接ディスパッチ                                                              | （2）アウトボックス (ポーリング・リレー)                                                | （3）アウトボックス (CDC・リレー)                                                      |
-| :----------------------- | :--------------------------------------------------------------------------------- | :-------------------------------------------------------------------------------------- | :------------------------------------------------------------------------------------- |
-| 図                       | ![アプリ上でDBコミットとキューへメッセージ送信](images/direct_dispatch.drawio.png) | ![別プロセスがDBポーリングしてキューにメッセージ送信](images/outbox_polling.drawio.png) | ![CDC経由でLambdaを起動しキューへメッセージ送信](images/outbox_eventdriven.drawio.png) |
-| 処理概要                 | メッセージ送信 → DBコミット                                                        | DBコミット → (別プロセス) → ポーリング → メッセージ送信                                 | DBコミット → (CDC) → イベント → メッセージ送信                                         |
-| 信頼性                   | ❌                                                                                 | ✅                                                                                      | ✅                                                                                     |
-| クラッシュ時の主なリスク | ❌メッセージは送信されたが、DB更新がロールバックされるファントムメッセージの懸念   | ✅ リレーの送信失敗時は、次回のポーリングで自動リトライされる                           | ✅ リレーのリトライCDCがトリガーしたLambda等のリトライ機構で処理される                 |
-| 実装コスト               | ✅ 低                                                                              | ⚠️中 ポーリングバッチの実装/運用が必要                                                  | ❌ 高 CDCパイプライン(Debezium/DMS等)の構築/運用が必要                                 |
-| レイテンシ               | ✅ 低                                                                              | ⚠️ 中～高（ポーリング間隔に依存）                                                       | ✅ 低                                                                                  |
-| DB負荷                   | ✅ 低                                                                              | ⚠️ 中（定期的なポーリングスキャンが発生）                                               | ✅ 低（トランザクションログベース）                                                    |
+| \#                       | （1）直接ディスパッチ                                          | （2）アウトボックス (ポーリング・リレー)                                                | （3）アウトボックス (CDC・リレー)                                                      |
+| :----------------------- | :------------------------------------------------------------- | :-------------------------------------------------------------------------------------- | :------------------------------------------------------------------------------------- |
+| 図                       | ![DBとキューへ両方アクセス](images/direct_dispatch.drawio.png) | ![別プロセスがDBポーリングしてキューにメッセージ送信](images/outbox_polling.drawio.png) | ![CDC経由でLambdaを起動しキューへメッセージ送信](images/outbox_eventdriven.drawio.png) |
+| 処理概要                 | メッセージ送信 → DBコミット                                    | DBコミット → (別プロセス) → ポーリング → メッセージ送信                                 | DBコミット → (CDC) → イベント → メッセージ送信                                         |
+| 信頼性                   | ❌                                                             | ✅                                                                                      | ✅                                                                                     |
+| クラッシュ時の主なリスク | ❌ファントムメッセージの懸念                                   | ✅ リレーの送信失敗時は、次回のポーリングで自動リトライされる                           | ✅ リレーのリトライCDCがトリガーしたLambda等のリトライ機構で処理される                 |
+| 実装コスト               | ✅ 低                                                          | ⚠️中 ポーリングバッチの実装/運用が必要                                                  | ❌ 高 CDCパイプライン(Debezium/DMS等)の構築/運用が必要                                 |
+| レイテンシ               | ✅ 低                                                          | ⚠️ 中～高（ポーリング間隔に依存）                                                       | ✅ 低                                                                                  |
+| DB負荷                   | ✅ 低                                                          | ⚠️ 中（定期的なポーリングスキャンが発生）                                               | ✅ 低（トランザクションログベース）                                                    |
 
 推奨は以下の通り。
 
@@ -579,9 +671,9 @@ flowchart LR
 
 ```mermaid
 graph LR
-    User2(fa:fa-user ユーザー/システム) -- "1.リクエスト" --> API2[Producer]
+    User2(fa:fa-user ユーザー/システム) -- "1.リクエスト" --> API2[プロデューサー]
     API2 -- "2.メッセージ送信" --> Q([キュー]) & DB[(Status DB)]
-    Q -- "3.処理実行" --> C[Consumer]
+    Q -- "3.処理実行" --> C[コンシューマー]
     C -- "4.DBに書込" --> DB
     API2 -. "5.ポーリング" .-> DB
     API2 -- "6.処理結果 (同期)" --> User2