fix(cloud): Address PR feedback for telemetry retry queue

daniel-lxs · daniel-lxs · commit a14a0da4b66b · 2025-09-10T09:42:02.000-05:00
- Handle HTTP error status codes (500s, 401/403, 429) as failures that trigger retry
- Remove queuing of backfill operations since they're user-initiated
- Fix race condition in concurrent retry processing with isProcessing flag
- Add specialized retry logic for 429 with Retry-After header support
- Clean up unnecessary comments
- Add comprehensive tests for new status code handling
- Add temporary debug logs with emojis for testing
diff --git a/packages/cloud/src/TelemetryClient.ts b/packages/cloud/src/TelemetryClient.ts
@@ -97,7 +97,7 @@ export class CloudTelemetryClient extends BaseTelemetryClient {
 		this.retryQueue = retryQueue || null
 	}
 
-	private async fetch(path: string, options: RequestInit) {
+	private async fetch(path: string, options: RequestInit, allowQueueing = true) {
 		if (!this.authService.isAuthenticated()) {
 			return
 		}
@@ -125,14 +125,36 @@ export class CloudTelemetryClient extends BaseTelemetryClient {
 				console.error(
 					`[TelemetryClient#fetch] ${options.method} ${path} -> ${response.status} ${response.statusText}`,
 				)
+
+				// Queue for retry on server errors (5xx), rate limiting (429), or auth errors (401/403)
+				if (
+					this.retryQueue &&
+					allowQueueing &&
+					(response.status >= 500 ||
+						response.status === 429 ||
+						response.status === 401 ||
+						response.status === 403)
+				) {
+					await this.retryQueue.enqueue(
+						url,
+						fetchOptions,
+						"telemetry",
+						`Telemetry: ${options.method} /api/${path}`,
+					)
+				}
 			}
 
 			return response
 		} catch (error) {
 			console.error(`[TelemetryClient#fetch] Network error for ${options.method} ${path}: ${error}`)
 
 			// Queue for retry if we have a retry queue and it's a network error
-			if (this.retryQueue && error instanceof TypeError && error.message.includes("fetch failed")) {
+			if (
+				this.retryQueue &&
+				allowQueueing &&
+				error instanceof TypeError &&
+				error.message.includes("fetch failed")
+			) {
 				await this.retryQueue.enqueue(
 					url,
 					fetchOptions,
@@ -222,13 +244,11 @@ export class CloudTelemetryClient extends BaseTelemetryClient {
 				)
 			}
 
-			// Custom fetch for multipart - don't set Content-Type header (let browser set it)
 			const url = `${getRooCodeApiUrl()}/api/events/backfill`
 			const fetchOptions: RequestInit = {
 				method: "POST",
 				headers: {
 					Authorization: `Bearer ${token}`,
-					// Note: No Content-Type header - browser will set multipart/form-data with boundary
 				},
 				body: formData,
 			}
@@ -242,15 +262,7 @@ export class CloudTelemetryClient extends BaseTelemetryClient {
 					)
 				}
 			} catch (fetchError) {
-				// For backfill, also queue for retry on network errors
-				if (this.retryQueue && fetchError instanceof TypeError && fetchError.message.includes("fetch failed")) {
-					await this.retryQueue.enqueue(
-						url,
-						fetchOptions,
-						"telemetry",
-						`Telemetry: Backfill messages for task ${taskId}`,
-					)
-				}
+				console.error(`[TelemetryClient#backfillMessages] Network error: ${fetchError}`)
 				throw fetchError
 			}
 		} catch (error) {
diff --git a/packages/cloud/src/retry-queue/RetryQueue.ts b/packages/cloud/src/retry-queue/RetryQueue.ts
@@ -31,7 +31,7 @@ export class RetryQueue extends EventEmitter<RetryQueueEvents> {
 			maxQueueSize: 100,
 			persistQueue: true,
 			networkCheckInterval: 60000,
-			requestTimeout: 30000, // Make timeout configurable
+			requestTimeout: 30000,
 			...config,
 		}
 
@@ -98,6 +98,7 @@ export class RetryQueue extends EventEmitter<RetryQueueEvents> {
 
 	public async retryAll(): Promise<void> {
 		if (this.isProcessing) {
+			this.log("[RetryQueue] Already processing, skipping retry cycle")
 			return
 		}
 
@@ -108,38 +109,76 @@ export class RetryQueue extends EventEmitter<RetryQueueEvents> {
 
 		this.isProcessing = true
 
-		// Sort by timestamp to process in FIFO order (oldest first)
-		requests.sort((a, b) => a.timestamp - b.timestamp)
-
-		// Process all requests in FIFO order
-		for (const request of requests) {
-			try {
-				await this.retryRequest(request)
-				this.queue.delete(request.id)
-				this.emit("request-retry-success", request)
-			} catch (error) {
-				request.retryCount++
-				request.lastError = error instanceof Error ? error.message : String(error)
-
-				// Check if we've exceeded max retries
-				if (this.config.maxRetries > 0 && request.retryCount >= this.config.maxRetries) {
+		try {
+			// Sort by timestamp to process in FIFO order (oldest first)
+			requests.sort((a, b) => a.timestamp - b.timestamp)
+
+			// Process all requests in FIFO order
+			for (const request of requests) {
+				// Skip if request should not be retried yet (rate limiting)
+				if (request.nextRetryAfter && Date.now() < request.nextRetryAfter) {
 					this.log(
-						`[RetryQueue] Max retries (${this.config.maxRetries}) reached for request: ${request.operation || request.url}`,
+						`[RetryQueue] Skipping rate-limited request until ${new Date(request.nextRetryAfter).toISOString()}`,
 					)
-					this.queue.delete(request.id)
-					this.emit("request-max-retries-exceeded", request, error as Error)
-				} else {
-					this.queue.set(request.id, request)
-					this.emit("request-retry-failed", request, error as Error)
+					continue
 				}
 
-				// Add a small delay between retry attempts
-				await this.delay(100)
+				try {
+					const response = await this.retryRequest(request)
+
+					// Check if we got a Retry-After header for rate limiting
+					if (response && response.status === 429) {
+						const retryAfter = response.headers.get("Retry-After")
+						if (retryAfter) {
+							// Parse Retry-After (could be seconds or a date)
+							let delayMs: number
+							const retryAfterSeconds = parseInt(retryAfter, 10)
+							if (!isNaN(retryAfterSeconds)) {
+								delayMs = retryAfterSeconds * 1000
+							} else {
+								// Try parsing as a date
+								const retryDate = new Date(retryAfter)
+								if (!isNaN(retryDate.getTime())) {
+									delayMs = retryDate.getTime() - Date.now()
+								} else {
+									delayMs = 60000 // Default to 1 minute if we can't parse
+								}
+							}
+							request.nextRetryAfter = Date.now() + delayMs
+							this.log(`[RetryQueue] Rate limited, will retry after ${delayMs}ms`)
+							this.queue.set(request.id, request)
+							continue
+						}
+					}
+
+					this.queue.delete(request.id)
+					this.emit("request-retry-success", request)
+				} catch (error) {
+					request.retryCount++
+					request.lastError = error instanceof Error ? error.message : String(error)
+
+					// Check if we've exceeded max retries
+					if (this.config.maxRetries > 0 && request.retryCount >= this.config.maxRetries) {
+						this.log(
+							`[RetryQueue] Max retries (${this.config.maxRetries}) reached for request: ${request.operation || request.url}`,
+						)
+						this.queue.delete(request.id)
+						this.emit("request-max-retries-exceeded", request, error as Error)
+					} else {
+						this.queue.set(request.id, request)
+						this.emit("request-retry-failed", request, error as Error)
+					}
+
+					// Add a small delay between retry attempts
+					await this.delay(100)
+				}
 			}
-		}
 
-		await this.persistQueue()
-		this.isProcessing = false
+			await this.persistQueue()
+		} finally {
+			// Always reset the processing flag, even if an error occurs
+			this.isProcessing = false
+		}
 	}
 
 	private async retryRequest(request: QueuedRequest): Promise<Response> {
@@ -171,8 +210,23 @@ export class RetryQueue extends EventEmitter<RetryQueueEvents> {
 
 			clearTimeout(timeoutId)
 
+			// Check for error status codes that should trigger retry
 			if (!response.ok) {
-				throw new Error(`Request failed with status ${response.status}`)
+				// Handle different status codes appropriately
+				if (response.status >= 500) {
+					// Server errors should be retried
+					throw new Error(`Server error: ${response.status} ${response.statusText}`)
+				} else if (response.status === 429) {
+					// Rate limiting - return response to let caller handle Retry-After
+					return response
+				} else if (response.status === 401 || response.status === 403) {
+					// Auth errors - retry with fresh auth headers from provider
+					throw new Error(`Auth error: ${response.status}`)
+				} else if (response.status >= 400 && response.status < 500) {
+					// Other client errors (400, 404, etc.) should not be retried
+					this.log(`[RetryQueue] Non-retryable status ${response.status}, removing from queue`)
+					return response
+				}
 			}
 
 			return response
diff --git a/packages/cloud/src/retry-queue/__tests__/RetryQueue.test.ts b/packages/cloud/src/retry-queue/__tests__/RetryQueue.test.ts
@@ -357,5 +357,150 @@ describe("RetryQueue", () => {
 			// The timeout configuration is being used (verified by the constructor accepting it)
 			// The actual timeout behavior is handled by the browser's AbortController
 		})
+
+		it("should retry on 500+ status codes", async () => {
+			const failListener = vi.fn()
+			const successListener = vi.fn()
+			retryQueue.on("request-retry-failed", failListener)
+			retryQueue.on("request-retry-success", successListener)
+
+			await retryQueue.enqueue("https://api.example.com/test", { method: "POST" }, "telemetry")
+
+			// First attempt: 500 error
+			fetchMock.mockResolvedValueOnce({ ok: false, status: 500, statusText: "Internal Server Error" })
+
+			await retryQueue.retryAll()
+
+			// Should fail and remain in queue
+			expect(failListener).toHaveBeenCalledWith(
+				expect.objectContaining({
+					url: "https://api.example.com/test",
+					retryCount: 1,
+					lastError: "Server error: 500 Internal Server Error",
+				}),
+				expect.any(Error),
+			)
+
+			let stats = retryQueue.getStats()
+			expect(stats.totalQueued).toBe(1)
+
+			// Second attempt: success
+			fetchMock.mockResolvedValueOnce({ ok: true, status: 200 })
+
+			await retryQueue.retryAll()
+
+			// Should succeed and be removed from queue
+			expect(successListener).toHaveBeenCalled()
+			stats = retryQueue.getStats()
+			expect(stats.totalQueued).toBe(0)
+		})
+
+		it("should handle 429 rate limiting with Retry-After header", async () => {
+			await retryQueue.enqueue("https://api.example.com/test", { method: "POST" }, "telemetry")
+
+			// Mock 429 response with Retry-After header (in seconds)
+			const retryAfterResponse = {
+				ok: false,
+				status: 429,
+				headers: {
+					get: vi.fn((header: string) => {
+						if (header === "Retry-After") return "2" // 2 seconds
+						return null
+					}),
+				},
+			}
+
+			fetchMock.mockResolvedValueOnce(retryAfterResponse)
+
+			await retryQueue.retryAll()
+
+			// Request should still be in queue with nextRetryAfter set
+			const stats = retryQueue.getStats()
+			expect(stats.totalQueued).toBe(1)
+
+			// Try to retry immediately - should be skipped due to rate limiting
+			fetchMock.mockClear()
+			await retryQueue.retryAll()
+
+			// Fetch should not be called because request is rate-limited
+			expect(fetchMock).not.toHaveBeenCalled()
+		})
+
+		it("should retry on 401/403 auth errors", async () => {
+			const failListener = vi.fn()
+			retryQueue.on("request-retry-failed", failListener)
+
+			await retryQueue.enqueue("https://api.example.com/test", { method: "POST" }, "telemetry")
+
+			// Mock 401 error
+			fetchMock.mockResolvedValueOnce({ ok: false, status: 401, statusText: "Unauthorized" })
+
+			await retryQueue.retryAll()
+
+			// Should fail and remain in queue for retry
+			expect(failListener).toHaveBeenCalledWith(
+				expect.objectContaining({
+					url: "https://api.example.com/test",
+					retryCount: 1,
+					lastError: "Auth error: 401",
+				}),
+				expect.any(Error),
+			)
+
+			const stats = retryQueue.getStats()
+			expect(stats.totalQueued).toBe(1)
+		})
+
+		it("should not retry on 400/404 client errors", async () => {
+			const successListener = vi.fn()
+			retryQueue.on("request-retry-success", successListener)
+
+			await retryQueue.enqueue("https://api.example.com/test", { method: "POST" }, "telemetry")
+
+			// Mock 404 error
+			fetchMock.mockResolvedValueOnce({ ok: false, status: 404, statusText: "Not Found" })
+
+			await retryQueue.retryAll()
+
+			// Should be removed from queue without retry
+			expect(successListener).toHaveBeenCalled()
+			const stats = retryQueue.getStats()
+			expect(stats.totalQueued).toBe(0)
+		})
+
+		it("should prevent concurrent processing", async () => {
+			// Add a single request
+			await retryQueue.enqueue("https://api.example.com/test1", { method: "POST" }, "telemetry")
+
+			// Mock slow response
+			let resolveFirst: () => void
+			const firstPromise = new Promise<{ ok: boolean }>((resolve) => {
+				resolveFirst = () => resolve({ ok: true })
+			})
+
+			fetchMock.mockReturnValueOnce(firstPromise)
+
+			// Start first retryAll (don't await)
+			const firstCall = retryQueue.retryAll()
+
+			// Try to call retryAll again immediately - should return immediately without processing
+			const secondCall = retryQueue.retryAll()
+
+			// Second call should return immediately
+			await secondCall
+
+			// Fetch should only be called once (from first call)
+			expect(fetchMock).toHaveBeenCalledTimes(1)
+
+			// Resolve the promise
+			resolveFirst!()
+
+			// Wait for first call to complete
+			await firstCall
+
+			// Queue should be empty
+			const stats = retryQueue.getStats()
+			expect(stats.totalQueued).toBe(0)
+		})
 	})
 })
diff --git a/packages/cloud/src/retry-queue/types.ts b/packages/cloud/src/retry-queue/types.ts
@@ -7,6 +7,7 @@ export interface QueuedRequest {
 	type: "api-call" | "telemetry" | "settings" | "other"
 	operation?: string
 	lastError?: string
+	nextRetryAfter?: number // Timestamp for when to retry next (for rate limiting)
 }
 
 export interface QueueStats {

Original file line number	Diff line number	Diff line change
`@@ -7,6 +7,7 @@ export interface QueuedRequest {`
`7`	`7`	`type: "api-call" \| "telemetry" \| "settings" \| "other"`
`8`	`8`	`operation?: string`
`9`	`9`	`lastError?: string`
	`10`	`+ nextRetryAfter?: number // Timestamp for when to retry next (for rate limiting)`
`10`	`11`	`}`
`11`	`12`
`12`	`13`	`export interface QueueStats {`