-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Description
⭐ Description
서비스 운영을 위한 모니터링 체계 수립 작업입니다.
chatbot_recipe_feature.md, README.md, architecture_overview.md 문서를 바탕으로, Prometheus + Grafana 기반의 주요 모니터링 지표(metric) 를 정의하고, 대시보드 구성 방안을 정리하였습니다.
본 이슈는 해당 메트릭의 수집, 알림 조건 설정, Grafana 대시보드 구성 작업까지 포함합니다.
📷 Screenshots
- (예: 추후 Grafana 대시보드 설정 후 첨부)
📁 Files
monitoring/metrics_spec.md(작성 예정)grafana/dashboard-templates/*.json(작성 예정)prometheus/prometheus.yml(메트릭 scrape 설정)
📈 To Reproduce
- Prometheus + Grafana 설치
- 관련 Exporter (Node, K8s, Redis, MongoDB, etc.) 설정
- 대시보드 템플릿 임포트 및 연동 확인
- 샘플 요청 및 시스템 부하 테스트 → 메트릭 확인
✔️ Tasks
✅ 1. 메트릭 정리 및 구현
- 인프라 (CPU, Memory, Network, Disk, K8s 상태)
- API 호출량, 응답 시간, 에러율
- RAG 검색 시간, 벡터 DB QPS
- LLM 응답 시간, 토큰 사용량, 에러/재시도
- 세션 수, 평균 대화 시간
- 레시피 생성 수, 기능별 사용량
- 유저 활동 지표 (DAU/MAU, 전환율 등)
✅ 2. Alert 설정
- CPU > 80% (5m)
- Mem Available < 15%
- HTTP 5xx > 1% (5m)
- LLM 응답시간 (p90) > 1s
✅ 3. Grafana 대시보드 구성
- Overview
- API & Latency
- Chatbot & LLM
- Queue & Workers
- DB & Cache
- Business Metrics
⏳ 4. 문서화 및 공유
-
metrics_spec.md작성 - Grafana JSON 대시보드 export
- Wiki 또는 Notion 정리
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels