Skip to content

[FEAT] 서비스 모니터링 대시보드 제작 #5

@internationalwe

Description

@internationalwe

⭐ Description


서비스 운영을 위한 모니터링 체계 수립 작업입니다.
chatbot_recipe_feature.md, README.md, architecture_overview.md 문서를 바탕으로, Prometheus + Grafana 기반의 주요 모니터링 지표(metric) 를 정의하고, 대시보드 구성 방안을 정리하였습니다.

본 이슈는 해당 메트릭의 수집, 알림 조건 설정, Grafana 대시보드 구성 작업까지 포함합니다.


📷 Screenshots


  • (예: 추후 Grafana 대시보드 설정 후 첨부)

📁 Files


  • monitoring/metrics_spec.md (작성 예정)
  • grafana/dashboard-templates/*.json (작성 예정)
  • prometheus/prometheus.yml (메트릭 scrape 설정)

📈 To Reproduce


  1. Prometheus + Grafana 설치
  2. 관련 Exporter (Node, K8s, Redis, MongoDB, etc.) 설정
  3. 대시보드 템플릿 임포트 및 연동 확인
  4. 샘플 요청 및 시스템 부하 테스트 → 메트릭 확인

✔️ Tasks


✅ 1. 메트릭 정리 및 구현

  • 인프라 (CPU, Memory, Network, Disk, K8s 상태)
  • API 호출량, 응답 시간, 에러율
  • RAG 검색 시간, 벡터 DB QPS
  • LLM 응답 시간, 토큰 사용량, 에러/재시도
  • 세션 수, 평균 대화 시간
  • 레시피 생성 수, 기능별 사용량
  • 유저 활동 지표 (DAU/MAU, 전환율 등)

✅ 2. Alert 설정

  • CPU > 80% (5m)
  • Mem Available < 15%
  • HTTP 5xx > 1% (5m)
  • LLM 응답시간 (p90) > 1s

✅ 3. Grafana 대시보드 구성

  • Overview
  • API & Latency
  • Chatbot & LLM
  • Queue & Workers
  • DB & Cache
  • Business Metrics

⏳ 4. 문서화 및 공유

  • metrics_spec.md 작성
  • Grafana JSON 대시보드 export
  • Wiki 또는 Notion 정리

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions