프로젝트 개요
사내 주요 내부 API 상태를 실시간으로 모니터링할 수 있는 대시보드형 헬스 체크 시스템을 구축했습니다.
기존 수동 점검 프로세스를 자동화하여 장애 인지 및 대응 속도를 평균 2분 → 30초 이내로 단축했습니다.
이를 통해 서비스 신뢰도 향상과 운영 효율성 개선에 크게 기여했습니다.
주요 기능
- 실시간 상태 모니터링: API 응답 속도, 상태 코드, 가용률 등 핵심 지표를 WebSocket 기반으로 실시간 갱신
- 시각화 대시보드:
Chart.js를 활용해 트래픽 추이, 장애 이력 등을 직관적으로 시각화 - 알림 시스템 연동: 장애 발생 시 Teams 및 Email로 즉시 알림 전송
- 자동화 운영:
cron기반의 정기 헬스체크 및 로그 수집 자동화 - 성능 최적화: Next.js CSR과 캐싱 전략으로 대시보드 렌더링 속도 40% 개선
- 보안 강화: 내부망 접근 제어 및 인증 토큰 기반 API 호출 구조 설계
성과 및 기여도
- 장애 인지 및 대응 시간 50% 이상 단축
- 시스템 가용성 99.9% 유지
- 프로젝트 설계, 백엔드/프론트엔드 구현 및 서버 운영 100% 직접 담당
- 현재 사내 운영팀에서 실서비스로 활용 중
배운 점 및 개선 방향
- 실시간 데이터 스트리밍 구조에 대한 이해 및 최적화 경험 축적