11월 21일 코엑스에서 진행된 2025 WhaTap Observe Summit 컨퍼런스에 다녀왔습니다.
제가 오후 발표 세션 중 하나를 맡아 연사자로 참석한 컨퍼런스여서 더욱 의미가 있던 행사였는데요.
흥미롭고 유익했던 컨퍼런스였던 만큼, 오전 Keynote 세션과 제 발표 내용을 함께 정리해서 공유합니다.
(사진을 잘 찍질 못해서 화질이 온전치 못한 점 양해바랍니다. 그래도 현장의 생동감은 느껴지길 바라며…)
흥미로웠던 Keynote 세션 정리
Keynote 1: WhaTap의 10년, AI로 확장하는 옵저버빌리티의 여정
WhaTap의 김성조 CTO님의 발표였습니다.
클라우드 → 클라우드 네이티브 → AI로 이어지는 흐름 속에서 각 세대별로 WhaTap이 어떤 고민이 있었고, 어떻게 옵저버빌리티 서비스를 제공해왔는지 공유하는 세션이어서 흥미로웠는데요.
특히 세션에서 공유해주신 AI 시대에 옵저버빌리티를 확보할 때 풀어야 할 숙제들은 DevOps 엔지니어로서 깊이 고민할만한 내용이어서 유익했습니다.
Keynote 2: 모던 옵저버빌리티가 만드는 변화: 모니터링 이후의 시대
LG U+의 송주영님이 진행하신 발표였는데요. 정말 유머러스하게 핵심을 잘 전달해주셔서 인상깊었던 세션이었습니다.
DevOps 엔지니어 입장에서 시스템 장애가 없길 바라는 기도문은 정말 가슴 깊이 와닿았습니다…🥲
그리고 과거의 모니터링 도구부터 AIOps까지 세대별 흐름도 알기 쉽게 잘 설명해주셨는데요. 청중들에게 유익한 내용을 재미있게 잘 전달해주신 발표가 인상깊었습니다.
비즈니스 가속화 엔진, 옵저버빌리티의 현재와 미래
AWS의 임성현님이 옵저버빌리티를 비즈니스의 관점에서 바라보는 흥미로운 주제로 발표를 진행해주셨습니다.
모니터링을 통해 나타나는 상황을 비즈니스 관점에서 손실액으로 측정함으로써 즉각적인 가치 창출과 설득력을 얻는다는 점이 흥미로웠습니다.
이론적인 설명뿐만 아니라, 세션 참가자들에게 실질적인 도움이 되도록 실제로 적용 가능한 4주 액션 플랜까지 제안해주셔서 저도 많이 배웠던 발표였습니다.
지속가능한 옵저버빌리티: 질문-측정-행동으로 이어지는 팀의 관측가능성
오후에는 3가지(Business, GPU/AI, Tech) 트랙으로 발표가 진행되었습니다. 그 중 저는 Business 트랙의 첫 발표를 맡았는데요.
‘지속가능한 옵저버빌리티’라는 주제로, 크게 3가지 파트로 나눠 구성했습니다.
- 옵저버빌리티 구축에 실패하는 대표적인 이유 3가지
- 지속가능한 옵저버빌리티를 위한 프레임워크
- 지속가능한 옵저버빌리티 도입 기대 효과
옵저버빌리티 구축에 실패하는 대표적인 이유 3가지
우리가 옵저버빌리티 구축에 실패하는 대표적인 이유 3가지를 아래와 같이 정리하면서 발표를 시작했습니다.

-
체계적인 문제 정의의 부재
- 우리 팀에게 필요한 질문과 문제를 먼저 정의하는 것이 우선
- 사용자 관점에서 우리 서비스가 어떤 품질을 제공해야 하는 것
- 이런 작업 없이 옵저버빌리티 시스템을 구축하면 운영 방향을 잃기 쉬움
-
데이터 수집에 집착
- 혹시 몰라 모든 데이터를 수집하려는 자세는 데이터 보관/처리 비용 증가를 불러옴
- 또한 이렇게 구성한 모니터링 대시보드에는 노이즈가 생겨 실제 문제가 발생할 때 파악이 어려워질 수 있음
-
Watermelon 대시보드의 함정
- 사용자 경험에 직결되는 지표를 모니터링하지 않으면, 아무리 다른 지표가 정상이더라도 서스 운영에 큰 문제가 발생할 수 있음
- 이를 겉은 초록색이지만 속은 빨간 수박에 빗대어 표현한 것
- 예를 들어, 인프라 관련 대시보드는 정상(Green)이더라도 지연시간 증가나 요청 실패 등으로 서비스 사용자의 경험이 떨어지는(Red) 문제가 발생하는 경우
위와 같이 옵저버빌리티 구축에 실패하지 않기 위해 제안한 것이 바로 지속가능한 옵저버빌리티 프레임워크인데요. 질문, 특정, 행동 단계로 나눈 다음 빠르게 적용할 수 있도록 예시와 활용할 수 있는 방법론들을 함께 정리했습니다.
지속가능한 옵저버빌리티를 위한 프레임워크
첫 번째 단계는 ‘질문으로 시작하기’입니다.

우리 팀에게 필요한 질문을 크게 3가지로 나눠 아래와 같이 정리했습니다.
-
지금 우리 서비스는 어때야 하는가 - Service Level Indicator(SLI)
- 우리 서비스의 현재 품질을 사용자 관점으로 나타내는 지표
- 가용성과 지연시간에 대한 SLI가 일반적
-
앞으로 우리 서비스는 어때야 하는가 - Service Level Object(SLO)
- 우리 팀이 설정한 SLI의 목표치
- 처음 시작은 SLI의 수치를 관리하기 쉬운 단위로 변환
- 주기적으로 사용자 관점에서 검토하고, 필요 시 현재 SLI보다 조금씩 높은 수준으로 조정
-
적어도 우리 서비스는 어때야 하는가 - Error Budget
- SLO를 충족하지 않아도 되는 여유 공간
- SLO가 요청의 97%의 성공이라면, 나머지 3%의 요청 실패가 Error Budget인 것
- 이때 3%의 요청 실패는 팀의 실수가 아닌 여유 공간
- 중요한 것은 지속적인 서비스 품질 관찰과 개선
지속가능한 옵저버빌리티를 위한 두 번째 단계는 ‘감이 아닌 전략 기반으로 측정하기’입니다.
이전 단계에서 정의한 질문들(SLI, SLO, Error Budget)은 옵저버빌리티 시스템에서 메트릭 지표로 나타낼 수 있는데요. 하지만 메트릭 지표의 종류가 워낙 많아서 어떤 지표로 우리 팀의 SLI/SLO를 측정할 수 있을지 고민이 될 수 있습니다.
그래서 저는 SRE에서 자주 사용되는 메트릭 선정 전략을 발표에서 함께 소개해드렸습니다. 바로 RED와 USE 방법론인데요. 이 2가지 방법론은 아래와 같이 정리할 수 있습니다.

-
서비스 관점의 측정 전략 - RED
- Rate: 서비스에 얼마나 많은 트래픽이 들어오는가?
- Errors: 서비스에 대한 얼마나 많은 요청이 실패하는가?
- Duration: 서비스에 대한 요청 처리가 얼마나 오래 걸리는가?
-
리소스 관점의 측정 전략 - USE
- Utilization: 리소스가 얼마나 사용되고 있는가?
- Saturation: 처리되어야 할 작업이 얼마나 쌓이고 있는가?
- Errors: 리소스에서 얼마나 오류가 발생하고 있는가?
이렇게 메트릭 지표를 통해 SLI, SLO, Error Budget을 시각화하는 대시보드를 SLO 대시보드라고 합니다. SLO 대시보드에 대해서는 제가 지난 아티클에서 다양한 예시와 함께 자세히 다뤘으니, 확인해보시는 걸 추천드립니다.
지속가능한 옵저버빌리티 프레임워크의 마지막 단계는 ‘Error Budget 기반으로 행동하기’입니다.
SLO 대시보드를 구축했다면, Error Budget 현황에 따라 개발 전략을 수립할 수 있게 됩니다. 크게 아래와 같이 3가지 시나리오로 정리할 수 있습니다.
-
Error Budget이 여유로울 때
- 사용자 관점에서의 서비스 품질이 떨어지지 않고 있다는 신호
- 신규 기능 개발이나 신규 버전 배포와 같은 서비스의 혁신과 확장을 꾀할 수 있음
-
Error Budget이 일정 속도로 꾸준히 소모될 때
- 사용자 관점에서의 서비스 품질이 어떤 요인으로 인해 지속적으로 떨어지고 있다는 뜻
- 신규 기능 개발/신규 버전 배포는 멈추는 것이 좋음
- 해당 SLO와 관련된 안정화 작업(버그 수정, 성능 최적화) 수행을 추천
-
Error Budget이 급격히 소모될 때
- 서비스 품질이 급격히 떨어지고 있다는 긴급 신호
- 신규 기능 개발/신규 버전 배포 중단
- 만약 신규 버전 배포 후 Error Budget이 급격히 떨어지고 있다면 이전 버전으로의 롤백도 선택지
- Error Budget이 소진되는 원인 분석 및 문제 해결 필요
- SLO 대시보드(메트릭)를 통해 문제 발생 파악
- 트레이스 데이터로 문제 발생 경로 탐색
- 문제 발생 지점의 로그 데이터로 원인 파악 및 문제 해결
행동 단계까지 마쳤다면, 다시 1단계로 돌아가 SLI/SLO를 업데이트합니다. 특히 문제를 해결한 뒤라면 동일한 문제를 선제 조치하기 위해 어떤 SLI/SLO의 개선이 필요할지 고민하고 업데이트하는 것이 중요한데요.
위 과정을 통해 팀의 성장과 서비스의 개선 효과를 모두 가질 수 있는 지속가능한 옵저버빌리티 구축이 가능할 것입니다.
지속가능한 옵저버빌리티 도입 기대 효과
실제로 SLO 기반 옵저버빌리티를 도입한 조직의 사례도 발표에서 함께 소개했습니다. 특히 안정적인 운영과 비용 절감에서 유의미한 사례가 있었는데요.
트래픽이 급증하는 상황에서 SLO 기반 옵저버빌리티를 통해 MTTR(평균 복구 시간)이 30분에서 5분으로 감소한 Lenovo의 사례와, 27%의 조직이 SLO 기반 옵저버빌리티 도입 이후 50만 달러 이상의 운영 비용을 절약할 수 있었다는 조사는 큰 시사점을 줍니다.
마무리
이번 컨퍼런스는 평소에 중요하다고 생각하던 옵저버빌리티에 초점을 맞춘 행사여서 특히 더 흥미롭고 유익한 시간이었습니다.
그리고 코엑스라는 큰 무대에서 처음 발표를 했던 터라 저에게 정말 뜻깊은 컨퍼런스였습니다.
본 컨퍼런스에서 진행된 세션들은 녹화본이 공개될 수 있다고 하는데요. 혹시 컨퍼런스에 참여하지 못하셨다면 추후 공개되는 녹화본 영상을 통해 다양한 인사이트를 얻으시길 바라겠습니다.
그럼 저는 다음 아티클에서 더욱 흥미로운 주제로 돌아오겠습니다.
이번 아티클도 읽어주셔서 감사합니다😸