이름* | |
---|---|
회사명* | |
부서* | |
직급* | |
산업군* | |
이메일* | @
업무용 회사 이메일로 응모하시면 당첨확률이 매우 높습니다. |
휴대폰* | - - |
최근 주식 시장에 상장한 핫한 이커머스 기업의 IT운영 부서의 핵심인재, 나닌자.
Key Initiative인 클라우드 마이그레이션 프로젝트를 MSA 아키텍처와 쿠버네티스를 활용하여 성공적으로 완수했다.
포상 휴가를 떠나려는 금요일 퇴근시간!!
CS부서의 안친절씨로부터 주문이 안된다는 고객 컴플레인이 접수됐다며 지금 당장 봐달라는 요청을 받는다!
6시에 퇴근해야 제주도행 비행기를 탑승 하는데...
주어진 시간에 IT운영 문제를 해결하라!
시간 초과 시 2번의 재도전이 가능하며, 제한 시간이 줄어든다. (2차 시도 6분, 3차 시도 5분 제공) |
영상과 힌트 박스는 문제 풀이에 중요한 내용이 들어있다. |
Mission 1/4불티나게 판매 중인 제품에 결제 지연 상황 발생! |
Splunk On-Call을 통해 문제에 대한 리포트를 빠르게 확인하고, 바로 On-Call에서 관련 담당자들을 확인하여 상황을 전파한다. |
IT운영 상의 문제이므로 가능한 관련 키워드를 Splunk Log Observer에 입력 후, 검색된 로그 기록들을 확인한다. |
On-Call로 알람과 장애 이력을 확인하고 접수 이력을 공유한다. |
유후~ 휴가는 무슨! 야근 각이다. ㅠ_ㅠ 배달 앱을 켜고 치킨부터 주문한다. |
Mission 2/4눈 깜빡하면 변하는 IT환경에 체크할 것도 산더미! |
사용자의 Meta Tag, Meta Log |
서비스 이동 내역 |
리소스 호출 시간 |
에러 내역, 서비스별 상세 지연 시간 |
위의 언급된 모든 실사용자의 모든 호출과 자원 요청 내역 |
Mission 3/4사용하는 서비스가 많아서 지켜봐야 하는 것도 일이네! |
모든 마이크로 서비스들과 서로의 호출 관계 등을 보여줄 수 있는 Splunk APM 서비스 맵에서 문제 된 서비스를 확인한다. |
지난번에도 인프라에서 문제가 났던 것을 기억하여, 인프라 및 각 컨테이너의 파드 정보를 최우선 순위로 하여 정보를 확인한다. |
Splunk 노샘플 Full-fidelity로 신뢰성이 검증된 모든 요청을 자동-분석 차트화 기능인 태그 스포트라이트 기능으로 문제가 되는 상황을 빠르게 확인한다. |
리퀘스트가 많은 서비스가 장애가 날 확률이 많으므로, 고객들에게 호응이 좋은 것으로 알려진 서비스부터 우선순위로 확인한다. |
Mission 4/4여기저기 흩어져있는 로그들. 어휴 골칫덩어리!! |
테스트에 사용했던 잘못된 API 토큰을 운영 서비스에 사용했다. |
v.350.9에 에러 메시지 전송이 잘못 그룹핑 되어 발송되었다. |
남은 시간 |
우리는 Splunk Observability Suite를 사용해서 문제의 원인을 빠르게 파악해서 해당 담당자에게 문제의 원인을 알렸고, 담당자는 새롭게 배포된 서비스가 문제가 있는 것을
확인하여 문제를 수정하기 전까지 기존 서비스로 롤백 해서 문제를 해결하였습니다.
조금 늦어졌지만, 이제 즐거운 마음으로 휴가를 떠날 수 있게 되었네요.
스플렁크 솔루션에 대해 더 알고 싶으신가요? 상담 신청을 해 주시면 추첨을 통해 피자 기프티콘을 드리며, 스플렁크 전문가가 연락드립니다. |