Devops/DevOps

29cm의 이굿위크 장애대응 기록

2mukee 2024. 1. 20. 18:01
320x100
320x100

https://medium.com/@greg.shiny82/29cm-%EC%9D%98-%EC%9D%B4%EA%B5%BF%EC%9C%84%ED%81%AC-%EC%9E%A5%EC%95%A0%EB%8C%80%EC%9D%91-%EA%B8%B0%EB%A1%9D-177b6b2f07a0

 

29CM 의 이굿위크 장애대응 기록

이굿위크란?

medium.com

 

 

 

이굿위크 동안에 발생한 큰 트래픽으로 인해 장애가 발생했는데 어떻게 대응했는지 기록한 것 입니다.

트래픽에 맞게 인프라를  증설하고 병목 발생 가능성이 높은 구간마다 별도의 개선 작업을 진행했다고 하네요.

 

Elastic Search에서의 검색엔진 부하가 발생하였는데, 검색 엔진을 일시중지 시킨 후 정상화 시켰네요

그러고 메인데이터베이스의 max_connection을 2배로 늘렸고 캐시 목적으로 사용하는 인프라의 스펙도 늘렸다고 합니다

데이터베이스의 CPU 사용률이 65%가 됐을때는 업무 시간에 데이터베이스에 대해 scale-up을 감행하여 해결했다고 합니다. (이후에 트래픽이 더 몰릴때를 우선으로 생각)

 

300x250
728x90