Devops/DevOps
29cm의 이굿위크 장애대응 기록
2mukee
2024. 1. 20. 18:01
320x100
320x100
이굿위크 동안에 발생한 큰 트래픽으로 인해 장애가 발생했는데 어떻게 대응했는지 기록한 것 입니다.
트래픽에 맞게 인프라를 증설하고 병목 발생 가능성이 높은 구간마다 별도의 개선 작업을 진행했다고 하네요.
Elastic Search에서의 검색엔진 부하가 발생하였는데, 검색 엔진을 일시중지 시킨 후 정상화 시켰네요
그러고 메인데이터베이스의 max_connection을 2배로 늘렸고 캐시 목적으로 사용하는 인프라의 스펙도 늘렸다고 합니다
데이터베이스의 CPU 사용률이 65%가 됐을때는 업무 시간에 데이터베이스에 대해 scale-up을 감행하여 해결했다고 합니다. (이후에 트래픽이 더 몰릴때를 우선으로 생각)
300x250
728x90