자유게시판
[넥슨운영진봐라] 늘의 사태 기술적 정리와 원인 예측
242 지포스나우6.21(화)조회 285추천 1비추천 0

242 지포스나우6.21(화)조회 285추천 1비추천 0
오늘의 사태 예측
1. 추천글에 있는것처럼 서버부하는 아님
이유는 게임으로 따지면 유저가 사용을 많이 안하는 시간대에 두번 연속으로 터졌다.
다른 글에 로드밸런서부터 설명하면서 문제를 얘기하지만 내가볼땐 그정도 부하가 갈 영역은 아니라고 본다.
2. 넥슨 전체서비스가 다운이 되었음
이럴경우 가장 큰 경우가
1) 스토리지가 맛이감(이중화 넘어가는데도 시간이 걸리는 장비를 썼을경우 Active-Stanby)
2) 주요 DB(계정연관 같은)가 Lock이 걸림(DB사용불가->서비스다운)
1) 스토리지가 맛이감(이중화 넘어가는데도 시간이 걸리는 장비를 썼을경우 Active-Stanby)
2) 주요 DB(계정연관 같은)가 Lock이 걸림(DB사용불가->서비스다운)
3) 요새는 데이터 연동수단(kafka같은)에서 문제가 생기는 경우다. 
4) Cloud 쿠버네틱스 운영하는쪽에서 문제가 생긴 경우(보통 장애 케이스들을 보면 Redis 용량관리문제 등 사소한 영역 그러나 파급은 큼)
   (아마 점점 Cloud PaaS로 옮기면서 문제가 생겼을 수도 있다. 근데 퍼블릭을 쓴다면 이럴경우는 거의 적다.)
3. 2번 연속에 장애시간이 대략 10분안쪽
장비에 문제가 생겼을경우 이중화가 아주 잘되어있으면 10분정도로 넘어가서 서비스 되는건 맞는데 2번연속은 매우 드물다. 
이상이 생긴 장비는 서비스에서 아웃시키기 때문이다.
그렇다면 예상할수있는건 
1) Private Cloud(넥슨 자체운영)의 문제(Redis 등 관리문제)이거나
2) 데이터 동기화(연동)의 문제영역일 수 있다.
2) 데이터 동기화(연동)의 문제영역일 수 있다.
데이터 동기화(연동)는 2가지가 있을 수 있다.
배치 성 과 실시간 성
배치는 대량의 데이터를 한번에 동기화(연동이나 업데이트)하는 경우고
실시간 성은 바로바로 변화를 동기화(연동이나 업데이트)하는 경우다.
예를 들면 스쿼드메이커 이적시장가치는 배치성으로 업데이트되고
이적시장 구매 판매 등록은 실시간성으로 업데이트 된다.
보통 실시간성을 처리하는 영역과 배치를 처리하는영역은 따로 나뉘게된다.
이유는 배치는 천천히 처리해도 되지만 실시간성은 빠르게 처리해**다.
이때 개발자가 개발을 잘못해서 배치성 데이터 연동을 실시간성 영역에 들이부은경우다.
이때 실시간은 데이터가 한개씩 가서 빠른처리가 가능하지만
배치를 보내게되면 갑자기 몇십만개 데이터가 와서 처리하는데 오래걸린다.
평소처럼 실시간성 데이터연동하는 영역은 갑자기 대량이와서 처리량이 밀리고
이러다보니 뒤에 있는 실시간연동데이터들은 갑작스럽게 처리가 안되고 리트라이를 계속시도하다가 특정조건하에서 뻗은거다.
(이건 설정 회사마다 달라 정확하게 뭐다라는 설명은 어렵다.)
(이건 설정 회사마다 달라 정확하게 뭐다라는 설명은 어렵다.)
보통 이렇게 뻗으면 데몬이나 Pod가 재기동되면서 다시 올라온다.
그러면서 자연스럽게 해소되었을 수도 있다.
그러다가 다시 문제있는 배치가 돌게되면 또 뻗는거다 그렇기에 2번장애났다고 생각된다.
2번장애 이후 아마도 긴급반영을 통해 해당 배치연동을 죽였거나 수정했다고 생각된다.
결론
넥슨 개발운영자들아 정신차리자 좀^^
댓글 0
0/200