12초 걸리던 쿼리 장애를 처음 겪고, 끝까지 파고든 기록
회사의 지식재산권 보호를 위해 스키마와 쿼리를 재구성하였으나 본질은 동일합니다. 문제 정의 며칠 전 유저 검색 기능의 속도가 지나치게 느리다는 피드백을 받았습니다. 개발 환경에서는 성능 문제를 체감한 적이 없었고 사용 빈도도 높지 않았던 기능이라서, 솔직히 문제가 발생할 것이라고 예상하지 못했습니다 운영 환경에서 직접 재현해보니 검색어가 있을 때는 1초 미만이었지만, 없는 경우 약 12초의 지연이 발생했습니다. 이는 곧 전체 유저를 보기 위해선 유저가 12초 동안 기다려야 한다는 말이 됩니다. 일반적으로 알려진 것처럼 5초 이상의 로딩은 사용자 이탈로 직결되는 만큼, 바로 원인 파악에 들어갔습니다. ...