화려한 그래픽, 매력적인 오디오, 탄탄한 이야기. '멋진 게임'은 게임 안에 존재하는 것들로 완성된다. 하지만 '완벽한 게임'은 그 바깥에 있는 것들로 만들어진다. 언제든 쉽게 게임을 구매할 수 있는 유통 라인이나 안정적인 운영이 그렇다. 이런 인프라는 잘 굴러갈 때는 그 존재를 잊기 마련이라는 점이다. 제역할을 하지 못했을 때에서야 그 중요성을 체감한다.

그리고 온라인 접속을 항시 요구하는 방향으로 흘러가는 오늘날 게임. 20일 발생한 아마존웹서비스(AWS) 대규모 장애가 그랬다.


AWS 인프라의 대규모 서버 오류에 수시간 동안 아마존 자체 서비스인 AI 알렉사를 비롯해 슬랙, 퍼플렉시티, 디즈니 플러스가 먹통이 됐다. '포트나이트', '로블록스', '배틀그라운드' 등 주요 게임도 접속 불가 상태에 빠졌다. 클라우드 시장 점유율 30%를 차지하는 AWS의 장애는 곧 전 세계 수억 이용자의 일상 마비를 의미했다.

AWS는 전체 클라우드 서비스의 점유율 30% 가량을 가지고 있다. 당연히 이를 이용하는 클라우드 서비스도 많고, 장애에 따른 이용자의 피해 역시 직접적으로 체감할 수 있다. 하지만 실제로 2위인 마이크로소프트 애저, 3위 구글 클라우드 역시 이를 이용하는 사이트와 서비스 이용이 불가능했던 사례가 있다. 특히 이들 3개 클라우드 서비스가 소위 '빅3 클라우드'로 전체 점유율 65% 가까이 차지하고 있음을 생각하면 이들의 서비스 안정성이 곧 디지털 서비스의 안정성으로 이어지는 셈이다.

사실상 오늘날 온라인 상황을 이용하는 앱이나 게임에 있어 클라우드 서비스는 오랜 기간 골치거리였던 서버 문제를 해결할 핵심으로 꼽힌다. 유저 증가에 따라 서버를 즉시 확장하거나 축소할 수 있고, 전 세계 데이터센터를 통해 지역별 최적화된 응답속도를 제공한다.

보안 솔루션도 이미 검증됐다. 다중 트래픽 관리, 데이터 암호화, DDoS 방어 등 대형 업체들의 경쟁 속에서 안정적으로 구축된 시스템이다. 비용, 편의성, 그리고 자체 구축만으로는 감당할 수 없는 시스템 이점을 제공하며 클라우드 서비스는 가장 합리적인 선택이 되었다.

결국, 클라우드 서비스의 일시적 오류로 전세계적인 접속 장애가 이어졌지만, 기업은 클라우드 서비스를 이용할 것이고, 하루도 안 되는 접속 장애도 이튿날 즐기는 게임에 게이머들 기억에서 잊혀져갈 것이다. 하루 정도 적당히 관심을 끈 미디어 역시 이제는 잘 굴러가 관심이 식은 주제를 다룰 필요가 없다.

하지만 그럼에도 리스크가 존재함은 분명히 드러났다. 대형 클라우드 서비스는 가장 확실하고 안전한 서비스지만, 완전무결하지는 않다. 그리고 이러한 거대 클라우드 호스팅 문제는 더 늘어갈 주장도 많다.

기술적 복합성이 높아지면서 작은 문제 하나에도 연쇄적 오류를 일으키기 쉬워져가지만, 시장 경쟁 속에서 완벽한 테스트보다는 배포 속도를 우선하는 문화가 커지기 때문이다. 더불어 클라우드 서비스가 고가용성을 중심으로 서버 분산을 추구하지만, 결과적으로는 핵심 제어 기능이 글로벌단에서 한 곳으로 집중되는 구조이기에 작은 문제에 더 큰 취약점을 가지기도 한다. 그리고 그게 근래 여럿 발생한 전세계적 서비스 마비로 이어졌다.

물론 기업들도 손 놓고 있지만은 않다. 여러 클라우드 플랫폼을 동시에 사용하는 멀티 클라우드 전략이나, 민감한 데이터는 자체 서버에 보관하는 하이브리드 클라우드 방식을 채택한다. 문제는 비용이다. 복잡한 서버 운용은 설계와 관리 비용을 급격히 높인다. 결국 많은 기업이 '큰 사고는 안 나겠지'라는 낙관론 아래 비용 효율을 선택한다.

다행히 이번 AWS 장애는 수시간 만에 대부분 복구됐다. 하지만 반나절 정도에 해결될 문제가 아니였다면? 소중한 정보가 날아가버릴 문제였다면?

그렇게 큰 의미를 두지 않다가 결국 피해를 보는 건 소비자다. 누군가에게는 게임 즐기지 않을 몇 시간이었을지도 모른다. 하지만 어린 학생에게는 하루 한 시간 허락된 모바일 게임 플레이 시간일 수도 있고, 미리 친구들과 준비하고 기다린 파티 플레이 시간이었을 수도 있다. 여기에 이미 판매된 게임조차 온라인 서비스 없이 이용할 수 있는 모드가 줄어가는 게임들이 늘어가면서, 서버의 부실화는 정작 내돈주고 산 게임조차 즐기지 못하는 상황을 만들어버리기도 한다.

최소한의 안전장치가 필요한 이유다. 적어도 일정 규모 이상에서는 클라우드 서비스의 분산으로 핵심 정보를 지키고, 싱글 플레이어 콘텐츠에 대한 오프라인 의무화 논의도 시작되어야 한다. 장애에 따른 보상도 '불가항력'이라는 문구 뒤에 숨어 회피 가능한 영역에 남아선 안된다.

'잘 굴러갈 때는 잊혀지는 것'. 게이머들이 서버 안전성에 대해 생각하지 않아도 될, 그런 적절한 인프라 구축에 대한 이야기를 해야 할 시기다.