네트워크 환경이 급속하게 발전하고 스마트폰의 보급이 이뤄지면서, 일상생활 속에서 SNS나 블로그 등을 통해 사람들이 만들어내는 디지털 정보도 급격히 증가하고 있다. 이러한 정보들은 기존의 DB형태, 즉 정형 데이터와는 달리 그림이나 영상, 문서처럼 형태와 구조가 복잡한 ‘비정형 데이터’이다. 이들은 정형 데이터에 비해 분석이 까다로워 한동안 데이터로써의 가치를 인정받지 못했지만, 개인의 일상생활 속에서 생산되는 정보를 직접 담고 있으며 개인적인 의견이나 취향, 행동 패턴까지도 녹아있기 때문에 여론의 흐름을 파악할 수 있다는 점에서 최근 주목받고 있다.

정성영 아르스프락시아 이사의 “비정형 데이터분석으로 바라보는 온라인게임 운영” 강연은 게임 업계에서도 이미 유저들에게서 발생하는 다양한 비정형 데이터를 통해 유저들의 사고 및 행동패턴을 분석하고 운영, 마케팅 및 사업에 적용하는 방법에 대한 내용이다. 강연은 비정형 데이터 분석에 대한 소개와 장점, 실제로 비정형 데이터를 분석하는 과정을 거친 후 실제 온라인게임에서 어떻게 활용되었는지를 확인해보는 순서로 진행되었다.




비정형 데이터 분석이란?

정형데이터와 비정형데이터의 차이란 구조화된 데이터와 비구조화, 혹은 반 구조화의 차이이다. 일반적으로 개인이 남기는 사진이나 글, 음성은 비정형 데이터라고 볼 수 있다. 전 세계적인 데이터 총량으로 봤을 때 비정형 데이터의 규모가 정형 데이터의 규모를 크게 뛰어넘기 때문에 비정형 데이터를 이해한다는 것은 그만큼 많은 기회를 얻을 수 있다는 말도 된다.

실제로 라이엇 게임즈에서는 비정형 데이터 분석에 ‘센티멘탈 분석’이라는 방법을 사용하고 있다. 센티멘탈 분석이란 텍스트 마이닝 기법을 이용해 게임 내에서 유저들이 사용하는 단어나 문장이 가지고 있는 감정을 파악해 분류하고 분석하며, 한 문장 안에 사용된 긍정적인 단어와 부정적인 단어의 비율을 따져 해당 문장의 감정을 파악하는 방식이다. 라이엇 게임즈에서는 이 과정을 통해 분류된 부정적인 단어, 즉 욕설과 비방어들을 자동으로 필터링하고 있다.



디퓨전 네트워크는 이미 국내에서도 네오플이나 엔씨소프트 등의 회사에서도 사용하고 있는 방법으로, 확산 분석, 혹은 네트워크 분석으로 이해할 수 있다. 연결과 연결간의, 노드와 노드간의 관계를 분석해 중심점이 어디에 모이는지 그 위치에 어떤 유저들이 있는지를 파악하는 방법이다. 이 방식을 통해 골드가 모이는 지점을 찾아내 작업장이나 해킹 계정을 막아내는데 사용할 수도 있다.

또한, 라이엇 게임즈에서는 이 방식을 게임의 경험에 적용해 사용하고 있다. 하나의 게임이 하나의 노드로 잡히고, 한 판이 끝날 때마다 해당 게임의 경험이 즐거웠는지를 분석해 색으로 표시하는 것이다. 이를 통해 나쁜 경험의 게임이 전체 게임에서 어디까지 악영향을 미치는가를 조사하고 있다.




게임 외적인 분석 예로는 MIT에서 만든 BPP(Billion Prices Project)를 예로 들 수 있다. 이는 전 세계의 50여 국의 모든 쇼핑몰 사이트의 물품과 가격을 조사해 온라인의 물가지수를 판단한다.

다른 방법인 디지털 에스노그래피(EthnoGraphy)는 사람 혹은 민족, 혹은 어떠한 그룹이나 집단에 대한 분석이다. 실제 사용자가 이 제품 혹은 이 서비스를 어떻게 활용하고 쓰는지에 대한 조사를 통해 고객들의 마음을 읽을 수 있고 깊은 행동 단위의 분석을 할 수 있다. 일례로 하인즈케첩은 일반 고객 환경에서 자사 제품이 어떻게 활용되는지 보기 위해 실제 4인 가정의 집을 관찰한 결과, 케첩의 병을 유리에서 플라스틱으로 변경해 매출을 극적으로 올릴 수 있었다.

디지털 에스노 프로젝트의 하나인 Selfiecity는 인스타그램에 사용자들이 올린 셀카 사진 수천 장을 가공, 분석해 이미지 인식 기술을 활용해 지역별, 남녀별, 시간대 별 사회인류학적 통찰을 발견했다. 이런 기법을 바탕으로 제품이나 운영, 마케팅에 활용되어 사용자들이 온라인에 올리는 데이터들을 분석해 특정 상품을 특정 계층에게 판매할 때의 전략 인사이트를 제공할 수 있다.



마지막으로 의미망 분석 기법이 있다. 네트워크 지도를 문장에 도입한다고 생각하면 된다. 네트워크 지도의 노드를 단어의 관계로 봐서 어떤 단어들이 가장 중심적이고 가장 중요한 위치에 있느냐를 보는 것이다. 실제로 일베 커뮤니티를 분석한 결과 일베 이용자들의 담론 지도를 그려낼 수 있었고, 이를 일베의 주 이용자 층이 산업화 시대에 서울로 상경을 해서 성공한 아버지를 둔 자녀들의 마음이라고 해석했다.

말하자면, 이용자들이 산업화 시대에 아버지들의 성공한 방식인 “쎈놈에게 붙어라, 무임승차 안된다”에 대해 굉장한 존경의 마음을 가진다고 해석한 것. 전라도를 공격하는 것도 ‘무임승차’에 대한 오해라고 보았다. 전라도가 산업화의 주역인 경상도에 비해 국가기여에 별로 한 것이 없는데 자꾸 평등이라는 개념을 대입하면서 무임승차를 하려 한다는 인식이다. 이렇게 속마음을 찾아낼 수 있는 것이 의미망 기술이다.



의미망 분석은 선거에서도 사용된 바 있다. 실제로 작년 지방선거에서 후보 소개를 할 때 의미망 분석을 해본 결과, 후보자들이 지지를 받는 이유를 찾아낼 수 있는 것이다. 남경필 지사의 경우 “똑똑하고 잘생긴 이미지”, 혹은 “박근혜 정부에 도움이 된다”이고, 김진표의 경우에는 “새누리당이 싫기 때문에”라는 이유이다.


비정형 분석의 가치

비정형 데이터 분석을 거치면 고객들이 실제 원하는 것을 정해진 지표를 바탕으로 알 수 있다. 제품의 USP를 찾아내고 우선순위를 설정할 수 있는 것이다. 개발자들은 게임을 만들 때 많은 기능을 담고 싶어 한다. 하지만 그러다보니 Feature Creep, 즉 개발단계에서 필요하다고 생각하는 기능과 소비자들이 원하는 기능을 하나씩 추가하다보니 결국 핵심 기능과는 거리가 먼 것들이 잔뜩 들어가는 상황이 벌어진다.

이는 결국 우선순위에 대한 문제이다. 자신이 개발하는 게임의 특징을 명확하게 잡고 필요 없는 기능들은 떼어내야 한다. 비정형 데이터 분석은 이런 것들을 수치화해 우선순위를 고를 수 있도록 해준다.

다음은 브랜드 모니터링 및 대응에 용이하다는 것이다. 일례로 C사의 경우 사무실 벽면에 대시보드가 있어 한 시간 단위로 국내 유수의 커뮤니티나 게시판의 현황을 모니터링하고 수집해 분석하는 시스템을 가지고 있다. 이를 바탕으로 사용자들 사이에서 부정적인 사건이 발생하면 이를 즉각적으로 수집하고 대응책을 세움으로써 빠른 대처가 가능해진다.




비정형 데이터 분석해보기



비정형 데이터의 분석 과정은 데이터 수집하는 것부터 시작된다. 게임의 경우를 예로 들면, 유저게시판이나 길드 채팅, 파티 채팅, 귓속말 등 인게임 텍스트 정보를 수집해 자연어 처리과정을 거친다. 자연어 처리란 중요한 단어들을 파악하고 잘라내며 형태소 분석, 즉 문장을 분해 가능한 최소한의 단위로 분리하는 작업을 통해 명사, 동사, 형용사로 분류를 하고 이들 간에 관계를 설정하는 일련의 과정을 뜻한다.

이후에는 처리된 데이터들 사이의 관계를 분석해 네트워크를 구축한다. 데이터의 양이 상당하기 때문에 그 안에서 핵심 네트워크를 추출해야 한다. 추출과정에서 지표가 떨어지는 것들은 네트워크에서 제외하는 방식으로 핵심 네트워크만 시각화를 한 뒤 네트워크 분석과 해석을 해야 한다. 네트워크 해석을 할 때는 추출된 핵심 네트워크의 키워드의 연결 관계와 원문의 맥락을 보아야 한다.



▲ 1. 스티브 잡스의 연설문을 잘못 표현된, 혹은 동의어나 제외어 처리해야 할 단어들을 등록한 라이브러리를 바탕으로 툴을 통해 분석한 결과. 수많은 단어들이 섞여있다.


▲ 2. 지표를 적용해 특정 단어들이 떠오른 모습. 용도와 활용에 따라 각기 다른 지표를 적용해야 한다. Semantic Network Analysis(의미망 분석)라고 검색하면 다양한 지표와 활용처에 대한 정보를 찾을 수 있다.


▲ 3. 지표상으로 중요도가 떨어지는 노드들을 안보이게 한 결과. 이 곳에서 핵심으로 떠오른 키워드와 본문을 번갈아 확인하면서 어째서 이런 단어들이 중요한 것인지를 파악하며 해석해야 한다.


▲ 4. 의미망 분석과 해석


이러한 분석을 통하면 개인의 인식이나 가치관은 배제된 체 수치를 기반으로 나오기 때문에 공정성이 높아진다. 이러한 데이터 분석 기법에 관심이 많고 더 많은 정보를 얻고 싶다면 Coursera나 책을 통해 확인할 수 있다. 시각화 툴이나 데이터 분석 툴은 R이나 네트워크 노드 사이의 시각화를 가능하게 해주는 ORA와 Gephi 등의 툴을 사용하면 된다.




온라인 게임 분석 사례: 넥슨의 아틀란티카


위 그래프는 아틀란티카 팬 커뮤니티를 대상으로 약 3년간의 데이터를 분석한 유저 담론의 양이다. 게임 외부 환경 변화에 따라 한게임 퍼블리싱 이전, 한게임 퍼블리싱 이후, 넥슨 인수 이후, 넥슨 퍼블리싱 이후의 총 4개 구간으로 구분할 수 있으며, 각 구간 초반에 대규모 업데이트로 버즈량이 상승한 모습을 볼 수 있지만, 여타 온라인 MMORPG처럼 장기적으로 유저의 이탈과 관심이 감소하고 있다.



게임의 초창기에는 용병을 조합하는 방법과 영입 관련 정보에 대한 관심이 높다. 이는 게임의 정체성과 큰 관련이 있다. 아틀란티카가 메인 주인공 외에 다양한 용병들을 사용할 수 있는 게임이었기 때문에 용병을 어떻게 영입하는지, 어떤 용병 조합이 좋은지에 대한 관심이 높았다고 볼 수 있다.



키워드의 큰 차이는 없지만 오른쪽의 랭킹에서 볼 수 있듯 용병이 관심사인 것은 맞지만 레벨이나 초보자, 신규, 조합 등의 키워드가 떠올랐다. 이는 당시 한게임의 적극적인 마케팅을 통해 게임에 신규 유저 유입량이 많았음을 의미한다. 신규 유저들의 관심사는 역시 용병, 그리고 용병 조합에 대한 내용이었을 것이고 육성과 성장에 대한 정보와 초보자에게 유용한 팁 등이었음을 볼 수 있다.



넥슨의 엔도어즈 인수 이후부터는 재미있는 부분을 볼 수 있다. 당시 ‘전략TBS’와 관련된 시스템 업데이트로 이를 공략하기 위한 정보에 대해 관심이 높았음을 볼 수 있다. 하지만 원래 게임이 가지고 있던 킬러 콘텐츠, 즉 ‘용병’에 대한 내용은 완전히 사라진 것도 확인할 수 있다.



넥슨이 퍼블리싱까지 하게 되면서 여러 부분에서 업데이트가 이루어졌다. 가장 중요한 내용은 용병 없이 미궁을 홀로 공략할 수 있는 ‘아지’(아틀란티카 지팡이)이다. 따라서 아지와 미궁 등 새로운 콘텐츠들에 대한 많은 의견이 오갔음을 알 수 있으며, 아지의 등장과 함께 남은 슬롯에 어떤 용병을 배치해야 하느냐에 대한 내용으로 용병이 미약하나마 다시 순위에 올랐음을 확인할 수 있다.



분석 초반 제시된 그래프에서 점점 담론이 줄어가고 관심이 줄어가는 현상을 보았다. 각 구간에서 조합, 초보자, 영입의 주요 지표가 버즈량(언급량)과 상관관계가 높다는 것을 알 수 있고, 이것들을 없애면서 주요 지표 역시 줄었어들었다고 볼 수 있다. 이런 가설을 세운 후 실제 유저들이 어떤 행동을 보이는가에 대해 원문을 확인하는 작업이 들어간다.



신규/복귀 유저가 용병과 조합 관련 질문을 하면 올드 유저들은 다른 게임 요소가 더 중요하니 레벨을 올리라고 조언하는 모습이 보인다. 신규유저나 복귀 유저 입장에서는 여러 용병을 육성하고 상황에 맞게 조합하기를 원한다면, 올드 유저의 입장에서는 신규/복귀 유저들이 빨리 올라오기를 원하니 최적화된 빌드만 알려준다. 이 두 집단의 니즈가 맞지 않는 원인으로 용병 활용도의 고착화를 예상했고, 이 가설을 확인하기 위해 다른 데이터를 분석했다.



아틀란티카와 크루세이더 퀘스트는 둘 다 용병을 활용하는 게임이다. 두 게임에서 2015년 상반기 동안 유저가 사용하는 캐릭터의 관계와 지향성을 네트워크로 작성해본 결과, 크루세이더 퀘스트가 아틀란티카에 비해 조합에 필요한 용병 숫자가 적음에도 불구하고 더욱 많은 캐릭터가 활용되고 있음을 알 수 있었다. 이는 하단 그래프의 기울기에서 확인이 가능하다. 회색 부분은 숫자가 너무 적어 지표에서 벗어나는 캐릭터들을 의미한다.


이런 분석이 끝난 후에는 게임을 누구보다 잘 알고 있는, 개발자들과 함께 이야기를 나눈다. 도출된 데이터를 바탕으로 이후의 패치는 어떻게 가는 것이 좋을지 토론을 통해 인사이트를 제공해줄 수 있다.