▲ 닉네임을 잘 지어야하는 이유
(출처: 유튜브 '김도랜드' 채널)

그러고보니 前 일러스트레이터였던 스트리머 ‘김도’가 방송에서 직접 '괄약근조이기운동'이란 닉네임을 지었었죠? 멋대로 지은 이름이지만, 실제로 이름을 불러주니 살짝 당혹스러워하는 모습을 볼 수 있었습니다. 이렇듯 TTS(Text-to-Speech)는 음성 합성 시스템으로서 텍스트로 표기된 것을 말할 수 있게 해줍니다. 또한 한국에서 많이 알려진 ‘보이스웨어’도 TTS 요소의 하나입니다.

세간에서는 ‘보컬로이드’와 흡사하다고 싶겠지만 보컬로이드와는 조금 다릅니다. 보컬로이드는 뮤지션, ‘보컬’의 역할을 보컬로이드에게 맡기면서 자신이 원하는 음성을 만들기 위해 직접 합성 해야 한다는 조건이 있죠. 예를 들어 손수 하나하나 모음과 자음을 분해해 그것으로 단어를 만드는 합성물이 보컬로이드와 흡사하겠네요. 예시를 들면 심영물이 되겠습니다.

TTS는 이런 보컬로이드와 유저들이 직접 만드는 합성물과 달리 ‘텍스트를 사람의 손을 거치지 않고 바로 읽어줄 수 있다’는 점에서 좀 더 보편성을 지닌 기능입니다. 트위치에서도 ‘도네이션’용으로 이런 기능들이 만들어졌죠. 그리고 그 목소리는 이제 어색하지 않을 수준까지 올라왔습니다. 이는 코레일에도 적용되었을 정도니, TTS의 쓰임새가 점점 넓혀져 가는 추세인 것을 알 수 있었습니다.

이 기세를 놓치지 않듯, TTS를 게임에도 쓴 작품이 있는데요. 바로 ‘블루 아카이브’입니다. 작중 플레이어인 선생님을 도와 보좌해 주는 비서, ‘아로나’의 목소리는 성우 ‘코하라 코노미’의 목소리를 따, TTS로 구현한 목소리입니다. 물론 작중 내에서도 외적으로도 성우의 녹음된 음성을 사용하는 때도 있습니다만, 대체로 저희 선생님들의 이름을 불러주는 이름은 바로 TTS 기능이 되겠습니다.

오늘은 특별한 기회가 되어 이 아로나의 TTS 기능을 개발하신 ‘권민섭’ 엔지니어를 만날 수 있게 되었습니다. 권민섭 엔지니어는 넷게임즈 MX스튜디오 EPD직속에 소속되어 있는 머신러닝 엔지니어입니다. 머신러닝 또한 A.I.(인공지능)의 하위 집합, 딥러닝보다는 상위 집합에 머물러 있는 요소이며, TTS와도 직접적인 연관이 있죠. 과연 아로나의 목소리는 어떻게 해서 탄생했을까요? 인터뷰를 통해서 직접 확인해 주시길 바랍니다.

* (본 인터뷰는 서면 인터뷰로 진행되었습니다.)




▲ 아로나 이미지로 대신한 넷게임즈 '권민섭' 엔지니어



안녕하세요! 위에서도 짧은 설명을 곁들었지만, 훌륭한 직책에 비해 설명이 부족한 것 같네요. 그런고로 자기소개를 한 번 부탁하고자 합니다.

권민섭 엔지니어: 안녕하세요! 대학원을 졸업한 뒤 작년 2월부터 MX스튜디오 EPD직속 머신러닝 엔지니어로 일하고 있는 권민섭이라고 합니다. 머신러닝을 이용하여 블루 아카이브에 도움이 될 수 있는 시스템의 R&D를 진행하고 있으며 그 첫 일환으로 아로나의 TTS 기능을 넣게 되었습니다!



그러고 보니 ‘머신러닝 엔지니어’라는 직함이셨는데, 머신러닝은 사람의 손을 거치는 대신, 컴퓨터가 데이터를 통해 학습하고 경험을 통해 개선하도록 훈련하는 데 중점을 두는 작업인 것으로 알고 있습니다. 이 글을 읽을 유저분들을 위해서 좀 더 알기 쉽게 머신러닝과 딥러닝, A.I.와의 관계를 설명해 주실 수 있으실까요?

권민섭 엔지니어: 최근에 머신러닝 영역이 사람들에게 많이 알려지면서 머신러닝, 딥러닝, A.I.(인공지능) 같은 용어가 많이 나오고 있습니다만, 이를 헷갈리시는 분들이 많은 것을 보았습니다.

모르시는 분들을 위해 세 단어에 대해 간단히 설명하자면, 인공지능은 계산이나 조건 분기 등의 방법으로 사람이 하는 일을 기계가 대신 판단해 주는 것을 총칭하고, 머신러닝은 인공지능에 포함된 것 중 학습을 통해 스스로 인공지능을 구축하는 것을 말합니다. 이런 머신러닝 기법 중에 인간의 뉴런을 본떠서 심층 신경망을 이용하여 만든 기법이 딥러닝입니다.

"전 잘 설명해드렸습니다. 그러니 절 그렇게 쳐다보지 마십시오. 휴먼."
(출처: 네이버 영화 '아이, 로봇' 페이지)



그리고 TTS(Text-to Speech) 기능에 대해서도 유저분들에게 짤막한 설명 부탁드릴 수 있을까요? 그리고 TTS 기능을 게임에 집어넣으려고 한 이유가 궁금합니다. 혹시 다른 비화가 있을까요?

권민섭 엔지니어: TTS(Text-to Speech) 기능은 말 그대로 텍스트를 음성으로 합성해 내는 기능입니다. 제가 입사하기도 훨씬 전인 개발 초기부터 "TTS 기능은 캐릭터와 사용자 간의 교감을 중시하는 블루 아카이브에 주요한 피처가 될 수 있다."라고 김용하 PD님께서 생각하고 계셨는데, 실험을 통해 어느 정도 가능성을 보신 후, 제가 머신러닝 엔지니어로 합류하여 본격적인 개발을 시작하게 되었습니다.



제가 들은 바로는 ‘아로나’의 TTS 기능을 직접 만드셨다고 들었습니다. 하지만 머신러닝의 개념을 생각해 보자면 게임 내에서 좀 더 갖은 활약을 할 수 있다고 보는데요. 이외에도 다른 시스템에 관여하신 부분이 있을까요?

권민섭 엔지니어: 네, TTS 기능 이외에도 머신러닝을 이용해 블루 아카이브의 서비스에 어떻게 더 도움이 될 수 있을까를 연구 중입니다. 리듬게임의 채보를 작성하는 것을 보조해 주거나, 아직 사용되고 있지는 않지만, 캐릭터 3D 모델의 뼈대를 자동으로 잡아준다던가, 플레이어를 인식하는 시스템 등 여러 가지 연구를 진행하고 있습니다.



이전에 데이터를 체크해 보았는데, 일본어와 한국어의 단어를 일치시키기 위해 발음을 하나씩 텍스트로 대조한 모습을 보았습니다. 예를 들어서 し를 시로 지정을 해서 한글로 시스템을 적으면 ‘システム’라는 발음이 되도록 하는 식인 것 같은데요. 그렇다면 기본적으로 아로나의 음성 베이스는 일본 성우를 따라 ‘일본어’로 기록되었다는 것이겠네요?

권민섭 엔지니어: 정확하게 말씀드리자면 성우의 음성은 일본어로 녹음되었지만, 실제로 합성할 때의 데이터는 영어 발음기호를 사용하였습니다.

예시를 말씀드리자면, 일본 서비스에서 'すなおおかみシロコ(스나오오카미 시로코)'의 경우에는 실제로 합성할 때 “s u n a o o k a m i s h i r o k o”라는 영문 음소로 바꿔서 합성을 진행합니다. 가타카나를 그대로 사용하는 것보다 이쪽이 더 좋은 성능을 보여서 이렇게 구현하게 되었네요. 한국어의 경우엔 한국어 -> 가타카나의 대응 표를 구하여 직접 1:1로 변환하였습니다.

글로벌 서비스의 경우에는 조금 복잡했는데요. 예를 들어 'Caesar'의 경우에는 사람마다 시저나 카이사르, 케사르라고 읽기도 하는데 위의 예시처럼 같은 영문 단어라도 다르게 읽는 경우가 너무 많았습니다. 이런 문제점을 해결하고자 머신러닝을 활용해 영문자 -> 가타카나로 변환해 주는 기능을 만들어 TTS 서버에 추가, 영문을 입력받고 변환된 영문을 아로나가 사용자가 원하는 대로 잘 읽었는지 확인 후, 음성합성을 진행하도록 했습니다.

▲ 한국 서버의 경우엔 한국어 -> 카타카나의 대응 표로 구현되었군요



위의 질문 연속인데요. 제 친구가 ‘힣힣이’라는 단어로 음성 인식을 시도해 보았으나, 없는 단어로 표기되었다고 합니다. 이는 ‘힣’이라는 단어가 일본어로 표현할 수 없는 단어기 때문일까요? 그러면 향후 표현이 힘든 단어들도 분명 ‘발음표기’가 있을 텐데, 추가할 계획은 없는 것일까요?

권민섭 엔지니어: 이는 일본어로 표현할 수 없다기보다는 한국어 -> 가타카나 변환 필터에 ‘힣’이라는 글자가 없어서 발생한 결과입니다. 이는 차후 해당 글자에 대응되는 발음을 추가하여 보완할 계획입니다!



TTS 자체는 사실 어찌 보면 되게 단순한 기술 같은데, 업계에서는 상당히 중요하게 생각하고 있는 것 같습니다. 이게 현 최신 기술하고 어떻게 연관되는지, 그리고 블루 아카이브에서 이걸 어떻게 활용하려고 하는지가 궁금합니다.

권민섭 엔지니어: TTS는 음성을 자유롭게 합성하여 정보를 전달한다는 점에 있어서 주목을 받는 기술인데, 일반적인 TTS로 음성을 구현하기에는 억양이 자연스럽지 않다던가, 한 글자씩 녹음해야 하는 등 난관이 많습니다. 이런 단점을 해결하기 위해 네이버나 카카오, NC소프트 같은 머신러닝을 이용해 TTS를 연구하고 있는 회사나 연구기관이 많아지고 있습니다. 블루 아카이브에서는 캐릭터와의 교감을 위해서 머신러닝을 이용해 TTS를 활용하였고, 앞으로도 이를 이용해 다양한 콘텐츠를 생산할 수 있을지에 대해 연구하고 있습니다!



아로나의 TTS 시스템, 그 자체가 궁금합니다. 혹시 개발 비화를 들어볼 수 있을까요?

권민섭 엔지니어: 아로나의 TTS 시스템은 입사 후, 올해 2월 일본에서의 첫 서비스까지 약 1년 동안 구현했는데, 저로서는 학습시킨 머신러닝 모델을 실제 서비스에 올리는 작업은 처음 있는 일이라 어려운 점이 많았습니다.

여러 난관이 많았지만, 하나의 연구를 실제 게임 서비스에 올리기 위해선 여러 사람의 도움이 필요했다는 것을 알게 되었습니다. 서버와 클라이언트 프로그래머, 기획자, DevOps 프로그래머, UI 디자이너분들은 물론, 많은 부분에서 지속적으로 도움을 주시고 믿어주신 김용하 PD님까지. 많은 분이 도와주셨기에 이 기능을 완성할 수 있었다고 생각됩니다. 대학원에서 연구만 할 때와는 달리 실제 서비스로 구현하면서 가장 다른 점을 느꼈던 부분이기도 합니다.

▲ 사용자와의 교감을 위해 TTS 기능을 줄곧 생각하고 있던 '김용하 PD'



TTS 시스템을 만들면서 고민했던 점이나, 지금 돌이켜보면 ‘이렇게 하면 좋았을 텐데’와 같은 아쉬운 점이 있었을까요?

권민섭 엔지니어: 개인적으로 개발한 뒤에도 아쉬운 점이 많았습니다. 머신러닝 모델의 학습에 사용될 데이터 세트의 검수를 좀 더 철저히 했으면 어땠을까, 조금 더 다양하고 많은 데이터를 확보할 수 있었으면 어땠을까, 녹음할 때 연기를 조금 더 자세히 요청했으면 어땠을까, 라고 생각한 부분이겠네요. 지금은 이전에 아쉬웠던 점들을 커버하기 위해 방법을 계속 찾아보고 연구해 보고 있습니다.



머신러닝 기술이 향후, '블루 아카이브'에 어떤 영향을 미칠 것 같나요? 아니면, 머신러닝과 같은 자율적 학습 기능을 블루 아카이브에 포함할 생각이 있으신지 궁금합니다.

권민섭 엔지니어: 블루 아카이브에서의 머신러닝 기술은 두 가지 방향성을 염두에 두고 연구하고 있습니다.

첫 번째는 아로나의 TTS 시스템처럼 직접적으로 게임 내에서의 상호작용을 강화하는 방향이고, 두 번째는 블루 아카이브의 개발에 도움을 줄 수 있는, 콘텐츠 개발 프로세스를 보조할 수 있는 방향으로 연구 중입니다. 차후 머신러닝을 이용해 등장할 블루 아카이브의 다양한 콘텐츠들을 기대해 주세요!



A.I. 비서 ‘코타나’나 ‘빅스비’, ‘시리’와 같은 TTS보다 좀 더 복잡한 기믹을 지닌 A.I.가 늘어나는 추세입니다. 이런 A.I. 비서들처럼 아로나 또한 비서로 개발되어 나올 가능성이 있을까요?

권민섭 엔지니어: 아로나가 그 정도까지 구현되려면 엄청나게 많은 연구가 필요하기에 오랜 시간이 걸리겠지만, 개인적으로 지향하는 연구의 최종 목표이므로 언젠가는 기대해 보셔도 좋을 듯합니다!

▲ 그러고보니 MS에선 '헤일로 시리즈'에서 등장하는 코타나를 A.I.로 만들기도 했죠.



터미네이터 시리즈에서 나오는 ‘스카이넷’이나 어벤져스 2의 빌런인 ‘울트론’. 가끔 유머로 사람들이 이들이 지배하는 세상이 나올 수 있다고들 하는데, 혹시 엔지니어님은 이를 어떻게 생각하고 있나요?

권민섭 엔지니어: 인공지능 쪽 일을 하다 보면 많이 듣는 이야기입니다.(웃음) 다른 인공지능 엔지니어분들은 어떻게 생각하시는지 모르겠지만, 저도 인공지능에 모든 것을 맡기는 행위는 위험하다고 생각합니다. 아직은 인공지능이 모든 것을 처리하고 지배하는 것이 아닌, 사람의 ‘조력자’ 또는 유용한 도구로써 활용되는 것이 제일 좋은 방향이라고 생각합니다.



그러고 보니 좀 된 이야기지만 딥러닝 한 A.I. 알파고와 이세돌의 대결이 꽤 유명했죠. 그 뒤로 알파고는 좀 더 버전업 되어 많은 바둑 기사를 물리치고 은퇴하게 되었습니다. 이 알파고의 등장 이후로 바둑판의 분위기가 상당히 많이 달라졌는데요. 게임에서도 이러한 변화가 올 것으로 생각하는지 궁금합니다.

권민섭 엔지니어: 머신러닝은 게임뿐만 아니라 여러 분야에서도 많은 변화를 가져오고 있습니다. 지금은 아직 많지 않지만, 게임 분야에서도 머신러닝을 이용한 연구가 더 활발해지면서 큰 변화가 올 것으로 생각합니다.

▲ 인간이 역겹다는 울트론 선생님
(출처: 네이버 영화 '어벤져스: 에이지 오브 울트론' 페이지)



인터넷에서는 괄약근조이기운동 선생님과 같은 웃긴 닉네임의 발음이 화제였는데요. 엔지니어님은 이런 닉네임들 중에서 제일 인상 깊었던 닉네임이 있었을까요? 그리고 유저분들의 반응을 어떻게 보셨는지도 궁금합니다.

권민섭 엔지니어: 많은 유저분이 아로나의 TTS 시스템을 이용해 주시고 반응도 남겨 주신 부분도 재밌게 봤습니다. 특히, 말씀해 주신 닉네임은 라이브로 직접 봐서 그런지 가장 기억에 남네요.(웃음) 아로나의 음성으로 여러 재밌는 닉네임들을 읽어주신 덕분에 여러 유저분들이 TTS 기능을 큰 문제 없이 즐겁게 이용해 주시고 계시다는 것을 알게 되어 다행이었고, 한편으로는 매우 기뻤습니다!



많은 유저분들이 자신의 ‘담당 학생’이 이름을 불러주지 못하는 부분을 보고 아쉬워했습니다. 현실적으로 넘어야 할 벽이 많아 보이긴 하지만, 나중에는 담당 학생들이 선생님의 이름을 불러주는 것을 기대해 볼 수 있을까요?

권민섭 엔지니어: 학생들이 선생님의 이름을 불러주는 것은 현재 기술적으로는 가능하지만, 사업적, 기획적으로 풀어야 하는 과제들이 많아 아직 실장 하지 못하고 있습니다. 그쪽 문제가 풀린다면 개인적으로도 꼭 실장 해보고 싶네요!



마지막으로 아로나의 TTS 기능을 응원해 주신 유저 여러분에게 한 말씀 부탁드립니다.

권민섭 엔지니어: 아직 부족한 부분이 많았음에도 불구하고 좋은 반응을 보내주신 유저분들께 정말 감사드립니다. 앞으로도 다양한 연구개발을 통해 유저분들이 블루 아카이브의 학생들과 더 많은 추억을 남기실 수 있도록 열심히 하겠습니다!

▲ 후우카가 선생님 이름을 불러준다고요? 못 참는데 이건!