크래프톤이 인조이의 NPC를 단순한 스크립트 기반 반응을 넘어서는, 진정으로 살아있는 듯한 캐릭터로 만드는 데 초점을 맞춘 기술적 여정을 엔비디아 후원으로 미국 GDC(게임 개발자 컨퍼런스)에서 20일 소개했다. 인조이는 2025년 3월 28일 얼리 액세스 버전으로 출시될 예정이다.

▲ 크래프톤 딥러닝 본부 Core Research Team 조제웅 팀장

강연을 맡은 크래프톤 조제웅 팀장은 inZOI의 궁극적인 목표를 “플레이어가 꿈꾸던 삶을 몰입감 있게 경험할 수 있도록 하는 것”이라고 밝혔다. 이를 위해 게임은 실감 나는 그래픽, 폭넓은 캐릭터 커스터마이징, 그리고 스마트 조이(Smart Joy)라는 AI 기반 캐릭터 행동 시스템 등 세 가지 핵심 요소에 집중했다.

스마트 조이는 기존 인생 시뮬레이션 게임을 완전히 재정의하는, 인조이의 중심 기술이다. 조제웅 팀장은 "스마트 조이가 단순히 전통적인 엔진의 기능을 모방하는 데 그치지 않고, 언어 모델의 힘을 활용해 새로운 가능성을 열었다"고 강조했다. 스마트 조이는 캐릭터가 일정을 기반으로 결정을 내리고, 주변 환경에 따라 행동하며, 심지어 규범적인 콘텐츠 없이 자유롭게 일기를 쓰는 등의 기능을 제공한다.

조 팀장은 스마트 조이 개발의 첫 번째 질문으로 “왜 언어 모델 기반 에이전트가 필요한가?”를 제시하며, 기존 접근법의 한계를 설명했다. 전통적인 캐릭터 행동 모델링은 주로 유틸리티 AI를 사용했다. 유틸리티 AI는 게임 상태에 따라 가능한 행동에 점수를 부여하고, 가장 높은 점수를 받은 행동을 선택하는 방식으로 작동한다. 예를 들어, 캐릭터의 필요(Needs) 상태를 숫자 스케일(-100에서 100)로 정의해 배고픔, 위생, 수면 등 8가지 필요를 관리하고, 각 행동이 이러한 필요에 미치는 영향을 점수화한다. 배고프면 먹는 행동의 점수가 높아지고, 이를 기반으로 행동이 선택된다.


하지만 이 방식은 단순한 우선순위 결정에는 효과적이지만, 복잡한 맥락이나 과거 경험을 반영하기 어렵다. 그는 “캐릭터가 오후 5시 50분에 배고프고, 6시에 약혼자와의 저녁 예약이 있다면, 기본 유틸리티 AI는 즉시 먹는 행동을 선택할 것이다. 하지만 이는 10분 뒤의 저녁 식사를 고려하지 않아 비현실적인 결과를 초래한다”고 예를 들었다.

이를 해결하려면 규칙을 추가할 수 있지만, 모든 상황에 맞는 규칙을 수작업으로 설계하는 것은 확장성과 유지보수 측면에서 비효율적이다.

반면, 현대 생성 모델인 대형 언어 모델(LLM)은 다양한 데이터셋에서 학습해 인간의 행동과 의사소통 방식을 이해한다. 조 개발자는 “대형 언어 모델은 맥락을 이해하고 합리적인 응답을 생성할 수 있다”며, 앞선 예시에서 모델이 “저녁이 10분 남았으니 지금 먹지 않겠다”는 인간다운 답변을 생성한 사례를 소개했다.

스탠퍼드 대학의 연구(Generative Agents: Interactive Simulacra of Human Behavior)를 인용하며, 그는 언어 모델 기반 에이전트가 작은 샌드박스 환경에서 25명의 에이전트를 시뮬레이션하며 자연스러운 사회적 행동을 보여줬다고 덧붙였다. 이는 Smart Joy의 기반 철학이 되었다.

스마트 조이를 구축하는 과정에서 크래프톤은 규모 확장성, 실시간 결정 속도, 서버 비용 문제, 그리고 안정적인 시스템 설계 등 네 가지 기술적 도전에 직면했다.




기존 연구 목적의 에이전트 시스템은 소규모 환경에 치중해 inZOI와 같은 대규모 오픈월드에 적용하기 어려웠고, 특히 5배속 게임플레이를 지원하려면 빠른 응답이 필수였다.

이를 해결하기 위해 크래프톤은 확장 가능하고 상용화에 적합한 새로운 에이전트 시스템을 처음부터 설계했다. 이어 서버 비용을 없애기 위해 소형 언어 모델을 사용자 디바이스에서 실행하도록 했다. 조 팀장은 “우리는 스마트 조이를 통해 캐릭터가 행동을 선택하고, 내면의 생각을 생성하며, 하루를 마무리하며 일기를 쓰고, 다음 날 계획을 세우는 모든 과정을 구현했다”고 강조했다.

스마트 조이는 네 가지 주요 에이전트로 구성된다.
행동 선택 에이전트(Action Selection Agent): 캐릭터가 가능한 행동(객체와의 상호작용, 다른 캐릭터와의 상호작용, 자기 주도 행동) 중 하나를 선택한다. 응답 속도를 높이기 위해 행동 목록을 객체 선택과 행동 선택 두 단계로 나누고, 단일 토큰(예: 행동 인덱스)을 출력하도록 최적화했다.
추론 생성기(Reasoning Generator): 행동에 따른 캐릭터의 내면 생각을 생성하며, 캐릭터의 성격에 맞춘 문체를 반영한다.
일일 반성 에이전트(Daily Reflection Agent): 밤 11시 이후 잠을 선택하면 하루를 반성하며 일기를 쓴다.
일일 계획 에이전트(Daily Planning Agent): 반성 내용을 바탕으로 다음 날 계획을 수립한다.

이 모든 작업은 5억 개 파라미터 규모의 소형 언어 모델 ‘Minitron 0.5B’에서 실행된다. 조 팀장은 “사용자 디바이스에서 모델을 실행하기 위해 프롬프트에 캐릭터 정보와 작업 지시를 조정하며 단일 모델로 모든 추론을 처리한다”고 밝혔다.

개발은 에이전트 '시스템 설계' 확장 가능하고 안정적인 시스템 구축, '모델 검증 및 튜닝' 대형 모델에서는 잘 작동했으나 소형 모델은 성능이 떨어져, 대형 모델 데이터를 활용해 소형 모델을 파인튜닝, '최적화 및 통합' 게임 내에서 효율적으로 작동하도록 최적화 등 세 단계로 진행됐다.



스마트 조이의 핵심 기능 중 하나는 조이 펜(Joy Pen)이다. 플레이어는 자연어를 통해 캐릭터의 행동, 생각, 관계를 커스터마이징할 수 있다. 예를 들어, “당신은 아내를 매우 사랑한다”는 프롬프트를 입력하면 캐릭터가 이에 맞춰 행동하고 내면 생각을 생성한다. 반대로 “아내를 매우 싫어한다”고 설정하면 전혀 다른 행동과 생각이 나온다. 조 팀장은 “조이 펜을 통해 캐릭터의 이야기가 동적으로 진화하며, 모든 경험이 독특해진다”고 소개했다.

스마트 조이의 성능은 기능성, 맥락적 행동 반영 등 세 가지 기준으로 평가되었다. 대형 언어 모델(Grok, GPT-4 등)은 높은 일관성과 맥락 이해를 보였으나, 소형 모델(Minitron)은 초기에는 성능이 낮았다. 이를 개선하기 위해 크래프톤은 대형 모델의 데이터를 활용해 Minitron을 파인튜닝했고, 상세 지시를 줄여도 비슷한 출력을 생성하도록 훈련시켰다. 그 결과, 처리량이 30% 향상되며 실시간 성능이 강화되었다.

▲ 크래프톤 inZOI 강연은 글로벌 게임사 개발자들의 많은 관심을 받았다

강연이 끝난 뒤 질의응답 때 나온 '소형 언어 모델에서 메모리가 도입되는 경우의 도전 과제' 질문에 엔비디아 측은 "실시간 확장성을 위해 출력 토큰을 최소화하는 것이 중요하다"며 "이상적으로 단일 토큰 출력이 가장 효율적이다"라고 전했다.

인조이의 권장 하드웨어 사양이 높아 진입 장벽이 될 수 있다는 의견에 대해 엔비디아 측은 "현재 RTX 3060 이상이면 충분히 실행 가능하며, 초기 출시를 위해 안정적인 성능을 우선시했다. 그래픽 품질을 낮추면 이전 세대 PC에서도 실행 가능할 수 있다. 요구 사양은 초기 설정일 뿐, 최적화를 계속할 계획이다"라고 답했다.

스마트 조이의 개성 보장 노하우에 대해 조 팀장은 "소형 모델은 개성이 약화될 수 있지만, 다양한 대형 모델로 데이터를 생성해 이를 보완했다. 다양한 데이터셋을 수집하고 튜닝해 개성을 강화하려 노력했다"고 답했다.

엔비디아 측은 향후 과제로 "미래에는 에이전트 간 상호작용을 고려할 계획, 한 에이전트의 행동을 다른 에이전트의 프롬프트에 추가해 협력을 구현할 수 있다"며 "이는 아직 테스트 중인 아이디어"라고 전했다.