|
2026-01-26 14:14
조회: 94
추천: 0
구글, 오픈AI, 그리고 앤스로픽이 어떤 AI가 포켓몬 게임을 가장 잘 플레이할 수 있는지 경쟁 중기사 원문 - https://www.tomshardware.com/tech-industry/artificial-intelligence/google-openai-and-anthropic-are-competing-to-see-whose-ai-can-play-pokemon-the-best-twitch-streams-of-beloved-rpg-game-test-the-models-true-might
![]() 인공지능의 지능과 역량을 측정하는 수많은 벤치마크 와 테스트가 존재하지만, 다소 생소한 한 가지 벤치마크가 인공지능 업계에서 화제를 모으고 있습니다. 월스트리트저널의 보도에 따르면, 구글 , 오픈AI, 앤스로픽과 같은 기업들이 인공지능 모델의 성능 평가를 위해 고전 게임인 포켓몬스터를 플레이하게 하고 있다고 합니다 . 앤스로픽 AI의 대표 데이비드 허시는 "포켓몬이 재미있고 머신러닝 커뮤니티의 관심을 사로잡은 이유는 퐁이나 다른 기존 게임들에 비해 제약이 훨씬 적기 때문입니다. 컴퓨터 프로그램이 해결하기에는 상당히 어려운 문제입니다."라고 말했다. ![]() 모든 것은 작년에 Anthropic의 최첨단 LLM인 Claude가 Hershey에 의해 " Claude Plays Pokémon"이라는 제목의 트위치 스트림에 등장하면서 시작되었습니다. David는 Anthropic의 응용 AI 리더로, 고객이 AI를 배포할 수 있도록 지원하는 역할을 맡고 있으므로, 이는 모델을 테스트하는 또 다른 방법일 뿐입니다. Claude의 게임 플레이는 프리랜서 개발자들에게 영감을 주어 " Gemini Plays Pokémon "이나 " GPT Plays Pokémon "과 같은 유사한 스트림을 시작하게 했습니다 . 이 프로젝트들은 구글과 오픈AI로부터 공식적인 인정을 받았으며, 해당 연구소들이 직접 모델을 수정하는 경우도 있었습니다. 이러한 노력 덕분에 제미니와 GPT는 이미 포켓몬스터 블루를 클리어했고, 후속작으로 넘어갔지만, 클로드의 어떤 버전도 아직 클리어에 성공하지 못했습니다. 최신 오푸스 4.5 모델은 현재 스트리밍 방송을 통해 이 도전에 나서고 있습니다. 데이비드는 포켓몬을 이용해 AI 모델을 테스트하는 것이 매우 유익하다고 말하며, "모델의 성능을 정량적으로 평가할 수 있는 좋은 방법을 제공해 주기 때문"이라고 설명했습니다. 게임에서는 레벨을 올리고, 기존 포켓몬을 훈련시키고, 체육관 관장을 이겨 새로운 포켓몬을 포획해야 합니다. 이는 단순한 선형적 진행 방식이 아니라 판단력이 요구되는 과정입니다. 플레이어는 종종 강력한 트레이너와 싸워 포켓몬을 빼앗는 위험을 감수할지, 아니면 이미 가지고 있는 포켓몬의 능력을 갈고닦을지 선택해야 합니다. 인간은 이런 결정을 내리는 데 탁월하며, 이는 게임의 재미 중 하나이지만, 인공지능에게는 논리적 추론, 위험 평가, 장기적인 사고 능력을 시험하는 과제이며, 이는 전반적인 진행 상황에 영향을 미칩니다. 따라서 모델이 게임을 어떻게 진행하는지는 연구자들이 모델을 더 잘 이해하는 데 도움이 됩니다. ![]() 데이비드는 자신의 연구 결과를 고객과 공유하고, 특정 작업을 목표로 하는 AI 기반의 "하네스"를 개선함으로써 이러한 목표를 달성합니다. 하네스는 기본적으로 모델을 제어하고, 특정 작업 요구 사항에 맞춰 모델의 리소스를 보다 효율적으로 활용할 수 있도록 지원하는 소프트웨어 프레임워크를 의미합니다. 데이비드는 포켓몬 스트리밍 방송에서 얻은 지식을 활용하여 컴퓨팅 효율성을 개선하고자 하는 실제 고객에게 도움을 주고 있습니다. 빅테크 기업들이 인공 일반 지능(AGI) 달성이라는 목표를 향해 나아감에 따라, 추론은 단순한 답변에서 장기적이고 연속적인 발전으로 전환될 것이며, 포켓몬과 같은 게임은 이러한 변화에 완벽하게 부합합니다. 게임을 완료하려면 포켓몬 리그에서 우승해야 하는데, 이는 AI의 전략적 계획과 자원 관리 능력을 시험하는 여러 단계를 연속적으로 거쳐야 합니다. 또한, 이러한 방식은 성능을 주관적인 평가가 아닌 쉽게 정량화할 수 있도록 해줍니다. 이전에 우리는 인공지능 역량을 시험하는 또 다른 실험을 다룬 적이 있습니다. 여러 모델에게 지뢰찾기 게임의 복제본을 만들도록 요청한 실험 이었죠. 당시 OpenAI의 Codex가 우승을 차지했고, Google의 Gemini는 플레이 가능한 게임조차 만들어내지 못했습니다. 그 실험은 훨씬 쉬운 과제였으니, 레트로 RPG처럼 복잡한 게임을 만드는 것은 평가 기준이 상당히 높아진 것이라고 할 수 있습니다.
EXP
97,864
(17%)
/ 102,001
|



Bector