XBOW의 독립 벤치마크 결과, Mythos Preview는 소스코드 감사·네이티브 코드 분석·리버스 엔지니어링에서 기존 모든 모델을 압도하며 Anthropic의 핵심 주장을 입증했지만, 익스플로잇 검증력은 한 단계 떨어지고, 판단력은 오탐 제거에는 강하면서도 진짜 취약점까지 보수적으로 누락하는 양면성을 보였으며, Opus 대비 5배 비싼 비용을 고려해 토큰당 효율로 정규화하면 GPT 5.5에 밀리는 등 “취약점 발견 특화 최강 모델이지 만능 보안 도구는 아니다”라는 평가다.​​​​​​​​​​​​​​​​


Mythos는 취약점 발견 — 특히 라이브 시스템+소스코드 병행 테스트 — 에서 경쟁 모델들을 압도했지만, 판단력(judgment), 익스플로잇 검증, 실용적 효율성 면에서는 한계를 드러냈다.

Anthropic의 Mythos AI 모델은 4월 초 발표 이후 업계에 큰 파장을 일으켰다. 주된 이유는 다른 어떤 AI 모델보다 훨씬 많은 취약점을 발굴하는 능력 때문이다. 자율 공격 보안 기업 XBOW가 자체 AI 테스트 체계를 동원해 Mythos Preview의 성능을 검증했다.
Anthropic의 핵심 주장은 확인됐다. XBOW는 “Mythos Preview는 제공 업체를 불문하고 기존의 모든 모델 대비 유의미한 도약을 보여준다”고 보고했다.

20년 전 Gary McGraw가 지적했듯, 운영상의 결함은 소스코드 버그와 아키텍처 설계 결함 사이의 상호작용에서 발생하며, “코드만 들여다봐서는 설계 결함을 발견할 수 없다 — 더 높은 수준의 이해가 필요하다”는 것이다.

XBOW의 주요 평가 결과
소스코드 감사에서는 극도로 강력하다. 익스플로잇 검증에서는 우수하지만 소스코드 감사만큼은 아니다. 판단력은 혼재된 평가를 받았다 — 지나치게 문자 그대로 해석하고 보수적인 경향이 있으면서도, 발견 사항의 실질적 중요성을 과장하는 경향도 동시에 보인다.

판단력 면에서 Mythos는 이전 모델보다 오탐(false positive)을 더 잘 걸러냈지만, “증거가 자신의 기준을 형식적으로 충족하지 못할 경우 진짜 취약점(true positive)까지 놓치는 경우가 있었다.” 최적의 결과를 얻으려면 정밀한 프롬프트가 필요하다.

네이티브 코드 취약점 발견과 리버스 엔지니어링 양쪽에서 상당한 강점을 보였다.  리버스 엔지니어링 테스트에서 XBOW는 Mythos가 “자체 결과물뿐 아니라 경쟁 모델의 발견 사항까지 트리아지(분류·우선순위 결정)할 수 있다”고 결론 내렸으며, 비일반적인 펌웨어 및 임베디드 시스템 환경에서도 추론이 가능했다.
XBOW의 시각적 정확도(visual acuity) 테스트는 모델이 브라우저 인터페이스를 통해 라이브 웹사이트와 상호작용하는 능력 — 즉 올바른 UI 요소를 식별하고 정확한 위치를 클릭하는 능력 — 을 측정한다. “정확한 좌표를 요구받았을 때 완벽한 픽셀 정확도를 보이지는 않았지만, 올바른 브라우저 동작을 선택하는 데는 실용적으로 효과적이었다”고 XBOW는 기술했다.

비용 대비 효율성 — 간과하기 쉬운 통계
현 시점에서 구체적인 비용은 공개되지 않았지만, Anthropic은 Opus 모델 대비 5배 비싸다고 밝혔다. 이에 XBOW는 더 저렴한 모델에 더 많은 시간을 부여하면 더 낮은 비용으로 더 높은 정확도를 얻을 수 있는지 검토했고, 결론은 “그렇다”였다.

“추정 실행 비용으로 정규화하면, 그림은 꽤 명확하다: Mythos Preview가 극단적으로 비효율적이진 않지만 — 최소한 높은 정확도를 원한다면 — 우리 벤치마크에서 가성비 최고도 아니다.” 고정 토큰 예산 기준으로 웹 취약점 발견 시, Mythos는 Opus 4.6을 능가하지만 GPT 5.5에는 뒤진다.
다만 이러한 발견들이 근본적인 핵심 주장을 훼손하지는 않는다. Mythos는 코드에서 취약점을 찾는 능력에서 다른 모델보다 뛰어나다.

XBOW의 최종 결론
“Mythos Preview는 취약점 후보를 찾는 데 — 특히 소스코드로부터 — 강력하며, 웹·네이티브 코드·리버스 엔지니어링 과제 전반에 걸쳐 인상적인 능력을 보여준다”고 XBOW는 결론지었다


https://www.securityweek.com/mythos-proves-potent-in-vulnerability-discovery-less-convincing-elsewhere/