| 📒 | - 앤트로픽, 클로드 오퍼스 4.8 출시... 4.7 공개 42일 만 - 벤치마크보다 '정직함' 강조, 코드 결함 방치 확률 4배 감소 - 터미널-벤치선 4.7대비 8.5%p 향상...여전히 GPT-5.5가 높아 |

오퍼스4.8은 앤트로픽의 새 모델 중 가장 빠른 갱신 주기로 출시됐다. 이러한 출시 속도에 확실한 도약 모델보다는 업데이트에 가까운 모습으로 설명됐다. 앤트로픽은 오퍼스4.8을 일반에 공개된 모델 중 가장 강력한 모델로 소개하면서도, '사용자들이 이전 버전 대비 적당하지만 분명한 개선임을 알게 될 것'이라고 표현하기도 했다. 실제로 API 역시 곧바로 쓸 수 있으며, 가격 역시 4.7 버전과 동일하게 적용된다.
앤트로픽이 가장 강조한 지점은 벤치마크 점수가 아니라 모델의 정직함(honesty)이다. 예컨대 뒷받침할 수 없는 주장을 피하고, 근거가 빈약한데도 작업이 진척됐다고 자신만만하게 단정하는 경향을 줄였다는 것이다. 앤트로픽은 자신이 작성한 코드의 결함을 짚지 않고 그냥 넘어갈 확률이 4.7 대비 약 4배 낮아졌다고 밝혔다.
성능 면에서는 코딩 영역의 상승 폭이 두드러진다. 오퍼스4.8은 까다롭기로 알려진 코딩 벤치마크 'SWE-bench Pro'에서 69.2%를 기록해 4.7의 64.3%를 넘어섰고, 같은 시험에서 58.6%의 GPT-5.5와 54.2%의 제미나이 3.1 프로를 모두 앞섰다.
단, 터미널 환경 코딩을 측정하는 'Terminal-Bench 2.1'에서는 GPT-5.5가 78.2%로 66.1%의 오퍼스4.7은 물론 74.6%의 오퍼스4.8을 앞서고 있다. 코덱스(Codex) CLI 하니스를 통한 GPT-5.5 자체 측정은 83.4%였다.
대부분의 벤치마크에서 GPT-5.5를 앞선 오퍼스지만, 터미널 영역만큼은 4.7에 이어 4.8에서도 우위를 가져오지 못했다는 점은 적지 않은 의미를 가진다. 셸/CLI의 터미널 환경은 코딩 에이전트를 돌리는, 실무 영역에서 가장 자주 맞닥뜨리는 영역이다. 특히 오픈AI가 코덱스로 CLI 코딩 도구 시장을 적극 공략하며 클로드 코드와 정면 경쟁을 펼치고 있다. 터미널 벤치는 시장에서 가장 중요한 전장의 성적표가 되는 셈이다.
그럼에도 앤트로픽이 오퍼스4.8의 벤치 수준을 4.7 대비 8.5%p나 끌어올린 건, 터미널 환경에서도 우위를 점하겠다는 의지를 보여준다. 오픈AI가 코덱스를 앞세워 선전하는 가운데, 앤트로픽이 클로드 코드로 개발자들의 선택을 붙들 수 있을지는 좀 더 지켜볼 일이다.
한편 오퍼스보다 한층 더 높은 지능을 갖춘 새로운 모델을 출시할 계획도 밝혔다. 이미 소수 기관이 사이버보안 용도로 미토스 프리뷰를 활용하고 있는 가운데, 안전장치 개발을 통해 수 주 내 미토스급 모델을 일반에도 공개할 계획이라고도 덧붙였다.
