게이밍 CPU 최초의 12코어와 16코어 발표에 이어, 경쟁사인 인텔의 대응 모델에 비해 약점으로 지적받아온 게임 성능까지 따라잡으면서 AMD 부활의 또 다른 전환점으로 기록될 3세대 라이젠의 출시가 7월 7일로 확정되었다.

불도저로 암흑기를 지내던 AMD가 2017년 라이젠 시리즈로 화려한 부활의 신호탄을 쏘아 올렸다면, 이번 3세대 라이젠은 절치부심해온 AMD의 3세대 라이젠이 발표되면서 PC에 관심 좀 갖는 사용자라면 3세대 라이젠의 유혹을 뿌리치기 쉽지 않을 것이다.

이번 기사에서는 PC 이용자들의 관심을 한 몸에 받고 있는 3세대 라이젠은 어떤 제품인지, 지난 컴퓨텍스와 E3에 이어 공개된 자료들을 모아 정리했다.

 

3세대 라이젠의 최대 특징, 최고 16코어와 경쟁사에 버급가는 게임 성능

AMD는 3세대 라이젠에 대해 조금 다른 부분을 내세우고 있지만, 소비자 입장에서는 역시 성능을 빼놓고 말할 수 없다. 특히 AMD 팬보이 조차도 인정할 수 밖에 없는 경쟁사 대비 불리했던 게임 성능 개선이 가장 먼저 눈에 들어온다.

AMD 역시 컴퓨텍스와 E3서 이 점을 빼놓지 않고 이야기하고 있다.

 

1세대에서는 그래픽 카드의 영향력이 절대적인 4K 게이밍을, 2세대에서는 상대적으로 CPU의 영향력이 높지만 GPU의 영향력이 더 큰 QHD와 비교적 CPU 영향력이 큰 Full HD를 함께 이야기한 것과 달리, 3세대에서는 Full HD 게이밍 경험을 이야기했다.

비슷한 가격대의 코어 i9-9900K와 라이젠 9 3900X, 코어 i7-9700K와 라이젠 7 3800X, 코어 i5-9600K와 라이젠 5 3600X 모두 충분히 경쟁할만한 Full HD 게임 경험을 제공한다는 점을 내세우고 있다.

또한, 같은 가격 대 제품 비교에서 더 많은 코어와 스레드 구성으로 컨텐츠 제작에서 더욱 뛰어난 성능을 제공하는 동시에 개선된 공정과 아키텍처 설계로 전력 효율을 제공한다는 점을 강조하고 있다.

 

3세대 라이젠은 게이밍 CPU 최초의 16코어 모델인 라이젠 9 3950X도 발표했지만 해당 제품의 성능 정보는 공개하지 않았으니 게임 성능은 평가하기 어려워도, 코어와 스레드가 늘어난 만큼 최소한 게이밍 CPU 중 독보적인 멀티스레드 성능을 발휘할 것으로 예상된다.

아쉽지만 라이젠 9 3950X의 성능 확인은 9월로 미뤄졌다.

 

IPC 개선 위해 튜닝에 집중된 Zen2 아키텍처

1세대와 2세대의 약점으로 지적받던 게임 성능 개선에 자신감을 드러낸 AMD의 3세대 라이젠. 우리는 이미 핵심 변화를 알고 있다. 두 배로 늘어난 L3 캐시와 15% 향상된 IPC, TSMC 7nm 공정을 바탕으로 끌어올린 소비전력 대 성능비. 단순 소비자라면 이정도만으로도 충분하겠지만, 어떤 식으로 바뀌었는지 보다 근본적인 이유를 알고 싶어하는 사람들을 위해 AMD에서 공개한 추가 정보를 정리했다. 

AMD 라이젠은 4개의 CPU 코어와 L3 캐시가 결합된 CCX라는 최소 단위 모듈을 올리고, 이들 모듈을 인피니티 패브릭(Infinity Fabric, IF)이라는 인터커넥트로 연결한다. 때문에 각 CCX간 통신, 3세대에서는 별도로 빠진 I/O 모듈까지 통신하는 과정에서 신호 지연을 피할 수 없다.

아직 정확한 메모리 지원 스펙은 공개되지 않았지만 메인보드 제조사를 통해 유출된 정보에 따르면 지원 메모리 클럭이 DDR4 2933MHz에서 DDR4 3200MHz로 높아진 것도, 메모리 클럭과 비례해 동작하는 IF 성능 개선으로 이어진다.

 

아키텍처 정보가 완전히 공개되지 않은만큼 아직 확인 가능한 내용은 제한적이지만, 3세대 라이젠의 Zen2 아키텍처는 근본적으로 Zen 아키텍처에서 구조적인 변화 대신 효율을 높이는데 집중했다.

새롭게 TAGE(Tagged Geometry) 분기 예측기를 도입하고 명령어 프리페칭(pre-fetching) 개선, 동시에 더 많은 명령어 접근 및 처리할 수 있도록 L1 Inst 캐시를 기존 64K 4way 구조에서 32K 8way 구조로 변경해 최적화하고, 마이크로 옵 캐시 용량은 두 배로 늘렸다.

또한 L1 BTB 및 L2 BTB (Branch Target Buffer) 엔트리를 각각 256/ 4K에서 512/ 7K로 대폭 확대하는 한편 ITA(Indirect Tartget Array)도 1K 이상으로 키웠다.

 

여기에 사이클당 2로드 1 스토어 동작의 로드/스토어 대역폭은 클럭당 16B에서 32B로 두 배 확대하고, 리네임 공간 레지스터는 168에서 180으로, 엔트리 큐는 44에서 48로 확대했다.

또한 정수 연산과 관련해서는 AGU를 2개에서 3개로 확대하고, 정수 스케쥴러와 엔트리 물리 레지스터, 엔트리 ROB 등 기능을 확대했다. 부동 소수점 유닛은 로드스토어 대역폭을 128bit에서 256bit로 두 배 늘리고, mul 레이턴시도 4 사이클에서 3사이클로 줄이는 한편, 정수 연산 실행시 경쟁이 줄어들도록 최적화했다.

이같은 구조 개선을 통해 SMT 효율 및 멀티 스레드 집약적인 작업에서 성능 개선을 기대할 수 있게 되었다.

 

XFR과 PBO의 결합? PBO 자동 오버클럭

한편, AMD는 이번 3세대 라이젠의 특징 중 하나라 1세대 라이젠의 프리시전 부스트와 이를 개선한 2세대의 프리시전 부스트 2에 이어 프리시전 부스트 오버드라이브 자동 오버클럭을 이야기하고 있다.

프리시전 부스트는 인텔의 터보 부스트에 대응하는 기술로, 어플리케이션의 코어 활용에 따라 각 코어의 클럭을 조절해주는 자동 오버클럭 기술의 일종이다. 1세대에서는 1코어(2스레드)에서만 동작하던 것을 2세대에서는 전체 코어 활용도에 따라 유연하게 동작하게 했으며, 여기에 시스템 상황에 맞춰 추가로 성능을 높이는 XFR2, XFR2의 봉인을 해제해주는 PBO(프리시전 부스트 오버드라이브)가 추가되었다.

 

AMD가 밝힌 XFR 클럭은 PB 클럭 기준 1세대 라이젠 기준 non-X 모델에서 50MHz, X 모델에서 100MHz, 라이젠 5 1500X에 한해 200MHz 추가로 높여주었다. 하지만 2세대에서는 XFR 클럭을 공개하지 않고 단순히 최대 부스트 클럭만 공개한 후, XFR의 한계 이상으로 높일 수 있는 PBO 기술을 발표한 바 있다.

이번 3세대 라이젠에서는 XFR에 대해 언급하지 않고 프리시전 부스트 오버드라이브 자동 오버클러킹을 이야기하고 있다. 구체적인 내용은 확인할 수 없었지만, 기술 개념상 기존 XFR2 개념을 PBO와 통합해 PBO 자동 오버클럭으로 치환한 것으로 추정된다.

AMD가 PBO 자동 오버클럭을 위해 프리미엄 메인보드가 필요하다는 단서를 달고 있는 점이 추정을 뒷받침하는데, 새로운 기술로 소개한 만큼 좀 더 미세한 조절이 가능할 것으로 기대된다.

 

전력은 반으로, 성능은 25% 향상에 기여한 7nm 공정과 캐시 효율 개선

Zen2 아키텍처와 직접적인 연관은 없지만, 라이젠 CPU 생산을 위한 7nm 공정 역시 라이젠의 성능과 효율 개선에 한 몫하고 있다.

12nm 공정과 비교해 밀도는 두 배, 절반의 소비전력으로도 동일 성능을 발휘할 수 있으며, 소비전력이 같다면 25% 이상 더 나은 성능을 발휘할 수 있도록 해준다.

시네벤치 기준으로 2세대 라이젠과 비교해 3세대 라이젠의 성능이 21% 증가했는데, 이 중 IPC 개선에 의한 성능 향상이 60% 라면 7nm 공정 도입에 따른 향상폭이 40%에 달할 정도로, 7nm 공정으로의 전환은 AMD 3세대 라이젠의 성능 개선에 매우 큰 영향력을 발휘한다.

 

L3 캐시 증가에 따른 시스템 메모리 레이턴시 효율 감소에 대응하기 위해 프리패치(prefetching) 알고리즘 수정과 동시에 효율 향상을 위한 새로운 캐시 명령어를 추가했다.

추가된 명령어는 CPU 코어와 캐시, 시스템 메모리의 모니터링 및 제어를 위한 것으로, 이같은 캐시 구조 변경을 통해 실효 메모리 레이턴시를 33ns 수준으로 억제하고 게임에서 최대 21%성능 향상을 끌어냈음을 알렸다.

 

고속 메모리 지원에 따른 IF와 2:1 동기화 모드 추가 지원

AMD는 캐시 뿐 아니라 약점으로 지적받은 시스템 메모리 지원을 위해 Zen2에서의 메모리 컨트롤러도 새롭게 디자인했다.

구체적인 내용은 아직 공개되지 않았지만 공랭으로 DDR4 5100MHz 오버클럭이 가능함을 천명했다. 단지, 개선된 시스템 메모리 지원을 위해서는 X570 칩셋 메인보드의 최적화된 트레이스 라우팅이 필요하다고 전했다.

시스템 메모리 지원이 강화되면서 이와 연동된 IF 클럭의 고속 동작으로 인한 이슈를 방지하기 위해 DRAM 클럭과 IF 클럭을 기존처럼 1:1 대응하는 것과 2:1로 대응하는 옵션이 추가되었다.

 

이에 따르면 시스템 메모리 클럭 DDR4 3733MHz까지는 IF 클럭이 1:1로 동작하고, 그 이상의 클럭에서는 IF 클럭이 DDR4 클럭의 절반으로 동작한다. 즉, DDR4 3000MHz를 사용 시 IF 클럭은 DDR4의 실제 클럭인 1500MHz로 동작하지만, DDR4 4000MHz 메모리를 쓸 때 IF 클럭은 실제 DDR4 클럭인 2000MHz의 절반인 1000MHz이 되는 식이다.

단지, DRAM과 IF 클럭이 2:1로 동작할 때는 1:1 모드일 때보다 레이턴시가 늘어지기 때문에 필요에 따라 적절한 선택이 필요하며, AMD는 가격대 성능비를 감안했을 때 1:1 모드에서 동작하는 DDR4-3600MHz CL16 메모리 설정을 권장한다.

AMD의 메모리 권장 사양과는 별개로, 3세대 라이젠의 공식 지원 메모리 클럭은 그에 미치지 못하는 DDR4 3200MHz이다.

 

이처럼 캐시 효율 개선 및 시스템 메모리 지원 강화를 통해 상당한 성능 향상을 기대할 수 있는데, AMD의 자료에 따르면 메모리 클럭을 DDR4 2666MHz에서 DDR4 3600MHz로 높였을 때는 최대 10%의 게임 성능 향상이 가능하다는 점을 강조했다.

또한, 캐시 구조 변경에 따른 성능 영향은 언급하지 않았지만 L3 캐시를 두 배로 늘린 덕에 최대 21% 게임 성능 향상이 가능하다며, 3세대 라이젠의 Zen2 아키텍처에서 바뀐 캐시 시스템을 '게임캐시'로 명명했다.

 


한편, 3세대 라이젠은 CPU 코어 모듈인 CCX와 메모리 컨트롤러와 I/O 기능이 별도로 분리된 만큼 각 컴포넌트를 연결하는 인터커넥트 기술인 인피니티 패브릭(IF)의 중요성 역시 높아졌는데, 이에 대응해 IF에도 개선이 가해졌다.

대표적으로 PCIe 4.0에 대응하도록 버스폭이 256bit에서 512bit로 넓어졌고, 최대 16코어로 확대된만큼 대량 작업시 DRAM 레이턴시 개선, 케시간 고속 전송, 고속 메모리 오버클럭 대응이 이뤄졌고, 비트당 소비전력 역시 개선이 이뤄졌다.

 

윈도우 10 1903 업데이트, 스케쥴러 조정으로 추가 성능 향상


아키텍처와는 별개의 이야기지만, AMD 라이젠은 CCX 구조 탓에 운영체제의 스케쥴러 역할이 중요하다. 전체 코어를 하나의 CPU로 보고 작업을 분배하면 다른 CCX에 있는 코어와의 레이턴시가 커지는 부작용을 피할 수 없다.

윈도우 10 1903 업데이트에서는 AMD 라이젠의 CCX 구조에 대응해 동일 CCX내의 CPU 코어에 작업이 우선 할당되도록 스케쥴러를 업데이트했으며, 클럭 셀렉션과 램핑 성능도 대폭 개선했다.

AMD에 따르면 윈도우 10 1903 버전의 스케쥴러 업데이트를 통해 최대 15% 성능 향상을 기대할 수 있으며, 3세대 라이젠 뿐 아니라 1세대와 2세대 라이젠 사용자도 효과를 볼 수 있다.

 

강화된 X570 플랫폼, PCIe 4.0과 최대 12개의 SATA 포트 및 8개의 USB 3.1 포트

알려진 것과 같이 3세대 라이젠은 AMD에서 직접 설계한 것으로 알려진 X570 칩셋을 쓴 메인보드와 함께 사용할 때 플랫폼의 잠재력을 최대화할 수 있다.

현재 알려진 내용에 따르면 X570 칩셋에서 구현 가능한 SATA 6Gbps 포트는 최대 12개로 X470의 8개보다 4개 늘어났다. 메인보드 제조사에서 커스텀할 수 있는 PCIe Lane은 2.0 8Lane에서 4.0 16Lane으로, Lane 개수만 고려하면 두 배 늘어난데 그쳤지만 실제 대역폭을 감안하면 8배 강화된 것이다.

현재 확인된 3세대 라이젠 플랫폼의 I/O 기능을 1/ 2세대 라이젠과 표로 정리했다.

 


CPU측면에서는 1/2세대에서는 주로 NVMe M.2 SSD 구현에 쓰이던 PCIe x4Lane에 더해 추가로 PCIe x4Lane이 더해졌으며, 메인보드 칩셋에서도 제조사에서 커스텀할 수 있는 I/O 파트가 두 개로 확장 되었다.

또한 전체 USB 포트 갯수는 14(USB 3.1 2ea + USB 3.0 6ea + USB 2.0 6ea)에서 12(USB 3.1 8ea + USB 2.0 4ea)로 줄었지만, 스펙을 감안하면 활용성이 더욱 강화된 것을 알 수 있다.

CPU의 I/O 역시 업데이트 되었는데, USB 포트와 SATA 포트 지원 갯수는 동일하지만 USB 버전이 3.0에서 3.1로 업데이트되어 플랫폼 전반적으로 빠른 응답성을 기대할 수 있게 되었다.