|
2022-05-19 19:20
조회: 522
추천: 0
[PC하드웨어] 18,432 FP32 코어 및 24GB GDDR6X 메모리를 탑재한 NVIDIA RTX 4090/4090 Ti, 2.8GHz에서 100 TFLOPs TP 제공기사 원문 - https://www.hardwaretimes.com/nvidia-rtx-4090-4090-ti-with-18432-fp32-cores-and-24gb-gddr6x-memory-to-offer-100-tflops-tp-at-2-8ghz-report/
![]() NVIDIA의 AD102 "Lovelace" GPU 다이의 사양이 마침내 확인되었습니다. 완전히 활성화된 코어 에는 AMD Navi 31의 12,288개 셰이더보다 상당히 증가한 18,432개의 FP32 코어 가 포함됩니다. 요전에 보고된 바와 같이 RTX 4090은 부분적으로 융합된 몇 개의 GPC와 함께 제공되어 유효 코어 수를 16,128로 줄입니다. NVIDIA가 4090 Ti를 출시할 계획이라면 그 거대 기업은 전체 지방 AD102 코어와 18,432개의 셰이더를 활용할 것입니다. ![]() Kopite7kimi에 따르면 AD102 다이는 2.8GHz에서 실행되는 코어로 100TFLOPs 단정밀도 성능 마크 를 터치할 수 있습니다 . 그가 아직 확신하지 못하는 것은 SM 구조다. NVIDIA는 매 세대마다 SM(Compute Unit)을 약간 재구성하는 습관이 있습니다. 이번에는 대략 8년 전의 Maxwell과 마찬가지로 철저하게 재정비될 수 있습니다. ![]() Maxwell SM과 Lovelace의 가능한 SM 디자인에 대해 얼마 전에 공유한 내용을 요약하겠습니다. ![]() Maxwell을 사용하면 워프 스케줄러와 SM/클록당 결과 스레드가 4배 증가하여 코어당 성능이 135% 향상되었습니다. NVIDIA는 라이벌 AMD의 Radeon 제품을 완전히 압도한 뛰어난 성능과 전력 효율성으로 알려진 또 다른 Maxwell을 끌어들이고 싶어하는 것 같습니다. ![]() 즉, SM당 전체 코어 수는 변경되지 않고(128) 각 클러스터에 액세스할 수 있는 리소스가 크게 증가합니다. 가장 주목할만한 점은 동시 스레드 수가 128개에서 256개로 두 배가 된다는 것 입니다. 이것이 얼마나 많은 성능 향상으로 이어질지 말하기는 어렵지만 우리는 확실히 큰 이득을 보게 될 것입니다. 불행히도 이 레이아웃은 값비싼 다이 공간을 많이 차지합니다. NVIDIA는 이미 많은 비용을 지불하고 구입하고 있습니다(TSMC N4). 따라서 Jensen의 팀이 실제로 이를 해냈는지 아니면 향후 디자인을 위해 보류했는지 말하기는 어렵습니다. ![]() ![]() 또한 Team Green이 이미 Hopper와 함께 도입 된 결합된 SM 디자인 을 사용하기로 결정할 가능성도 있습니다. 호퍼 백서를 놓친 경우를 위해 스레드 블록 클러스터 및 분산 공유 메모리(DSM) 에 대한 간단한 입문서가 있습니다. 100개 이상의 SM이 있는 GPU에서 스케줄링을 보다 효율적으로 만들기 위해 Hopper와 Lovelace는 GPC의 모든 두 스레드 블록을 클러스터로 그룹화합니다. 스레드 블록 클러스터의 주요 목표는 멀티스레딩 및 SM 활용을 개선하는 것입니다. 이러한 클러스터는 GPC의 SM에서 동시에 실행됩니다. ![]() 클러스터의 두 스레드 블록 간의 SM-to-SM 네트워크 덕분에 데이터를 효율적으로 공유할 수 있습니다. 이것은 코어/ALU 수를 50% 이상 늘릴 때 핵심 요구 사항인 Hopper 및 Lovelace의 확장성을 촉진하는 주요 기능 중 하나가 될 것입니다. ![]() ![]() 이것은 NVIDIA가 확장을 방해하거나 일부 셰이더를 충분히 활용하지 않고 코어 수를 (거의) 두 배로 늘릴 수 있는 두 가지 잠재적인 방법입니다. 물론 Jensen의 팀이 완전히 새롭고 예상치 못한 것을 생각해 낼 가능성은 항상 있습니다.
EXP
164,853
(19%)
/ 185,001
|










Kiido