기사 원문 - https://www.amd.com/en/blogs/2026/amd-advances-ai-networking-at-scale-with-mrc.html
 

ChatGPT와 같은 세계에서 가장 까다로운 AI 모델을 구동하려면 무엇이 필요할까요?

가장 기본적인 차원에서, 세계에서 가장 까다로운 AI 모델은 엄청난 수의 GPU 컴퓨팅 자원이 동기화되어 작동해야 합니다. AI 시스템의 규모가 커짐에 따라, 이러한 컴퓨팅 자원을 효율적으로 통합하는 것은 네트워크 연결에 점점 더 의존하게 됩니다. 수십만 대의 GPU는 지속적으로 동기화 상태를 유지하고, 데이터를 교환하며, 불가피한 장애 발생 시 신속하게 복구해야 합니다. 

이 정도 규모에서는 네트워크가 활용 가능한 컴퓨팅 용량을 직접적으로 결정합니다.

오늘 AMD는 OpenAI 와 협력하여마이크로 소프트와 다른 업계 선두 기업들은 자사가 오픈 컴퓨트 프로젝트( OCP )에 멀티패스 신뢰성 연결(MRC) 기술을 제공한다고 발표했습니다.이를 통해 새로운 네트워크 프로토콜을 더 넓은 생태계에서 사용할 수 있게 됩니다. AI 시대에 이더넷을 발전시키는 데 기여해 온 개방형 생태계의 오랜 주역인 AMD는 AI 네트워킹을 고객이 AI 인프라를 구축할 수 있도록 개방적이고 프로그래밍 가능하며 바로 사용 가능한 기반으로 전환하는 데 도움을 주고 있습니다.

AMD와 업계 전반에 걸쳐 MRC는 최첨단 슈퍼컴퓨터를 위한 새로운 네트워킹 프로토콜 그 이상의 의미를 지닙니다. 이는 보다 개방적이고 프로그래밍 가능하며 탄력적인 AI 인프라 기반을 구축하는 중요한 발걸음입니다. 고객들이 클라우드, 기업, 연구 및 국가 차원의 AI 환경 전반에 걸쳐 대규모 AI 클러스터를 구축함에 따라, 업계는 이상적인 조건에서 빠를 뿐만 아니라 실제 배포 환경에서 일관되고 적응력이 뛰어나며 운영적으로 실용적인 네트워크를 필요로 합니다.

MRC: 대규모 AI 네트워킹을 위해 구축됨

MRC는 기존의 단일 경로 네트워킹 모델이 어려움을 겪는 대규모 AI 학습 환경을 위해 특별히 설계되었습니다   . 이러한 워크로드는 지속적이고 고속의 통신을 필요로 하며, 짧은 중단조차도 전체 시스템 진행에 영향을 미칠 수 있습니다.

MRC는 트래픽을 단일 경로로 전송하는 대신 여러 경로에 동시에 패킷을 분산합니다.これにより 혼잡 지점을 줄이고 동기화 학습을 지연시킬 수 있는 지연 시간 변동을 최소화합니다. 불가피하게 장애가 발생하더라도 MRC는 신속하게 적응하여 거의 실시간으로 트래픽을 재라우팅하므로 기존 네트워크 복구와 관련된 지연을 방지합니다.

실질적으로 MRC는 네트워크를 AI 인프라의 충격 흡수 장치로 만들어 줍니다. 모든 이벤트가 네트워크 중단으로 이어지도록 하는 대신, MRC는 네트워크가 로컬에서 신속하게 적응할 수 있도록 하여 워크로드가 지속적으로 진행될 수 있도록 합니다. 이는 AI 규모의 성능이 최대 대역폭만으로 결정되는 것이 아니라 실제 환경에서 얼마나 많은 유용한 가속기 용량이 생산성을 유지하는지에 따라 결정되기 때문에 중요합니다.

AMD의 기여: 개발부터 배포까지

AMD는 오늘날 MRC의 작동 방식을 형성하는 데 중요한 역할을 했습니다. AMD는 MRC 사양 의 공동 작성에 참여했습니다.이는 차세대 AI 네트워킹을 정의하고 실제 환경에서 성능을 향상시키기 위한 고급 혼잡 제어 기술을 제공하는 데 기여했습니다.

더욱 중요한 것은 이것이 이론적인 것이 아니라는 점입니다. AMD는 선도적인 클라우드 제공업체와 협력하여 테스트 클러스터에 AMD 네트워킹 기술과 결합된 MRC를 대규모로 구현 및 배포했습니다. 이러한 검증을 통해 해당 설계는 지속적인 AI 워크로드 환경에서 네트워크가 실제로 어떻게 작동하는지를 반영한다는 것을 알 수 있습니다.

"GPU와 CPU가 컴퓨팅 성능을 주도하는 가운데, AI 확장의 진정한 병목 현상은 네트워크입니다. AMD는 OpenAI 및 Microsoft와 함께 MRC를 발표하며 업계에 중요한 진전을 가져왔습니다. AMD의 프로그래밍 기능을 통해 이러한 혁신을 실제 환경에서 대규모 성능으로 신속하게 구현할 수 있으며, 이론적인 최대 대역폭보다 일관되고 안정적인 처리량이 더욱 중요해집니다."
 - 크리슈나 도다파네니, AMD NTSG 엔지니어링 부문 수석 부사장

AMD는 하드웨어와 소프트웨어 프로그래밍 기능을 완벽하게 결합하고 검증된 구축 사례를 보유한 몇 안 되는 네트워킹 솔루션 중 하나로서, 프로그래밍 기능을 핵심 차별화 요소로 삼고 있습니다. 이를 통해 워크로드 변화에 따라 네트워크를 유연하게 조정할 수 있습니다. MRC 사양 개발 이전에 AMD는 개선된 RoCEv2 전송 프로토콜의 사전 표준 구현을 보유했으며, 이것이 오늘날의 MRC 표준으로 발전했습니다. 이는 AMD Pensando™ Pollara 400 AI NIC의 개방형 프로그래밍 기능 덕분이었으며, 이러한 프로그래밍 기능은 초기 검증을 확보하는 데 유연성을 제공했습니다. AMD는 400G NIC에 MRC를 구현한 최초이자 몇 안 되는 기업 중 하나로서, MRC 전송 프로토콜을 지원하는 AMD Pensando “Vulcano” 800G AI NIC로의 원활한 전환을 가속화할 수 있습니다.

명확한 사양, 기여된 기술, 그리고 테스트 구현의 조합을 통해 AMD는 실제 AI 인프라에 MRC를 배포하는 데 있어 선두 주자로 자리매김하게 되었습니다.

AI 인프라 성능의 재정의

대규모 AI 환경에서 성능은 최대 대역폭이 아니라 실제 조건에서 시스템이 어떻게 동작하는지에 따라 결정됩니다. 일관된 처리량, 효과적인 혼잡 처리, 빠른 장애 복구, GPU 동기화 및 생산성 유지 등이 대규모 AI 네트워킹을 구현하는 데 최적의 조건입니다. MRC는 모델 효율성을 향상시키고 대규모 GPU 클러스터 전반에 걸친 대규모 AI 학습을 연결하는 네트워킹 프로토콜의 신뢰성을 높이는 데 도움을 줍니다.

AMD는 OpenAI, Broadcom, Intel, Microsoft와 협력하여 MRC를 정의, 개발 및 기여함으로써 AI 네트워킹을 개념 단계에서 실용적인 생산 준비 인프라 단계로 발전시키고 있습니다.