-
NVIDIA, Rubin을 통해
차세대 AI 시대를 열다루빈 플랫폼은 AI 팩토리에서 특정 역할을 수행하도록 설계된 6개의 새로운 칩으로 구성되어 있으며, 처음부터 통합된 랙 규모 시스템의 일부로 작동하도록 설계되었습니다. 컴퓨팅, 네트워킹 및 인프라를 느슨하게 연결된 계층으로 취급하는 대신, 루빈은 이러한 요소들을 아키텍처에 직접 통합합니다. 이를 통해 통신, 조정, 보안 및 효율성을 최우선 설계 고려 사항으로 보장합니다.
-
대규모 가속 시스템을 위해 설계된
NVIDIA Vera CPUNVIDIA Vera CPU는 에이전트 추론, 데이터 이동, 메모리 및 워크플로우를 가속화된 시스템 전반에 걸쳐 조정하는 데 특화되어 설계되었습니다. NVIDIA Vera는 AI 시스템을 위한 NVIDIA GPU와 완벽하게 호환되며, 독립적으로 작동하여 분석, 클라우드, 시스템 오케스트레이션, 스토리지 및 고성능 컴퓨팅 (HPC) 워크로드를 처리할 수 있습니다.
-
수조 개 매개변수 모델의 테스트 시간 추론 속도를 향상시키세요
NVLink 스위치를 사용하면 노드 간 NVLink 연결을 확장하여 끊김 없는 고대역폭 멀티노드 GPU 클러스터를 구축할 수 있으며, 이를 통해 데이터 센터 규모의 GPU 환경을 효과적으로 구현할 수 있습니다. NVIDIA NVLink 스위치는 하나의 NVIDIA Vera Rubin NVL72 GPU에서 최대 260TB/s의 GPU 대역폭을 제공하여 대규모 모델 병렬 처리를 지원합니다.
-
출시 예정
NVIDIA Vera Rubin NVL72 엔비디아 코리아 정품
NVIDIA Vera Rubin NVL72는 72개의 NVIDIA Rubin GPU, 36개의 NVIDIA Vera CPU, NVIDIA ConnectX®-9 SuperNIC 및 NVIDIA BlueField®-4 DPU를 통합합니다. 6세대 NVLink 및 NVLink 스위치를 통해 랙 규모 플랫폼에서 인텔리전스를 확장하고, NVIDIA Quantum-X800 InfiniBand 및 NVIDIA Spectrum-X™ 이더넷을 통해 확장하여 AI 산업 혁명을 대규모로 구현합니다.
-
출시 예정
NVIDIA DGX Vera Rubin NVL72 엔비디아 코리아 정품
NVIDIA DGX Vera Rubin NVL72는 NVIDIA Rubin 플랫폼을 기반으로 구축된, 기업에 즉시 배포 가능한 AI 인프라 솔루션을 제공하며, 가장 복잡한 AI 모델을 가속화하기 위해 대규모 배포에 최적화되어 있습니다.
NVIDIA Vera Rubin NVL72 Specifications
| NVIDIA Vera Rubin NVL72 | NVIDIA Vera Rubin Superchip | NVIDIA Rubin GPU | |
|---|---|---|---|
| Configuration | 72 NVIDIA Rubin GPUs | 36 NVIDIA Vera CPUs | 2 NVIDIA Rubin GPUs | 1 NVIDIA Vera CPU | 1 NVIDIA Rubin GPU |
| NVFP4 Inference | 3,600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| NVFP4 Training2 | 2,520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| FP8/FP6 Training2 | 1,260 PFLOPS | 35 PFLOPS | 17.5 PFLOPS |
| INT82 | 18 POPS | 0.5 POPS | 0.25 POPS |
| FP16/BF162 | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF322 | 144 PFLOPS | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9,360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2,400 TFLOPS | 67 TFLOPS | 33 TFLOPS |
| FP32 SGEMM3 | 28,800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM3 | 14,400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| GPU Memory | Bandwidth | 20.7 TB HBM4 | 1,580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| NVLink Bandwidth | 260 TB/s | 7.2 TB/s | 3.6 TB/s |
| NVLink-C2C Bandwidth | 65 TB/s | 1.8 TB/s | - |
| CPU Core Count | 3,168 custom NVIDIA Olympus cores (Arm® compatible) | 88 custom NVIDIA Olympus cores (Arm compatible) | - |
| CPU Memory | 54 TB LPDDR5X | 1.5 TB LPDDR5X | - |
| Total NVIDIA + HBM4 Chips | 1,296 | 30 | 12 |
- 1. 예비 사항입니다. 모든 값은 변경될 수 있습니다.
- 2. 상세 사양입니다.
- 3. Tensor Core 기반 에뮬레이션 알고리즘을 사용한 최고 성능입니다.
NVIDIA Rubin Platform
에이전트형 AI 및 추론 모델과 최첨단 비디오 생성 워크로드는 컴퓨팅의 한계를 재정의하고 있습니다. 다단계 문제 해결에는 모델이 긴 토큰 시퀀스에 걸쳐 처리, 추론 및 조치를 취해야 합니다. 복잡한 AI 워크로드의 요구 사항을 충족하도록 설계된 Rubin 플랫폼의 혁신적인 기술은 다음과 같습니다.
확장 가능한 인텔리전스
NVIDIA Rubin GPU
NVIDIA Vera는 GPU 가속 AI 팩토리에서의 역할 외에도 하이퍼스케일 클라우드, 분석, HPC, 스토리지 및 엔터프라이즈 워크로드를 위한 독립형 CPU 컴퓨팅 플랫폼으로도 작동합니다. 고성능 코어, 단일 컴퓨팅 다이 설계와 균일한 메모리 액세스를 갖춘 빠른 온칩 패브릭, 그리고 예측 가능한 처리량을 제공하여 분기형, 데이터 집약적 및 실시간 워크로드에 최적화되어 강력한 성능, 높은 대역폭 및 에너지 효율성을 제공합니다.
NVIDIA Vera CPU
NVIDIA Vera CPU는 데이터 이동 및 가속 시스템 전반에 걸친 에이전트 추론을 위해 설계되었으며, 완벽한 기밀 컴퓨팅을 지원합니다. NVIDIA GPU와 원활하게 연동되거나 독립적으로 작동하여 분석, 클라우드, 오케스트레이션, 스토리지 및 고성능 컴퓨팅 (HPC) 워크로드를 처리할 수 있습니다. Vera는 NVIDIA가 설계한 88개의 코어, 최대 1.2TB/s의 LPDDR5X 메모리 대역폭, 그리고 NVIDIA 확장형 일관성 패브릭(Scalable Coherency Fabric)을 결합하여 데이터 및 메모리 집약적인 워크로드에 대해 예측 가능하고 에너지 효율적인 성능을 제공하며, Arm® 아키텍처와 완벽하게 호환됩니다. 통합된 NVLink-C2C 연결은 고대역폭의 일관된 CPU-GPU 메모리 액세스를 지원하여 시스템 활용도와 효율성을 극대화합니다.
Transformer 엔진
Rubin Platform은 하드웨어 가속 적응형 압축 기능을 갖춘 새로운 Transformer 엔진을 탑재하여 정확도를 유지하면서 NVFP4 성능을 향상시키고, 최대 50petaFLOPS의 NVFP4 추론 성능을 제공합니다. NVIDIA Blackwell과 완벽하게 호환되는 Transformer 엔진은 원활한 업그레이드를 보장하므로 기존에 최적화된 코드를 Rubin Platform으로 손쉽게 이전할 수 있습니다.
3세대 기밀 컴퓨팅
NVIDIA Confidential Computing의 3세대 제품은 NVIDIA Vera Rubin NVL72를 통해 랙 전체 규모로 보안을 확장합니다. 이 플랫폼은 36개의 NVIDIA Vera CPU, 72개의 NVIDIA Rubin GPU, 그리고 이들을 원활하게 연결하는 NVIDIA NVLink™ 패브릭에 걸쳐 통합된 신뢰할 수 있는 실행 환경을 구축합니다. CPU, GPU, NVLink 도메인 전반에 걸쳐 데이터 보안을 유지하며, 암호화 규정 준수 증명을 위한 인증 서비스를 제공합니다. 이를 통해 대규모 확장성과 타협 없는 보안을 결합하여 세계 최대 규모의 독점 모델, 학습 데이터, 추론 워크로드를 안전하게 보호합니다.
6세대 NVLink 및 NVLink Switch
6세대 NVLink는 NVIDIA의 고속 GPU 인터커넥트 패브릭에 획기적인 도약을 가져왔습니다. 72개의 NVIDIA Rubin GPU를 단일 성능 도메인으로 통합하는 이 기술은 NVIDIA Blackwell의 성능을 두 배로 향상시켜 GPU당 초당 3.6테라바이트(TB/s)의 대역폭과 260TB/s의 연결 속도를 제공하며, 낮은 지연 시간으로 더욱 빠른 통신을 지원합니다. 또한, 집단 연산 시 네트워크 혼잡을 최대 50%까지 줄여주는 NVIDIA® Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)™ 기술과 결합하여, 차세대 인터커넥트는 세계 최대 규모의 모델에 대한 학습 및 추론 속도를 향상시키고, 성능 저하 없이 원활하게 작동하도록 합니다.
2세대 신뢰성, 가용성 및 서비스 용이성(RAS) 엔진
NVIDIA Rubin Platform은 고급 안정성 기능을 통해 랙 규모의 복원력을 제공합니다. NVIDIA Rubin GPU는 가동 중지 시간 없이 사전 예방적 유지 관리 및 실시간 상태 점검을 위한 전용 2세대 RAS 엔진을 탑재했으며, NVIDIA Vera CPU는 SOCAMM LPDDR5X 메모리와 CPU 코어용 시스템 내 테스트 기능을 통해 향상된 서비스 편의성을 제공합니다. 이 랙은 모듈식 무선 트레이 설계를 도입하여 NVIDIA Blackwell 대비 18배 빠른 조립 및 서비스 편의성을 제공하며, 지능형 복원력과 소프트웨어 정의 NVLink 라우팅을 통해 지속적인 운영을 보장하고 유지 관리 부담을 줄입니다.
에이전트 추론을 위한 데이터 이동 엔진
NVIDIA Vera CPU
NVIDIA Vera CPU는 에이전트 추론, 데이터 이동, 메모리 및 워크플로우를 가속화된 시스템 전반에 걸쳐 조정하는 데 특화되어 설계되었습니다. NVIDIA Vera는 AI 시스템을 위한 NVIDIA GPU와 완벽하게 호환되며, 독립적으로 작동하여 분석, 클라우드, 시스템 오케스트레이션, 스토리지 및 고성능 컴퓨팅 (HPC) 워크로드를 처리할 수 있습니다. 고성능, 에너지 효율적인 코어, 대용량 저전력 메모리 대역폭 및 예측 가능한 지연 시간을 통해 NVIDIA Vera는 GPU를 최대한 활용하면서 이전 세대보다 2배 향상된 성능과 업계 최고 수준의 에너지 효율성을 제공합니다.
NVIDIA가 설계한 공간 멀티스레딩 기능을 갖춘 올림푸스 코어
88개의 올림푸스 코어를 탑재한 NVIDIA Vera CPU는 업계 최고 수준의 에너지 효율성과 Armv9.2와의 완벽한 호환성을 제공하며, 이전 세대 대비 2배 향상된 성능을 자랑합니다. 또한 FP8 정밀도를 지원하는 최초의 CPU입니다. 각 코어는 NVIDIA 공간 멀티스레딩(Spatial Multithreading)을 지원합니다. 이 새로운 유형의 멀티스레딩은 코어 리소스를 시간 분할 방식이 아닌 물리적으로 분할하여 총 176개의 스레드를 실행할 수 있도록 하며, 런타임 시 성능 또는 밀도 최적화를 가능하게 합니다.
에너지 효율이 뛰어난, 대역폭과 용량이 향상된 메모리 서브시스템
NVIDIA Vera CPU는 최대 1.2TB/s의 메모리 대역폭을 제공하면서 50와트 미만의 메모리 전력을 소비하여 이전 세대 대비 2배 이상의 대역폭을 제공합니다. 이러한 성능은 AI 에이전트 파이프라인, 데이터 준비, KV 캐시 관리, 메모리 집약적인 HPC 시뮬레이션과 같은 메모리 제약형 워크로드에 매우 중요합니다. NVIDIA Vera는 최대 1.5TB의 LPDDR5X 메모리를 지원하며, 이는 이전 세대 대비 3배 증가한 용량으로 차세대 데이터 센터에 획기적인 효율성을 제공합니다.
2세대 NVIDIA SCF로 성능 극대화
최신 CPU 워크로드는 빠르고 효율적인 데이터 이동을 요구합니다. NVIDIA SCF 2세대 기술은 3.4TB/s의 이분 대역폭을 제공하는 온칩 메시 구조로, 통합 캐시를 통해 88개의 모든 코어를 단일 컴퓨팅 다이에 통합하여 컴퓨팅 및 메모리 리소스에 대한 균일하고 높은 대역폭 액세스를 제공합니다. 컴퓨팅 기능을 긴밀하게 통합하고 칩렛 간 통신을 방지함으로써, 이 설계는 확장성에도 불구하고 균일한 대역폭과 예측 가능한 성능을 유지합니다.
2세대 NVIDIA NVLink-C2C를 통한 끊김 없는 데이터 공유
NVIDIA NVLink-C2C는 1.8TB/s의 일관성 있는 대역폭을 제공하여 프로세서 간의 원활한 데이터 공유를 가능하게 합니다. NVIDIA Rubin GPU와 함께 사용하면 통합 메모리 시스템을 구성하여 CPU와 GPU가 복잡한 AI 및 HPC 워크로드, 대규모 데이터 세트, KV 캐시 오프로드 작업을 함께 수행할 수 있도록 지원하는 동시에 민감한 데이터와 코드를 위한 안전한 하드웨어 기반 격리를 제공합니다. 또한 NVLink-C2C는 듀얼 소켓 NVIDIA Vera CPU 시스템에서 데이터 전송 병목 현상을 줄이고 최적화를 간소화합니다.
트랜스포머 시대 AI를 위한 실행 엔진
NVIDIA Rubin GPU
Vera CPU가 오케스트레이션 및 데이터 이동의 기반을 제공하는 가운데, Rubin GPU는 랙 규모의 기능을 지능으로 구현하는 실행 엔진 역할을 합니다. 이는 상시 가동되는 AI 환경에서 지속적인 학습, 학습 후 처리 및 추론을 위해 설계되었습니다. 추론, 전문가 혼합(MoE), 장기 컨텍스트 추론, 강화 학습을 포함한 최신 AI 워크로드는 단순히 최대 부동 소수점 연산(FLOPS) 성능에만 국한되지 않습니다. 컴퓨팅, 메모리, 통신 전반에 걸쳐 실행 효율성을 유지할 수 있는지 여부가 중요한 제약 조건입니다. Rubin GPU는 이러한 현실을 고려하여 설계되었으며, 전력, 대역폭, 메모리를 효율적으로 활용하여 전체 실행 경로를 최적화합니다.
이러한 조건에서 처리량을 유지하기 위해 Rubin GPU는 컴퓨팅 밀도, 메모리 대역폭 및 랙 규모 통신이라는 세 가지 밀접하게 연관된 측면에서 아키텍처를 발전시켰습니다.
지속적인 컴퓨팅 및 실행 확장
Rubin은 디바이스 전체에 걸쳐 사전 학습, 사후 학습 및 추론 과정에서 지속적인 처리량을 비약적으로 향상시킵니다. 확장 대역폭을 늘리고, 집단 효율성을 개선하며, 통신 집약적인 실행 환경에서도 높은 활용률을 유지함으로써 Rubin은 대규모 학습을 위한 실질적인 성능 한계를 높이는 동시에 사후 학습 및 추론 워크플로우에서 상당한 성능 향상을 제공합니다. Rubin은 컴퓨팅 기능, Transformer Engine 지원 및 실행 균형을 함께 확장하여 실제 처리량을 제한하는 사용률 급변 현상을 방지합니다. 아래의 표는 블랙웰 이후 핵심 컴퓨팅 특성이 어떻게 발전해왔는지 보여줍니다.
| Feature | NVIDIA Blackwell | NVIDIA Rubin |
|---|---|---|
| Transistors (칩 전체) | 208B | 336B |
| Compute dies | 2 | 2 |
| NVFP4 inference (PFLOPS) | 10 | 50* |
| NVFP4 training (PFLOPS) | 10 | 35 |
| Softmax acceleration (SFU EX2 Ops/Clk/SM forFP32 | FP16) |
16 | 32 | 64 |
- NVIDIA GPU 컴퓨팅 성능 비교 *Transformer Engine compute
인공지능과 과학 컴퓨팅의 융합
오늘날 많은 슈퍼컴퓨팅 환경에서 시뮬레이션은 단일 결과를 도출하는 고효율 연산 작업, 즉 엔드포인트로 취급됩니다. 하지만 최근에는 고정밀 시뮬레이션이 데이터셋 생성 엔진으로도 활용되어, 기존 솔버를 보완하는 AI 모델 학습 데이터를 생성하는 데 사용되고 있습니다. 이러한 AI 모델은 지능형 전처리기로 작용하거나, 수렴 속도를 높이거나, 반복적인 워크플로우에서 빠른 대체 모델 역할을 할 수 있습니다. AI 대체 모델은 때때로 정확도가 다소 떨어지지만 상당한 속도 향상을 제공할 수 있으며, 따라서 정답 데이터 설정 및 최종 검증에는 기존 시뮬레이션이 여전히 필수적입니다. 결과적으로 AI와 과학 컴퓨팅 모두에서 강력한 성능을 요구하는 수렴형 워크로드 프로파일이 나타나고 있습니다. 아래 표는 NVIDIA Hopper, Blackwell 및 Rubin GPU의 FP32 및 FP64 연산 능력을 비교합니다.
| Feature | Hoper GPU | Blackwell GPU | Rubin GPU |
|---|---|---|---|
| FP32 vector (TFLOPS) | 67 | 80 | 130 |
| FP32 matrix (TFLOPS) | 67 | 227* | 400* |
| FP64 vector (TFLOPS) | 34 | 40 | 33 |
| FP62 matrix (TFLOPS) | 67 | 150* | 200* |
- NVIDIA GPU의 FP32 및 FP64 연산 능력 *Tensor Core 기반 emulation algorithm을 사용한 최고 성능
NVIDIA NVLink 및 NVLink 스위치
최신 AI 모델에서 최고의 성능을 구현하려면 서버 랙 전체에 걸쳐 끊김 없는 고처리량 GPU 간 통신이 필수적입니다. 낮은 지연 시간, 막대한 네트워크 대역폭, 그리고 모든 장치 간 연결성을 갖춘 6세대 NVIDIA NVLink™ 및 NVLink 스위치는 더욱 빠른 추론 및 에이전트 기반 AI 워크로드를 위해 학습 및 추론 속도를 향상시키도록 설계되었습니다.
NVIDIA NVLink로 시스템 처리량과
가동 시간을 극대화하세요
6세대 NVLink는 NVIDIA Rubin 플랫폼 에서 GPU당 3.6TB/s의 대역폭을 제공합니다. 이는 이전 세대보다 2배, PCIe Gen6보다 14배 이상 높은 대역폭입니다. NVIDIA Vera Rubin NVL72 와 같은 랙 규모 아키텍처는 72개의 GPU를 올투올 토폴로지로 연결하여 총 260TB/s의 대역폭을 제공함으로써, 주요 혼합형 전문가 모델 아키텍처의 학습 및 추론에 필요한 올투올 통신을 위한 막대한 대역폭을 제공합니다. NVLink 6 스위치는 또한 제어 평면 복원력, 랙이 부분적으로 채워진 상태에서도 작동 가능, 스위치 트레이 핫 스와핑 등 시스템 가동 시간을 극대화하도록 설계된 새로운 관리 및 복원력 기능을 도입했습니다.
NVIDIA NVLink 및 NVLink Switch를 사용하여
GPU를 완벽하게 연결하세요
NVLink는 3.6TB/s의 양방향 GPU 직접 연결 기술로, 서버 내에서 다중 GPU 입출력(IO)을 확장할 수 있도록 지원합니다. NVIDIA NVLink 스위치 칩은 여러 NVLink를 연결하여 랙 전체에서 모든 GPU가 NVLink의 최대 속도로 통신할 수 있도록 합니다. 고속의 집단 작업을 지원하기 위해 각 NVLink 스위치에는 네트워크 내 감소 및 멀티캐스트 가속을 위한 NVIDIA 확장형 계층적 집계 및 감소 프로토콜(SHARP)™ 엔진이 탑재되어 있습니다.
NVLink 스위치를 사용하면 노드 간 NVLink 연결을 확장하여 끊김 없는 고대역폭 멀티노드 GPU 클러스터를 구축할 수 있으며, 이를 통해 데이터 센터 규모의 GPU 환경을 효과적으로 구현할 수 있습니다.
Enterprise AI 데이터 센터를 위한 리소스
-
자세히 보기NVIDIA DGX™ Platform
NVIDIA DGX™ Platform은 NVIDIA의 소프트웨어, 인프라 및 전문 지식을 결합하여 클라우드와 온프레미스 환경을 아우르는 현대적이고 통합된 AI Platform을 제공합니다.
-
자세히 보기NVIDIA AI Enterprise
NVIDIA AI Enterprise는 신뢰할 수 있고 안전하며 확장 가능한 AI 운영을 보장하는 동시에 출시 시간을 가속화하고 인프라 비용을 절감할 수 있습니다.
-
자세히 보기NVIDIA DGX 고객을 위한 DLI
리더스시스템즈는 NVIDIA DLI 교육 파트너로서 AI, 가속 컴퓨팅, 가속 데이터 사이언스 분야에서 AI 워크로드를 지원하기 위한 실습 교육을 제공합니다.