AI & Datacenter

NVIDIA® 데이터센터 GPU를 사용하여 높은 사양을 요구하는 HPC와 하이퍼스케일 데이터센터 워크로드를 가속화하십시오. 데이터 사이언티스트와 연구원은 이제 에너지 탐사에서 딥 러닝에 이르는 다양한 응용 분야에서 기존의 CPU가 지원했던 수준보다 훨씬 더 빠르게 페타바이트급 데이터 주문을 파싱할 수 있습니다. NVIDIA의 가속기는 이전보다 훨씬 빠른 속도로 더욱 큰 규모의 시뮬레이션을 실행하는 데 필요한 성능도 제공합니다.

데이터시트 다운
LEADERS SYSTEMS | NVIDIA

The Heart of the Modern Data Center

AI 및 HPC로 세계에서 가장 중요한 과학, 산업 및 비즈니스 과제를 해결합니다. 복잡한 콘텐츠를 시각화하여 최첨단 제품을 만들고, 몰입형 스토리
를 전달하고, 미래의 도시를 새롭게 상상합니다. 대규모 데이터세트에서 새로운 인사이트를 추출합니다. 탄력적인 컴퓨팅의 시대에 설계된 NVIDIA
Ampere 아키텍처는 모든 규모에서 비교할 수 없는 가속화를 제공하여 이 모든 문제를 해결하고자 합니다.

이미지
이미지

NVIDIA 데이터센터 플랫폼을 통한
데이터센터 워크로드 가속화

트레이닝
점점 더 복잡해지는 모델을 더욱 빠르게 트레이닝하는 것은 데이터 사이언티스트의 생산성을 향상하고 AI 서비스를 보다 빠르게 제공하는 데 매우 중요합니다. NVIDIA® GPU를 탑재한 서버는 가속 컴퓨팅 성능 덕택에 딥 러닝 트레이닝 시간을 몇 개월에서 몇 시간 또는 몇 분으로 단축할 수 있습니다.
추론
추론은 트레이닝을 마친 신경망이 실질적으로 역할을 수행하는 영역입니다. 이미지, 음성, 비주얼 및 동영상 검색과 같은 새로운 데이터 요소가 등장함에 따라 추론은 수많은 AI 서비스의 중심에서 그에 대한 대답과 추천을 제공합니다. 단 한 장의 NVIDIA GPU를 장착한 서버가 싱글 소켓 CPU로만 구성된 서버보다 27배 높은 추론 처리량을 제공하여 비용을 대폭 절감할 수 있습니다.
워크스테이션 딥 러닝 솔루션
딥 러닝 워크스테이션 솔루션을 통해 기존 작업 공간에서 편리하게 AI 슈퍼컴퓨팅 성능을 활용하고 NGC(NVIDIA GPU Cloud)에서 필요한 모든 딥 러닝 소프트웨어를 사용할 수 있습니다. 이제 딥 러닝을 필요로 하는 누구든지 데스크 사이드 딥 러닝을 시작할 수 있습니다.
GPU 클라우드 컴퓨팅 솔루션
GPU 클라우드 컴퓨팅을 통해 모든 엔터프라이즈에서 물리적 데이터센터를 구축할 필요 없이 손쉽게 대규모 컴퓨팅 성능에 액세스할 수 있습니다. AI, 고성능 컴퓨팅(HPC) 및 의료 영상 활용, 차세대 그래픽 기술 적용 등 워크로드 전반에서 최고 성능을 경험 할 수 있습니다.
엣지 컴퓨팅 솔루션
현대 기업은 이제 수십억 개의 IoT 센서를 통해 생성 된 데이터를 활용해 더 빠른 통찰력과 시간과 비용 절감을 할 수 있습니다. 실시간으로 결정을 내리고 강력하고 분산 된 컴퓨팅과 안전하고 간단한 원격 관리 및 업계최고 기술과의 호환성을 기대할 수 있습니다.
온 프레미스 딥 러닝 솔루션
GPU 가속 데이터센터는 원하는 규모와 더 적은 수의 서버로 컴퓨팅 및 그래픽 워크로드에 혁신적인 성능을 제공하여 더 빠르게 정보를 얻고 비용을 획기적으로 절감할 수 있습니다. 가장 복잡한 딥 러닝 모델을 트레이닝하여 가장 심각한 문제를 해결하세요
NVIDIA A100 80GB PCIe

NVIDIA A100 PCIe

Ampere Architecture
Memory size 80GB HBM2e with ECC
Memory bandwidth 1,935GB/s
FP64 - 9.7 TFLOPS
FP64 Tensor Core - 19.5 TFLOPS
FP32 - 19.5 TFLOPS
Tensor Float 32 (TF32) - 156 TFLOPS | 312 TFLOPS
BFLOAT16 Tensor Core - 312 TFLOPS | 624 TFLOPS
FP16 Tensor Core - 312 TFLOPS | 624 TFLOPS
INT8 Tensor Core - 624 TOPS | 1248 TOPS*
Interconnect NVIDIA® NVLink® Bridge
for 2 GPU: 600GB/s PCIe 4.0 x16 (64GB/s)
Max Thermal Design Power (TDP) 300W
Server Options Partner and
NVIDIA-Certified Systems™ with 1-8 GPU

Visit
NVIDIA A40

NVIDIA A40

Ampere Architecture
Memory Size 40 GB HBM2 with ECC
Memory Bus width 5120-bit
Memory Bandwidth 1,6 TB/s
Cuda Cores 6912
9.7 Tflops (GPU Boost Clocks)
19.5 Tflops (GPU Boost Clocks)
312Tflops (GPU Boost Clocks)
System interface PCI Express 4.0 x16
Max power consumption 250 W

Visit
NVIDIA A30

NVIDIA A30

Ampere Architecture
GPU Memory 64 GB GDDR6
with Error Correcting Code (ECC)
GPU Memory Bandwidth | 4x 232 GB/s
Max Power Consumption 250 W
Interconnect PCI Express Gen 4.0 x16
Thermal Solution Passive
vGPU Software Support
NVIDIA Virtual PC (vPC)
NVIDIA Virtual Applications (vApps)
NVIDIA RTX Workstation (vWS)
NVIDIA Virtual Compute Server (vCS)

Visit
NVIDIA A16

NVIDIA A16

Ampere Architecture, 16 GB GDDR6 with ECC
48 RT Cores / 192 Tensor Cores / 6,144 CUDA Cores
PCI Express 4.0 x16
SP(FP32) 19.2 TFLOPS
RT Core Performance 37.4 TFLOPS
Tensor Performance 153.4 TFLOPS
4x DisplayPort 1.4
Memory Bandwidth Up to 448 GB/s
Memory Interface 256 bit

Visit
NVIDIA A10

NVIDIA A10

Ampere Architecture
FP32 31.2 TFLOPS
TF32 Tensor Core 62.5 TFLOPS | 125 TFLOPS*
BFLOAT16 Tensor Core 126 TFLOPS | 250 TFLOPS*
FP16 Tensor Core 165 TFLOPS | 330 TF*
INT8 Tensor Core 250 TOPS | 500 TOPS*
INT4 Tensor Core 500 TOPS | 1000 TOPS*
GPU Memory 24 GB GDDR6
Memory Bandwidth 600 GB/s
Thermal Solutions Passive
Maximum Power Consumption 150 W
System Interface PCIe Gen 4.0 | 64 GB/s
vGPU Support Yes

Visit
NVIDIA A2

NVIDIA A2

Ampere Architecture
RT Cores 10
Peak FP32 4.5 TF
TF32 Tensor Core 9 TF | 18 TF¹
BFLOAT16 TensorCore 18 TF | 36 TF
Peak FP16 Tensor Core 18 TF | 36 TF
Peak INT8 Tensor Core 36 TOPS | 72 TOPS
Peak INT4 Tensor Core 72 TOPS | 144 TOPS
Media engines 1 video encoder
2 video decoders (includes AV1 decode)
GPU memory 16GB GDDR6
GPU memory bandwidth 200GB/s
Max thermal design power(TDP) 40-60W
Interconnect PCIe Gen4 x8
vGPU Support      Yes

Visit
NVIDIA T4

NVIDIA T4

Turing Architecture
NVIDIA Turing Tensor Cores 320
NVIDIA CUDA® Cores 2,560
Single-Precision 8.1 TFLOPS
Mixed-Precision (FP16/FP32) 65 TFLOPS
INT8 130 TOPS
INT4 260 TOPS
GPU Memory 16GB GDDR6 300 GB/s

Visit
NVIDIA V100 32GB

NVIDIA V100 32GB

Volta Architecture
NVIDIA Turing TensorCores 640
NVIDIA CUDA® Cores 5,120
Double-Precision Performance 7 TFLOPS
Single-Precision Performance 14 TFLOPS
Tensor Performance 112 TFLOPS
GPU Memory 32 GB HBM2
Memory Bandwidth 900 GB/sec

Visit
NVIDIA V100 32GB

NVIDIA V100 16GB

Volta Architecture
NVIDIA Turing TensorCores 640
NVIDIA CUDA® Cores 5,120
Double-Precision Performance 7 TFLOPS
Single-Precision Performance 14 TFLOPS
Tensor Performance 112 TFLOPS
GPU Memory 16 GB HBM2
Memory Bandwidth 900 GB/sec

Visit

세계 최고 성능과 탄력성을 갖춘 데이터센터 AI 및
HPC의 핵심 NVIDIA Ampere 아키텍처

과학자, 연구원, 엔지니어들은 AI와 고성능 컴퓨팅(HPC)을 통해 세계에서 가장 중요한 과학, 산업, 빅 데이터 과제를 해결하려 노력하고 있습니다.
한편, 엔터프라이즈는 AI의 성능을 활용하여 온프레미스 및 클라우드 모두에서 대규모 데이터세트로부터 새로운 인사이트를 끌어내려고 하고 있습니다.
탄력적인 컴퓨팅의 시대에 설계된 NVIDIA Ampere 아키텍처는 모든 규모에서 비교할 수 없는 가속화를 제공하여 또 한 번의 거대한 도약을 실현합니다.

이미지

3세대 Tensor 코어

  • Tensor Cores는 하드웨어, 네트워킹, 소프트웨어, 라이브러리를 NGC™의 최적화된 AI 모델 및 애플리케이션과 통합하는 완전한 NVIDIA 데이터센터 솔루션의 필수적인 구성 요소입니다. 연구원은 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다. NVIDIA Ampere 아키텍처는 새로운 정밀도인 Tensor Float 32(TF32) 및 부동 소수점 정밀도 64(FP64)를 도입해 이러한 혁신을 토대로 구축되어 AI 채택을
    가속화 및 단순화하고 Tensor 코어의 성능을 HPC로 확장합니다.
  • TF32는 아무런 코드 변경 없이 AI를 최대 20배로 가속하면서 FP32와 마찬가지로 작동합니다. NVIDIA 자동 혼합 정밀도를 사용하면 연구원들은 단 몇 줄의 코드를 추가하여 자동 혼합 정밀도 및 FP16을 통해 추가적으로 2배의 성능을 얻을 수 있습니다. 또한 NVIDIA Ampere 아키텍처 Tensor 코어 GPU의 Tensor 코어는 bfloat16, INT8 및 INT4 지원으로 AI 트레이닝과 추론 모두에 놀랍도록 다재다능한 가속기를 생성합니다. A100 및 A30 GPUs GPU의 경우 Tensor 코어의 성능을 HPC에 도입하여 완전하고 IEEE 인증을 받은 FP64 정밀도로 매트릭스 연산을 지원합니다.

FP64 Tensor Core

Tensor Float 32

Tensor Float 32

INT8 Precision

NVIDIA A100 NVIDIA Turing NVIDIA Volta
지원되는 Tensor 코어 정밀도 FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
지원되는 CUDA® Core 코어 정밀도 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8
이미지

MIG(Multi-Instance GPU)

모든 AI 및 HPC 애플리케이션은 가속의 이점을 얻을 수 있지만 모든 애플리케이션에 GPU의 전체 성능이 필요한 것은 아닙니다. MIG는 A100 및 A30 GPU에서 지원되는 기능으로, 워크로드가 GPU를 공유할 수 있도록 합니다. MIG를 통해 각 GPU은 자체 고대역폭 메모리, 캐시, 컴퓨팅 코어로 하드웨어 수준에서 완전히 격리되고 보호되는 여러 개의 GPU 인스턴스로 분할될 수 있습니다. 이제 개발자는 크고 작은 모든 응용 프로그램을 획기적으로 가속화할 수 있으며 보장된 서비스 품질을 경험할 수 있습니다. 그리고 IT 관리자는 최적화된 활용을 위한 적절한 규모의 GPU 가속화를 제공할 수 있으며 베어 메탈 및 가상화된 환경 전반에서 모든 사용자와 애플리케이션으로 액세스를 확장할 수 있습니다.

이미지

3세대 NVLink

NVIDIA Ampere 아키텍처의 3세대 NVIDIA® NVLink®는 GPU 간의 직접적인 대역폭을 2배인 600GB/s로 증가시키며 이는 PCIe Gen4의 10배에 달합니다. 최신 세대의 NVIDIA NVSwitch™와 연결되면 서버의 모든 GPU는 서로 간에 최대 NVLink 속도로 통신하며 데이터를 놀랍도록 빠르게 전송할 수 있습니다. NVIDIA DGX™A100 및
다른 주요 컴퓨터 제조사의 서버는 NVLink와 NVSwitch 기술을 NVIDIA HGX™ A100 베이스보드로 활용하여 HPC 및 AI 워크로드에 더 높은 확장성을 제공합니다.

구조적 희소성

최신 AI 네트워크는 매개변수가 수백만 개, 일부 경우에는 수십억 개에 달하는 대규모로, 점점 더 규모가 커지고 있습니다. 정확한 예측과 추론에 매개변수가 모두 필요한 것은 아니므로, 일부는 정확성 감소 없이 모델을 희소하게 만들기 위해 0으로 변환할 수 있습니다. Tensor 코어는 희소한 모델에 대해 최대 2배 높은 성능을 제공할 수 있습니다. 희소성 기능은 AI 추론에 더 수월하게 이점을 제공하지만, 모델 트레이닝의 성능을 개선하는 데 사용할 수도 있습니다.

이미지

2세대 RT 코어

NVIDIA Ampere 아키텍처 2세대 RT 코어는 영화 콘텐츠의 사실적인 렌더링, 건축 디자인 평가, 제품 디자인의 가상 프로토타입 제작과 같은 워크로드에 엄청난 속도 향상을 제공합니다. RT 코어는 또한 시각적 정확도가 더 뛰어난 결과를 더 빠르게 제공하기 위해 레이 트레이싱 처리된 모션 블러의 렌더링 속도를 향상하며, 고급 음영 처리 또는 노이즈 제거 기능과 함께 레이 트레이싱을 동시에 실행할 수 있습니다.