제품문의
제품과 관련하여 궁금하신 사항을
문의하기를 통해 해결하세요.
AI and Data Science
Data Center &
Cloud Computing
Design and
Visualization
Robotics &
Edge Computing
HPC-Performance
Computing
Self-Driving Vehicles
Ampere Architecture
Memory size 80GB HBM2e with ECC
Memory bandwidth 1,935GB/s
FP64 Tensor Core - 19.5 TFLOPS
FP64 - 9.7 TFLOPS / FP32 - 19.5 TFLOPS
Tensor Float 32 (TF32) - 156 TFLOPS | 312 TFLOPS
BFLOAT16 Tensor Core - 312 TFLOPS | 624 TFLOPS
FP16 Tensor Core - 312 TFLOPS | 624 TFLOPS
INT8 Tensor Core - 624 TOPS | 1248 TOPS
PCIe Gen4 (64 GB/sec) / NVIDIA® NVLink® (600 GB/sec)
Max Thermal Design Power (TDP) 300W
딥 러닝 워크스테이션 솔루션을 통해 작업 공간에서 편리하게 AI 슈퍼 컴퓨팅 성능을 활용하고 NGC에서 필요한 모든 딥 러닝 소프트웨어를 사용할 수 있습니다. 이제 딥 러닝을 필요로 하는 누구든지 데스크 사이드 딥 러닝을 시작할 수 있습니다.
모든 엔터프라이즈에서 물리적 데이터센터를 구축할 필요 없이 손쉽게 대규모 컴퓨팅 성능에 액세스할 수 있습니다. AI, 고성능 컴퓨팅(HPC) 및 의료 영상 활용, 차세대 그래픽 기술 적용 등 워크로드 전반에서 최고 성능을 경험할 수 있습니다.
GPU 가속 데이터센터는 원하는 규모와 더 적은 수의 서버로 컴퓨팅 및 그래픽 워크로드에 혁신적인 성능을 제공하여 더 빠르게 정보를 얻고 비용을 획기적으로 절감할 수 있습니다. 가장 복잡한 딥 러닝 모델을 트레이닝하여 가장 심각한 문제를 해결하세요.
현대 기업은 이제 수 십억 개의 IoT 센서를 통해 생성 된 데이터를 활용해 더 빠른 통찰력과 시간과 비용 절감을 할 수 있습니다. 실시간으로 결정을 내리고 강력하고 분산 된 컴퓨팅과 안전하고 간단한 원격 관리 및 업계 최고 기술과의 호환성을 기대할 수 있습니다.
새로운 Tensor Float 32(TF32) 정밀도는 이전 세대에 비해 5배의 트레이닝 처리량을 제공하여 코드를 변경하지 않아도 AI 및 데이터 사이언스 모델 트레이닝을 가속화합니다. 구조적 희소성에 대한 하드웨어 지원은 추론을 위한 처리량을 두 배로 높입니다.
모든 애플리케이션에 A100 GPU의 전체 성능이 필요한 것은 아닙니다. MIG를 통해 각 A100은 자체 고대역폭 메모리, 캐시, 컴퓨팅 코어로 하드웨어 수준에서 완전히 격리되고 보호되는 무려 7개의 GPU 인스턴스로 분할될 수 있습니다.
매개변수가 정확한 예측과 추론에 모두 필요한 것은 아니므로, 일부는 정확성을 감소시키지 않고 모델을 “희소”하게 만들기 위해 0으로 변환할 수 있습니다. A100의 Tensor 코어는 희소한 모델에 대해 최대 2배 높은 성능을 제공할 수 있습니다.
A100은 데이터센터에 방대한 양의 컴퓨팅을 제공합니다. 이러한 컴퓨팅 엔진의 활용도를 완전하게 유지하기 위해 업계 최고 수준인 1.5TB/s의 메모리 대역폭을 보유하여 이전 세대에 비해 67% 증가했습니다.
GPU 간 인터커넥트 대역폭이 증가되어 그래픽 및 컴퓨팅 워크로드를 가속화하고 보다 규모가 큰 데이터 세트를 처리하는 하나의 확장 가능 메모리를 제공합니다.
단일 서버에서 더 많은 GPU를 지원하며 GPU 사이에 완전한 대역폭 연결성을 보장하는 GPU 패브릭으로 딥 러닝 성능을 다음 단계로 끌어올립니다. 각 GPU의 NVLink 12개가 NVSwitch로 완전히 연결되어 올투올(All-to-all) 고속 통신을 지원합니다.
A100은 완전한 NVIDIA 데이터센터 솔루션의 일부로, 다양한 하드웨어, 네트워킹, 소프트웨어, 라이브러리 및 NGC™의 최적화된 AI 모델과 애플리케이션에 걸쳐 빌딩 블록을 통합합니다. 연구원은 데이터센터를 위한 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 빠르게 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.
또한 NVIDIA AI Enterprise 소프트웨어를 사용하면 NVIDIA-Certified Systems를 통해 VMware vSphere에서 실행되도록 NVIDIA가 최적화, 인증, 지원하는 AI 및 데이터 분석 소프트웨어의 엔드 투 엔드 클라우드 네이티브 제품군에 액세스할 수 있습니다. NVIDIA AI Enterprise에는 최신 하이브리드 클라우드에서 AI 워크로드의 빠른 배포, 관리 및 확장을 지원하는 NVIDIA의 주요 기반 기술이 포함되어 있습니다.
MIG 없이 동일한 GPU에서 서로 다른 AI 추론 요청 등의 다양한 작업을 실행하면 각 작업이 동일한 리소스를 두고 경쟁합니다. 더 큰 메모리 대역폭을 소비하는 작업이 다른 작업을 방해하여 일부 작업은 지연 시간 목표를 달성하지 못하는 결과가 발생합니다. MIG를 사용하면 컴퓨팅, 메모리, 메모리 대역폭을 위한 전용 리소스를 갖춘 서로 다른 인스턴스에서 작업이 동시에 실행되므로 서비스 품질을 통한 예측 가능한 성능과 GPU 사용률을 극대화할 수 있습니다.
컴퓨팅, 메모리, 캐시를 위한 전용 하드웨어 리소스 세트를 통해 각 MIG 인스턴스는 보장된 서비스 품질 및 결함 격리를 제공합니다. 따라서 하나의 인스턴스에서 실행되는 애플리케이션에 오류가 발생해도 다른 인스턴스에서 실행되는 애플리케이션에 영향을 주지 않습니다.
이는 또한 서로 다른 인스턴스에서 대화식 모델 개발, 딥 러닝 트레이닝, AI 추론, HPC 애플리케이션과 같은 서로 다른 유형의 워크로드를 실행할 수 있음을 의미합니다. 인스턴스가 병렬로 실행되므로 워크로드 역시 병렬로 실행되지만, 동일한 물리적 GPU에서 분리되고 격리됩니다.
7x 10GB / 3x 20GB / 2x 40GB / 1x 80GB
한 번에 하나의 인스턴스에서 가능
1x
제한된 옵션
-
예비 사양은 변경될 수 있습니다.
딥 러닝 신경망이 복잡해짐에 따라, AI 트레이닝 시간이 상당히 증가하면서 생산성이 저하되고 비용은 증가하게 되었습니다. NVIDIA GPU는 트레이닝을 가속화하여 보다 짧은 기간에 깊이 있는 정보를 얻음으로써 비용 및 기간을 단축하도록 합니다.
추론은 트레이닝을 마친 신경망이 실질적으로 역할을 수행하는 영역입니다. 이미지, 음성, 비주얼 및 동영상 검색과 같은 새로운 데이터 요소가 등장함에 따라 추론은 수많은 AI 서비스의 중심에서 그에 대한 대답과 추천을 제공합니다.
광범위한 분야에서 700개 이상의 애플리케이션이 GPU 컴퓨팅에 의해 가속화되며 이러한 애플리케이션을 개발, 최적화 및 배포하는데 C, C++, Fortran 및 Python 등의 인기 있는 언어가 사용되어 과학적 발견의 길을 닦고 있습니다.
AI, 실시간 레이 트레이싱, 그래픽 기술의 발전으로 IT 팀은 CPU 기반 솔루션이 요구하는 가장 효율적인 비용, 공간, 전력 요구 사항에 맞춰 광범위한 워크로드를 처리할 수 있는 서버를 배포할 수 있습니다.
AI 모델은 대화형 AI와 같은 차세대 도전 과제를 풀어나가면서 그 복잡성 역시 폭발적으로 커지고 있습니다. 이러한 모델을 훈련시키려면 엄청난 컴퓨팅 성능과 확장성이 필요합니다. Tensor Float(TF32)를 갖춘 NVIDIA A100의 Tensor 코어는 코드를 변경할 필요 없이 이전 세대 NVIDIA Volta 보다 최대 20배 높은 성능과 더불어 자동 혼합 정밀도 및 FP16으로 성능이 추가로 2배나 향상됩니다. NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® InfiniBand®, NVIDIA Magnum IO™ SDK와 함께 사용하면 수천 개의 A100 GPU로 확장할 수 있습니다. 2,048개의 A100 GPU를 통해 BERT와 같은 다양한 규모의 훈련 워크로드를 1분 안에 해결할 수 있으며, 해결까지 걸리는 시간은 세계 신기록을 자랑합니다.
DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.
FP32에서 INT4에 이르는 전체 범위의 정밀도를 가속화합니다. 멀티 인스턴스GPU (MIG) 기술을 사용하면 여러 네트워크를 단일 A100에서 동시에 운용하여 컴퓨팅 리소스를 최적으로 활용할 수 있으며 구조적 희소성 지원은 A100의 다른 추론 성능 이점 외에 최대 2배의 추가 성능을 제공합니다.
BERT와 같은 최첨단 대화형 AI 모델에서 추론 처리량을 CPU의 249배까지 가속합니다. A100 80GB의 개선된 메모리 용량은 자동 음성 인식을 위한 RNN-T와 같이 배치 크기가 제약된 가장 복잡한 모델에서 각 MIG의 크기를 2배로 늘려 높은 처리량을 제공합니다.
BERT-Large Inference | CPU only: Dual Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 (희소성 포함).
차세대 발견을 위해 과학자들은 우리 주위의 세계를 더 잘 이해할 수 있도록 시뮬레이션을 보고 있습니다. NVIDIA A100에는 GPU 도입 이래로 HPC 성능에서 가장 커다란 도약을 보여준 배정밀도 Tensor 코어가 도입되었습니다. 가장 빠른 GPU 메모리 80GB와 A100을 결합함으로써 연구원은 10시간 배정밀도 시뮬레이션을 4시간 미만으로 줄일 수 있습니다. HPC 애플리케이션도 TF32를 활용하여 단정밀도의 고밀도 매트릭스 곱셈 연산에서 최대 11배 높은 처리량을 달성할 수 있습니다.
가장 큰 데이터세트가 있는 HPC 애플리케이션의 경우, A100 80GB의 추가적인 메모리는 소재 시뮬레이션인 Quantum Espresso에서 처리량이 최대 2배로 증가하는 모습을 보여줍니다. 이렇게 방대한 메모리와 전례 없는 메모리 대역폭 덕분에 A100 80GB는 차세대 워크로드에 이상적인 플랫폼이 되었습니다.
Geometric mean of application speedups vs. P100: Benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs.
데이터 사이언티스트는 대규모 데이터세트를 분석, 시각화하고 인사이트로 전환할 수 있어야 합니다. 하지만 스케일아웃 솔루션은 여러 서버에 흩어진 데이터세트 때문에 교착 상태에 빠지는 경우가 많습니다. A100을 사용하는 가속화 서버는 방대한 메모리, 2TB/s를 넘는 메모리 대역폭, NVIDIA® NVLink®, NVSwitch™를 통한 확장성과 함께 필요한 컴퓨팅 성능을 제공하여 이러한 워크로드를 처리합니다. InfiniBand와 NVIDIA Magnum IO™ 그리고 GPU 가속 데이터 분석을 위한 Apache Spark용 RAPIDS Accelerator 등 오픈 소스 라이브러리의 RAPIDS™ 제품군과 함께 NVIDIA 데이터센터 플랫폼은 이러한 대규모 워크로드를 전례 없는 수준의 성능과 효율성으로 가속화합니다.
MIG를 사용하는 A100은 GPU 가속화 인프라의 활용률을 극대화합니다. A100 GPU는 MIG를 통해 7개나 되는 별개의 인스턴스로 안전하게 분할될 수 있어 여러 사용자가 GPU 가속화에 액세스할 수 있습니다. MIG는 Kubernetes, 컨테이너, 하이퍼바이저 기반 서버 가상화와 연동됩니다. MIG는 인프라 관리자가 모든 작업에 보장된 서비스 품질(QoS)로 알맞은 크기의 GPU를 제공하도록 지원하여 모든 사용자가 가속 컴퓨팅 리소스를 사용할 수 있게 합니다.
BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 with sparsity.
Architecture | Ampere |
---|---|
GPU Memory | 80 GB HBM2e with ECC |
Memory bus width | 5120-bit |
Memory bandwidth | 1,935GB/s |
CUDA cores | 6,912 |
Performance (GPU Boost Clocks) |
|
Tensor Float 32 (TF32) | 156 TFLOPS, 312 TFLOPS* |
BFLOAT16 Tensor Core | 312 TFLOPS, 624 TFLOPS* |
FP16 Tensor Core | 312 TFLOPS, 624 TFLOPS* |
INT8 Tensor Core | 624 TOPS, 1248 TOPS* |
Multi-Instance GPU | Up to 7 MIGs @ 10GB |
System interface | PCI Express 4.0 x16 |
Interconnect | NVIDIA® NVLink® Bridge for 2 GPUs: 600GB/s ** PCIe Gen4 : 64GB/s |
Server Options | Partner and NVIDIA-Certified Systems™ with 1-8 GPUs |
Max Thermal Design Power | 300W |
Thermal solution | Passive |
Power connectors | 8-pin CPU |
Display connectors | None |
Form Factor | 111 x 268, Full Height Dual Slot |
Thermal solution | Passive |
상품명 | NVIDIA A100 Tensor Core GPU |
---|---|
KC 인증번호 | R-R-NVA-PG133C |
최대소비전력 | 300 W |
정품 품질 보증 | 3년 무상보증 |
출시년월 | 2021/04 |
제조사 | NVIDIA Corporation |
제조국 | China |
크기 | 111 x 268, Dual Slot |