제품문의
제품과 관련하여 궁금하신 사항을
문의하기를 통해 해결하세요.
AI and Data Science
Data Center &
Cloud Computing
Design and
Visualization
Robotics &
Edge Computing
HPC-Performance
Computing
Self-Driving Vehicles
Ampere Architecture
Peak FP64 - 5.2TF
Peak FP64 Tensor Core - 10.3 TF
Peak FP32 - 10.3 TF
TF32 Tensor Core - 82 TF | 165 TF
BFLOAT16 Tensor Core - 165 TF | 330 TF
Peak FP16 Tensor Core - 165 TF | 330 TF
Peak INT8 Tensor Core - 330 TOPS | 661 TOPS
Peak INT4 Tensor Core - 661 TOPS | 1321 TOPS
GPU Memory 24GB HBM2
Memory Bandwidth 933GB/s
NVIDIA® NVLINK® 200GB/s
System interface - PCI Express 4.0 x16
딥 러닝 워크스테이션 솔루션을 통해 작업 공간에서 편리하게 AI 슈퍼 컴퓨팅 성능을 활용하고 NGC에서 필요한 모든 딥 러닝 소프트웨어를 사용할 수 있습니다. 이제 딥 러닝을 필요로 하는 누구든지 데스크 사이드 딥 러닝을 시작할 수 있습니다.
모든 엔터프라이즈에서 물리적 데이터센터를 구축할 필요 없이 손쉽게 대규모 컴퓨팅 성능에 액세스할 수 있습니다. AI, 고성능 컴퓨팅(HPC) 및 의료 영상 활용, 차세대 그래픽 기술 적용 등 워크로드 전반에서 최고 성능을 경험할 수 있습니다.
GPU 가속 데이터센터는 원하는 규모와 더 적은 수의 서버로 컴퓨팅 및 그래픽 워크로드에 혁신적인 성능을 제공하여 더 빠르게 정보를 얻고 비용을 획기적으로 절감할 수 있습니다. 가장 복잡한 딥 러닝 모델을 트레이닝하여 가장 심각한 문제를 해결하세요.
현대 기업은 이제 수 십억 개의 IoT 센서를 통해 생성 된 데이터를 활용해 더 빠른 통찰력과 시간과 비용 절감을 할 수 있습니다. 실시간으로 결정을 내리고 강력하고 분산 된 컴퓨팅과 안전하고 간단한 원격 관리 및 업계 최고 기술과의 호환성을 기대할 수 있습니다.
165테라플롭스(TFLOPS)의 TF32 딥 러닝 성능을 제공합니다. 이는 NVIDIA T4 Tensor Core GPU에 비해 20배 더 많은 AI 교육 처리량과 5배 이상 더 많은 추론 성능입니다. HPC의 경우 A30은 NVIDIA V100 Tensor Core GPU보다 거의 30% 더 높은 10.3 TFLOPS의 성능을 제공합니다.
MIG를 사용하여 A30 GPU를 더 작은 인스턴스로 분할하거나 NVIDIA NVLink를 사용하여 여러 GPU를 연결하여 더 큰 워크로드의 속도를 높이든 A30은 가장 작은 작업에서 가장 큰 다중 노드 워크로드에 이르기까지 다양한 규모의 가속 요구 사항을 쉽게 처리할 수 있습니다.
매개변수가 정확한 예측과 추론에 모두 필요한 것은 아니므로 일부는 0으로 변환하여 정확도를 손상시키지 않으면서 모델을 희소하게 만들 수 있습니다. A30의 Tensor Core는 희소 모델에 대해 최대 2배 더 높은 성능을 제공하고 희소성 기능은 AI 추론 및 모델 훈련의 성능을 향상시킬 수도 있습니다.
A30은 데이터센터에 방대한 양의 컴퓨팅을 제공하여 엔터프라이즈에 최적화된 성능을 자랑합니다. 최대 24GB의 고대역폭 메모리(HBM2)를 갖춘 A30은 메인스트림 서버의 다양한 AI 및 HPC 워크로드에 최적인 933GB/s의 GPU 메모리 대역폭을 제공합니다.
A30의 NVIDIA NVLink는 GPU 간 인터커넥트 대역폭이 증가되어 그래픽 및 컴퓨팅 워크로드를 가속화하고 보다 규모가 큰 데이터 세트를 처리하는 하나의 확장 가능 메모리를 제공합니다. 2개의 A30 PCIe GPU를 NVLink 브리지를 통해 연결하여 330TFLOP의 딥 러닝 성능을 제공할 수 있습니다.
단일 서버에서 더 많은 GPU를 지원하며 GPU 사이에 완전한 대역폭 연결성을 보장하는 GPU 패브릭으로 딥 러닝 성능을 다음 단계로 끌어올립니다. 각 GPU의 NVLink 12개가 NVSwitch로 완전히 연결되어 올투올(All-to-all) 고속 통신을 지원합니다.
AI 및 데이터 분석 소프트웨어의 종단 간 클라우드 네이티브 제품군 NVIDIA AI Enterprise는 VMware vSphere를 사용하는 하이퍼바이저 기반 가상 인프라의 A30에서 실행되도록 인증되었습니다.
이를 통해 하이브리드 클라우드 환경에서 AI 워크로드를 관리하고 확장할 수 있습니다. 완전한 NVIDIA 플랫폼은 데이터 센터에서 에지에 이르기까지 어디에서나 사용할 수 있으므로 극적인 성능 향상과 비용 절감 기회를 모두 제공합니다.
딥 러닝 신경망이 복잡해짐에 따라, AI 트레이닝 시간이 상당히 증가하면서 생산성이 저하되고 비용은 증가하게 되었습니다. NVIDIA GPU는 트레이닝을 가속화하여 보다 짧은 기간에 깊이 있는 정보를 얻음으로써 비용 및 기간을 단축하도록 합니다.
추론은 트레이닝을 마친 신경망이 실질적으로 역할을 수행하는 영역입니다. 이미지, 음성, 비주얼 및 동영상 검색과 같은 새로운 데이터 요소가 등장함에 따라 추론은 수많은 AI 서비스의 중심에서 그에 대한 대답과 추천을 제공합니다.
광범위한 분야에서 700개 이상의 애플리케이션이 GPU 컴퓨팅에 의해 가속화되며 이러한 애플리케이션을 개발, 최적화 및 배포하는데 C, C++, Fortran 및 Python 등의 인기 있는 언어가 사용되어 과학적 발견의 길을 닦고 있습니다.
AI, 실시간 레이 트레이싱, 그래픽 기술의 발전으로 IT 팀은 CPU 기반 솔루션이 요구하는 가장 효율적인 비용, 공간, 전력 요구 사항에 맞춰 광범위한 워크로드를 처리할 수 있는 서버를 배포할 수 있습니다.
대화형 AI 등 다음 단계의 도전 과제에 대해 AI 모델을 트레이닝하는 데는 엄청난 컴퓨팅 성능과 확장성이 필요합니다. Tensor Float(TF32)를 갖춘 NVIDIA A30 Tensor 코어는 코드를 변경할 필요 없이 NVIDIA Volta보다 최대 10배 높은 성능과 더불어 자동 혼합 정밀도 및 FP16으로 추가적인 2배의 성능 향상을 보여주며 합쳐 20배 높은 처리량 향상을 제공합니다.
NVIDIA® NVLink, PCIe Gen4, NVIDIA 네트워킹 및 NVIDIA Magnum IO™ SDK와 결합할 때 수천 개의 GPU로 확장 가능합니다. Tensor 코어와 MIG를 통해 A30을 하루 내내 워크로드에 동적으로 사용할 수 있습니다. 수요가 피크일 때 프로덕션 추론에 사용할 수 있으며, GPU의 일부는 목적을 변경하여 피크 시간이 아닐 때 같은 모델을 재트레이닝할 수 있습니다.
BERT Large Pre-Training (Normalized)
ERT-대규모 사전 트레이닝(에포크 9/10개) 1단계 및 (에포크 1/10개) 2단계,
1단계의 시퀀스 길이 = 128, 2단계 = 512, 데이터세트 = real, NGC™ 컨테이너 = 21.03,
8x GPU: T4(FP32, BS=8, 2) | V100 PCIE 16GB(FP32, BS=8, 2) |
A30(TF32, BS=8, 2) | A100 PCIE 40GB(TF32, BS=54, 8) |
표시된 배치 크기는 각각 1단계 및 2단계에 해당
A30은 획기적인 기능을 도입하여 추론 워크로드를 최적화합니다. FP64에서 TF32 및 INT4에 이르는 전체 범위의 정밀도를 가속화합니다. GPU당 최대 4개의 MIG를 지원하는 A30은 여러 네트워크가 보장된 서비스 품질(QoS)을 갖추고 안전한 하드웨어 파티션에서 동시에 운영되도록 지원합니다. 또한 구조적 희소성 지원은 A30의 다른 추론 성능 이점 외에 최대 2배의 추가 성능을 제공합니다.
시장을 주도하는 NVIDIA의 AI 성능은 MLPerf Inference 에서 드러났습니다. 대규모 AI를 쉽게 배포하는 NVIDIA Triton™ Inference 추론 서버와 결합했을 때, A30은 모든 엔터프라이즈에 이 혁신적인 성능을 제공합니다.
BERT 대규모 추론(일반화됨) <10ms 지연 시간에 대한 처리량
NVIDIA® TensorRT®, 정밀도=INT8, 시퀀스 길이 = 384, NGC 컨테이너 20.12, 지연 시간 <10ms, 데이터세트 = synthetic 1x GPU: A100 PCIE 40GB(BS=8) | A30(BS=4) | V100 SXM2 16GB | T4(BS=1)
NVIDIA A30에는 GPU가 소개된 후 HPC 성능의 가장 큰 도약을 제공한 FP64 NVIDIA Ampere 아키텍처 Tensor 코어가 있습니다. 24기가바이트(GB)의 GPU 메모리 및 초당 933기가바이트(GB/s)의 대역폭과 결합되어 연구원들이 이중 정밀 계산을 빠르게 해결하도록 해줍니다. HPC 애플리케이션도 TF32를 활용하여 단정밀도의 고밀도 매트릭스 곱셈 연산에서 높은 처리량을 달성할 수 있습니다.
FP64 Tensor 코어와 MIG의 결합은 연구 기관에서 GPU를 안전하게 파티션하여 여러 연구원들이 보장된 QoS 및 최대 GPU 활용률로 컴퓨팅 리소스에 액세스하도록 지원합니다. AI를 배포하는 엔터프라이즈는 피크 수요 기간 중에 A30의 추론 기능을 사용한 다음, 피크 기간이 아닐 때는 HPC 및 AI 트레이닝 워크로드에 대해 같은 컴퓨팅 서버의 목적을 변경할 수 있습니다.
데이터세트: ReaxFF/C, FP64 | 4x GPU: T4, V100 PCIE 16GB, A30
A30은 완전한 NVIDIA 데이터센터 솔루션의 일부로, 다양한 하드웨어, 네트워킹, 소프트웨어, 라이브러리 및 NGC™의 최적화된 AI 모델과 애플리케이션에 걸쳐 빌딩 블록을 통합합니다. 연구원은 데이터센터를 위한 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 빠르게 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.
또한 NVIDIA AI Enterprise 소프트웨어를 사용하면 NVIDIA-Certified Systems를 통해 VMware vSphere에서 실행되도록 NVIDIA가 최적화, 인증, 지원하는 AI 및 데이터 분석 소프트웨어의 엔드 투 엔드 클라우드 네이티브 제품군에 액세스할 수 있습니다. NVIDIA AI Enterprise에는 최신 하이브리드 클라우드에서 AI 워크로드의 빠른 배포, 관리 및 확장을 지원하는 NVIDIA의 주요 기반 기술이 포함되어 있습니다.
MIG를 사용하는 A30은 GPU 가속화 인프라의 활용률을 극대화합니다. A30 GPU는 MIG를 통해 4개나 되는 별개의 인스턴스로 안전하게 분할될 수 있어 여러 사용자가 GPU 가속화에 액세스할 수 있습니다. MIG는 Kubernetes, 컨테이너 및 하이퍼바이저 기반 서버 가상화와 연동됩니다. MIG는 인프라 관리자가 모든 작업에 보장된 QoS로 알맞은 크기의 GPU를 제공하도록 지원하여 모든 사용자가 가속 컴퓨팅 리소스를 사용할 수 있게 합니다.
Architecture | Ampere |
---|---|
GPU Memory | 24GB HBM2 |
Memory Bandwidth | 933 GB/s |
Interconnect interface | PCIe Gen4: 64GB/s NVIDIA® NVLINK®200GB/s |
Max thermal design power (TDP) 16 | 165 W |
Thermal solution | Passive |
Media engines |
|
Form Factor | 2-Slot, Full height, Full length (FHFL) |
Performance |
|
Multi-Instance GPU(MIG) |
|
Virtual GPU (vGPU) software support | NVIDIA AI Enterprise for VMware NVIDIA Virtual Compute Server |
상품명 | NVIDIA A30 Tensor Core GPU |
---|---|
KC 인증번호 | R-R-NVA-P1001B |
최대소비전력 | 165 W |
정품 품질 보증 | 3년 무상보증 |
출시년월 | 2021/04 |
제조사 | NVIDIA Corporation |
제조국 | China |
크기 | 111 x 268, 2-slot |