AI & Datacenter

고품질의 고객 경험 창출 및 추천 시스템에서 메디컬 이미징, 개선된 공급망 관리에 이르기까지 전 세계의 모든 산업군에서 AI 기반 인사이트를 제공할 수 있는 인프라를 필요로 합니다. 선구안을 가진 비즈니스 리더들은 이미 AI에 기반한 혁신을 주도하기 위해 앞장서고 있습니다. IT 리더는 컴퓨팅, 스토리지, 네트워킹이나 시설에 대한 전례 없는 AI 요구 등 만족할만한 AI 가속화 인프라 전략을 구축해야 합니다. NVIDIA DGX™ 시스템은 모든 규모의 엔터프라이즈 AI 인프라를 위해 세계 최고의 솔루션을 제공합니다.

데이터시트 다운
LEADERS SYSTEMS | NVIDIA

Purpose-Built for the Unique Demands of AI

NVIDIA DGX™ A100 은 모든 AI 워크로드를 위한 유니버설 시스템으로, 세계 최초의 5페타플롭스 AI 시스템을 통해 유례없는 컴퓨팅 밀도, 성능 및 유연성을 제공합니다. NVIDIA DGX A100은 세계에서 가장 최첨단의 가속기인 NVIDIA A100 Tensor 코어 GPU를 탑재하여 엔터프라이즈 기업들이 NVIDIA AI 전문가의 직접적인 지원과 함께 트레이닝에서 추론, 분석에 이르기까지 배포하기 쉬운 통합 AI 인프라를 구축할 수 있게 합니다.

이미지
  • 이미지
    NVIDIA DGX Station™
    AI 워크그룹 어플라이언스
    데이터 센터 없이 실험과 개발을 위한 서버 급의 성능을 제공하는 이상적인 plug-and-go AI 시스템
  • 이미지
    NVIDIA DGX Servers
    AI 트레이닝, 추론 및 분석
    다양한 서버 솔루션을 통한 가장 복잡한 AI 과제를 처리가 가능한 슈퍼컴퓨터의 핵심 구성 요소
  • 이미지
    NVIDIA DGX POD™
    확장된 AI 인프라 솔루션
    스토리지, 컴퓨팅, 네트워킹 분야의
    업계 리더와 함께 구축한 업계 표준
    AI 인프라 디자인
  • 이미지
    NVIDIA DGX SUPERPOD™
    턴키 AI 인프라
    대규모 AI Enterprise를 위한 가장
    빠른 길을 제공하는 업계 최고의
    Full-cycle 인프라

현대적이고 가속화된 데이터 센터를 위한 소프트웨어

데이터 과학 및 AI를 발전시키기 위해 조직은 클라우드 및 데이터 센터에서 엣지에 이르기까지 GPU 기반 시스템을 최적화 할 수있는 도구에 액세스해야합니다.
NVIDIA의 소프트웨어 솔루션은 모든 최신 워크로드를 포괄하여 IT 관리자, 데이터 과학자, DevOps 팀 및 개발자가 필요한 항목에 빠르고 쉽게 액세스 할 수 있도록합니다.

NVIDIA® NGC™ 카달로그
데이터 과학 및 AI를 발전시키기 위해 조직은 클라우드 및 데이터 센터에서 에지에 이르기까지 GPU 기반 시스템을 최적화 할 수 있는 도구에 액세스해야합니다. NVIDIA의 소프트웨어 솔루션은 모든 최신 워크로드를 포괄하여 IT 관리자, 데이터 과학자, DevOps 팀 및 개발자가 필요한 항목에 빠르고 쉽게 액세스 할 수 있도록합니다.
NVIDIA® CUDA® Toolkit
NVIDIA CUDA ® Toolkit은 고성능 GPU 가속 응용 프로그램을 만들기 위한 개발 환경을 제공합니다. CUDA 툴킷을 사용하면 GPU 가속 임베디드 시스템, 데스크탑 워크 스테이션, 노트북 엔터프라이즈 데이터 센터 및 클라우드 기반 플랫폼에서 애플리케이션을 개발, 최적화 및 배포 할 수 있습니다.
NVIDIA® Magnum IO™
NVIDIA Magnum IO™는 병렬의 비동기식 지능형 데이터센터 IO를 위한 아키텍처로, 멀티 GPU, 멀티 노드 가속화를 위해 스토리지 및 네트워크 IO 성능을 극대화합니다. 스토리지 IO, 네트워크 IO, 인-네트워크 컴퓨팅 및 IO 관리를 활용하여 멀티 GPU, 멀티 노드 시스템을 위한 데이터 이동, 액세스 및 관리를 단순화하고 가속화합니다.
NVIDIA® CUDA-X AI
CUDA-X AI는 딥 러닝, 머신 러닝 및 HPC(고성능 컴퓨팅)를 위한 필수 최적화를 제공하는 NVIDIA의 획기적인 병렬 프로그래밍 모델인 CUDA® 위에 구축된 소프트웨어 가속화 라이브러리 컬렉션입니다. cuDNN, cuML, NVIDIA® TensorRT™, cuDF, cuGraph 및 13개 이상의 기타 라이브러리가 포함됩니다.

NVIDIA DGX A100 640GB

Ampere Architecture
8x NVIDIA A100 80 GB GPU
GPU Memory 640 GB Total
System Memory 2 TB
CPU : Dual AMD Rome 7742, 128 cores total,
2.25 GHz (base), 3.4 GHz (max boost)
OS: 2x 1.92 TB M.2 NVME drives
Internal Storage: 30 TB
(8x 3.84 TB) U.2 NVMe drives
Performance : 5 petaFLOPS AI
10 petaOPS INT8

Visit

NVIDIA DGX A100 320GB

Ampere Architecture
8x NVIDIA A100 40 GB GPU
GPU Memory 320 GB Total
System Memory 1 TB
CPU : Dual AMD Rome 7742, 128 cores total,
2.25 GHz (base), 3.4 GHz (max boost)
OS: 2x 1.92TB M.2
NVME drives Internal Storage:
15 TB (4x 3.84 TB) U.2 NVMe drives
Performance : 5 petaFLOPS AI
10 petaOPS INT8

Visit

NVIDIA DGX Station A100 320GB

Ampere Architecture
4x NVIDIA A100 80 GB GPU
GPU Memory 320 GB Total
System Memory 512 GB DDR4
CPU : Dual AMD Rome 7742, 64 cores total,
2.25 GHz (base), 3.4 GHz (max boost)
OS: 1x 1.92TB M.2
NVME drives Internal Storage:
7.68 TB (4x 3.84 TB) U.2 NVMe drives
Performance : 2.5 petaFLOPS AI
5 petaOPS INT8

Visit

세계 최고 성능과 탄력성을 갖춘 데이터센터 AI 및
HPC의 핵심 NVIDIA Ampere 아키텍처

과학자, 연구원, 엔지니어들은 AI와 고성능 컴퓨팅(HPC)을 통해 세계에서 가장 중요한 과학, 산업, 빅 데이터 과제를 해결하려 노력하고 있습니다.
한편, 엔터프라이즈는 AI의 성능을 활용하여 온프레미스 및 클라우드 모두에서 대규모 데이터세트로부터 새로운 인사이트를 끌어내려고 하고 있습니다.
탄력적인 컴퓨팅의 시대에 설계된 NVIDIA Ampere 아키텍처는 모든 규모에서 비교할 수 없는 가속화를 제공하여 또 한 번의 거대한 도약을 실현합니다.

이미지

3세대 Tensor 코어

  • Tensor Cores는 하드웨어, 네트워킹, 소프트웨어, 라이브러리를 NGC™의 최적화된 AI 모델 및 애플리케이션과 통합하는 완전한 NVIDIA 데이터센터 솔루션의 필수적인 구성 요소입니다. 연구원은 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다. NVIDIA Ampere 아키텍처는 새로운 정밀도인 Tensor Float 32(TF32) 및 부동 소수점 정밀도 64(FP64)를 도입해 이러한 혁신을 토대로 구축되어 AI 채택을 가속화 및 단순화하고 Tensor 코어의 성능을 HPC로 확장합니다.
  • TF32는 아무런 코드 변경 없이 AI를 최대 20배로 가속하면서 FP32와 마찬가지로 작동합니다. NVIDIA 자동 혼합 정밀도를 사용하면 연구원들은 단 몇 줄의 코드를 추가하여 자동 혼합 정밀도 및 FP16을 통해 추가적으로 2배의 성능을 얻을 수 있습니다. 또한 NVIDIA Ampere 아키텍처 Tensor 코어 GPU의 Tensor 코어는 bfloat16, INT8 및 INT4 지원으로 AI 트레이닝과 추론 모두에 놀랍도록 다재다능한 가속기를 생성합니다. A100 및 A30 GPUs GPU의 경우 Tensor 코어의 성능을 HPC에 도입하여 완전하고 IEEE 인증을 받은 FP64 정밀도로 매트릭스 연산을 지원합니다.

FP64 Tensor Core

Tensor Float 32

Tensor Float 32

INT8 Precision

NVIDIA A100 NVIDIA Turing NVIDIA Volta
지원되는 Tensor 코어 정밀도 FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
지원되는 CUDA® Core 코어 정밀도 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8
이미지

MIG(Multi-Instance GPU)

모든 AI 및 HPC 애플리케이션은 가속의 이점을 얻을 수 있지만 모든 애플리케이션에 GPU의 전체 성능이 필요한 것은 아닙니다. MIG는 A100 및 A30 GPUs GPU에서 지원되는 기능으로, 워크로드가 GPU를 공유할 수 있도록 합니다. MIG를 통해 각 GPU은 자체 고대역폭 메모리, 캐시, 컴퓨팅 코어로 하드웨어 수준에서 완전히 격리되고 보호되는 여러 개의 GPU 인스턴스로 분할될 수 있습니다. 이제 개발자는 크고 작은 모든 응용 프로그램을 획기적으로 가속화할 수 있으며 보장된 서비스 품질을 경험할 수 있습니다. 그리고 IT 관리자는 최적화된 활용을 위한 적절한 규모의 GPU 가속화를 제공할 수 있으며 베어 메탈 및 가상화된 환경 전반에서 모든 사용자와 애플리케이션으로 액세스를 확장할 수 있습니다.

이미지

3세대 NVLink

NVIDIA Ampere 아키텍처의 3세대 NVIDIA® NVLink®는 GPU 간의 직접적인 대역폭을 2배인 600GB/s로 증가시키며 이는 PCIe Gen4의 10배에 달합니다. 최신 세대의 NVIDIA NVSwitch™와 연결되면 서버의 모든 GPU는 서로 간에 최대 NVLink 속도로 통신하며 데이터를 놀랍도록 빠르게 전송할 수 있습니다. NVIDIA DGX™A100 및 다른 주요 컴퓨터 제조사의 서버는 NVLink와 NVSwitch 기술을 NVIDIA HGX™ A100 베이스보드로 활용하여 HPC 및 AI 워크로드에 더 높은 확장성을 제공합니다.

구조적 희소성

최신 AI 네트워크는 매개변수가 수백만 개, 일부 경우에는 수십억 개에 달하는 대규모로, 점점 더 규모가 커지고 있습니다. 정확한 예측과 추론에 매개변수가 모두 필요한 것은 아니므로, 일부는 정확성 감소 없이 모델을 희소하게 만들기 위해 0으로 변환할 수 있습니다. Tensor 코어는 희소한 모델에 대해 최대 2배 높은 성능을 제공할 수 있습니다. 희소성 기능은 AI 추론에 더 수월하게 이점을 제공하지만, 모델 트레이닝의 성능을 개선하는 데 사용할 수도 있습니다.

이미지

2세대 RT 코어

NVIDIA Ampere 아키텍처 2세대 RT 코어는 영화 콘텐츠의 사실적인 렌더링, 건축 디자인 평가, 제품 디자인의 가상 프로토타입 제작과 같은 워크로드에 엄청난 속도 향상을 제공합니다. RT 코어는 또한 시각적 정확도가 더 뛰어난 결과를 더 빠르게 제공하기 위해 레이 트레이싱 처리된 모션 블러의 렌더링 속도를 향상하며, 고급 음영 처리 또는 노이즈 제거 기능과 함께 레이 트레이싱을 동시에 실행할 수 있습니다.