제품문의
제품과 관련하여 궁금하신 사항을
문의하기를 통해 해결하세요.
AI and Data Science
Data Center &
Cloud Computing
Design and
Visualization
Robotics &
Edge Computing
HPC-Performance
Computing
Self-Driving Vehicles
Hopper architecture
Memory size 94GB
Memory bandwidth 3.9TB/s
FP64 30 TFLOPS
FP64 Tensor Core 60 TFLOPS
FP32 60 TFLOPS
TF32 Tensor Core 835 TFLOPS*
BFLOAT16 Tensor Core 1,671 TFLOPS*
FP16 Tensor Core 1,671 TFLOPS*
FP8 Tensor Core 3,341 TFLOPS*
INT8 Tensor Core 3,341 TOPS*
딥 러닝 워크스테이션 솔루션을 통해 작업 공간에서 편리하게 AI 슈퍼 컴퓨팅 성능을 활용하고 NGC에서 필요한 모든 딥 러닝 소프트웨어를 사용할 수 있습니다. 이제 딥 러닝을 필요로 하는 누구든지 데스크 사이드 딥 러닝을 시작할 수 있습니다.
딥러닝 솔루션 바로가기 >모든 엔터프라이즈에서 물리적 데이터센터를 구축할 필요 없이 손쉽게 대규모 컴퓨팅 성능에 액세스할 수 있습니다. AI, 고성능 컴퓨팅(HPC) 및 의료 영상 활용, 차세대 그래픽 기술 적용 등 워크로드 전반에서 최고 성능을 경험할 수 있습니다.
클라우드 컴퓨팅 솔루션 바로가기 >GPU 가속 데이터센터는 원하는 규모와 더 적은 수의 서버로 컴퓨팅 및 그래픽 워크로드에 혁신적인 성능을 제공하여 더 빠르게 정보를 얻고 비용을 획기적으로 절감할 수 있습니다. 가장 복잡한 딥 러닝 모델을 트레이닝하여 가장 심각한 문제를 해결하세요.
온 프레미스 솔루션 바로가기 >현대 기업은 이제 수 십억 개의 IoT 센서를 통해 생성 된 데이터를 활용해 더 빠른 통찰력과 시간과 비용 절감을 할 수 있습니다. 실시간으로 결정을 내리고 강력하고 분산 된 컴퓨팅과 안전하고 간단한 원격 관리 및 업계 최고 기술과의 호환성을 기대할 수 있습니다.
엣지 컴퓨팅 솔루션 바로가기 >NVIDIA Hopper 아키텍처는 새로운 8비트 부동 소수점 정밀도(FP8)를 사용하는 Transformer Engine으로 4세대 Tensor 코어를 발전시켜 1조 매개변수 모델 교육을 위해 FP16보다 6배 더 높은 성능을 제공합니다. TF32, FP64, FP16 및 INT8 정밀도를 사용하여 3배 향상된 성능과 결합된 Hopper Tensor Core는 모든 워크로드에 최고의 속도 향상을 제공합니다.
강력한 하드웨어 기반 보안을 통해 사용자는 온프레미스, 클라우드, 엣지에서 애플리케이션을 실행할 수 있으며, 사용 중인 애플리케이션 코드와 데이터를 허가되지 않은 엔티티가 보거나 수정할 수 없다고 확신할 수 있습니다. 이를 통해 데이터와 애플리케이션의 기밀성과 무결성을 보호하는 동시에 AI 훈련, AI 추론, HPC 워크로드를 위한 H100 GPU의 전례 없는 가속에 액세스할 수 있습니다.
컴퓨팅 집약적 워크로드에 대해 더 높은 대역폭과 감소된 지연 시간을 제공합니다. 고속 공동 작업을 가능하게 하기 위해 각 NVSwitch에는 네트워크 내 감소 및 멀티 캐스트 가속을 위한 NVIDIA SHARP ™ 용 엔진이 장착된 64개의 NVLink 포트가 있습니다.
단일 서버에서 더 많은 GPU를 지원하며 GPU 사이에 완전한 대역폭 연결성을 보장하는 GPU 패브릭으로 딥 러닝 성능을 다음 단계로 끌어올립니다. 각 GPU의 NVLink 12개가 NVSwitch로 완전히 연결되어 올투올(All-to-all) 고속 통신을 지원합니다.
Hopper 아키텍처는 최대 7개의 GPU 인스턴스에 걸쳐 가상화된 환경에서 다중 테넌트, 다중 사용자 구성을 지원하여 MIG를 더욱 강화하고 하드웨어 및 하이퍼바이저 수준에서 기밀 컴퓨팅으로 각 인스턴스를 안전하게 격리합니다. 각 MIG 인스턴스에 대한 전용 비디오 디코더는 공유 인프라에서 안전한 고처리량 IVA를 제공합니다. 또한 동시 MIG 프로파일링을 통해 관리자는 적절한 크기의 GPU 가속을 모니터링하고 사용자를 위한 최적화된 리소스 할당이 가능합니다.
동적 프로그래밍은 복잡한 재귀 문제를 더 간단한 하위 문제로 분해하여 해결하는 알고리즘 기술로 나중에 다시 계산할 필요가 없도록 하위 문제의 결과를 저장함으로써 기하급수적인 문제 해결의 시간과 복잡성을 줄입니다. Hopper의 DPX 명령은 동적 프로그래밍 알고리즘을 기존의 듀얼 소켓 CPU 전용 서버 대비 40배, NVIDIA Ampere 아키텍처 GPU 대비 7배 가속화합니다. 이를 통해 질병 진단 및 라우팅 최적화 시간뿐 아니라 그래프 분석 시간까지 획기적으로 단축할 수 있습니다.
NVIDIA H100 Tensor 코어 GPU로 모든 워크로드에 대해 전례 없는 성능, 확장성, 보안을 달성하세요. NVIDIA® NVLink® 스위치 시스템을 사용하면 최대 256개의 H100을 연결하여 엑사스케일 워크로드를 가속화하고 전용 트랜스포머 엔진으로 매개 변수가 조 단위인 언어 모델을 처리할 수 있습니다. 여러 기술 혁신이 결합된 H100은 대규모 언어 모델의 속도를 이전 세대에 비해 30배 더 향상하여 업계를 선도하는 대화형 AI를 제공할 수 있습니다.
딥 러닝 신경망이 복잡해짐에 따라, AI 트레이닝 시간이 상당히 증가하면서 생산성이 저하되고 비용은 증가하게 되었습니다. NVIDIA GPU는 트레이닝을 가속화하여 보다 짧은 기간에 깊이 있는 정보를 얻음으로써 비용 및 기간을 단축하도록 합니다.
추론은 트레이닝을 마친 신경망이 실질적으로 역할을 수행하는 영역입니다. 이미지, 음성, 비주얼 및 동영상 검색과 같은 새로운 데이터 요소가 등장함에 따라 추론은 수많은 AI 서비스의 중심에서 그에 대한 대답과 추천을 제공합니다.
광범위한 분야에서 700개 이상의 애플리케이션이 GPU 컴퓨팅에 의해 가속화되며 이러한 애플리케이션을 개발, 최적화 및 배포하는데 C, C++, Fortran 및 Python 등의 인기 있는 언어가 사용되어 과학적 발견의 길을 닦고 있습니다.
기존의 데이터 사이언스 워크플로우는 느리고 까다로웠으며, 데이터를 로드, 필터링, 조작하고, 모델을 학습하고 배포하는 데 CPU에 의존해 왔습니다. GPU는 인프라 비용을 대폭 절감하고 엔드 투 엔드 데이터 사이언스 워크플로우에 탁월한 성능을 제공합니다.
H100은 4세대 텐서 코어와 FP8 정밀도를 갖춘 Transformer Engine을 특징으로 하며, 이는 GPT-3(175B) 모델에 대해 이전 세대보다 최대 4배 더 빠른 트레이닝을 제공합니다. 초당 900기가바이트(GB/s)의 GPU 간 상호 연결을 제공하는 4세대 NVLink, 노드 전체에서 모든 GPU의 통신을 가속화하는 NDR Quantum-2 InfiniBand 네트워킹, PCIe Gen5 및 NVIDIA Magnum IO™ 소프트웨어의 조합은 소규모 엔터프라이즈 시스템에서 대규모 통합 GPU 클러스터까지 효율적인 확장성을 제공합니다.
데이터 센터 규모로 H100 GPU를 구축하면 뛰어난 성능이 제공되고 모든 연구자가 차세대 엑사스케일 고성능 컴퓨팅(HPC)과 1조 개의 매개변수를 갖춘 AI를 활용할 수 있게 됩니다.
다양한 전문가(3,950억 매개 변수)
예상 성능은 변경될 수 있습니다. GPT-3 175B는 A100 클러스터: HDR IB 네트워크, H100 클러스터: NDR IB 네트워크를 교육합니다. Mixture of Experts(MoE)는 1T 토큰 데이터 세트에서 395B 매개변수를 사용하는 Transformer Switch-XXL 변형, A100 클러스터: HDR IB 네트워크, H100 클러스터: NDR IB 네트워크(표시된 경우 NVLink 스위치 시스템 포함)를 교육합니다.
AI는 광범위한 신경망을 사용하여 광범위한 비즈니스 과제를 해결합니다. 훌륭한 AI 추론 가속기는 최고의 성능을 제공할 뿐만 아니라 이러한 네트워크를 가속화하는 다재다능함도 갖춰야 합니다.
H100은 추론을 최대 30배까지 가속화하고 가장 낮은 지연 시간을 제공하는 여러 가지 발전으로 NVIDIA의 시장 선도적 추론 리더십을 확장합니다. 4세대 텐서 코어는 FP64, TF32, FP32, FP16, INT8, 그리고 이제 FP8을 포함한 모든 정밀도를 가속화하여 메모리 사용량을 줄이고 성능을 높이는 동시에 LLM의 정확도를 유지합니다.
Megatron 챗봇 추론(5,300억 매개 변수)
예상 성능은 변경될 수 있습니다. 입력 시퀀스 길이=128, 출력 시퀀스 길이=20에 대한 Megatron 530B 매개변수 모델 기반 챗봇에 대한 추론 | A100 클러스터: HDR IB 네트워크 | H100 클러스터: NVLink 스위치 시스템, NDR IB
NVIDIA 데이터 센터 플랫폼은 무어의 법칙을 뛰어넘는 성능 향상을 지속적으로 제공합니다. 그리고 H100의 새로운 획기적인 AI 기능은 HPC+AI의 힘을 더욱 증폭시켜 세계에서 가장 중요한 과제를 해결하기 위해 노력하는 과학자와 연구자들의 발견 시간을 단축합니다.
H100은 이중 정밀도 텐서 코어의 초당 부동 소수점 연산(FLOPS)을 3배로 늘려 HPC에 60 테라플롭스의 FP64 컴퓨팅을 제공합니다. AI 융합 HPC 애플리케이션은 H100의 TF32 정밀도를 활용하여 코드 변경 없이 단정밀 행렬 곱셈 연산에 대해 1페타플롭의 처리량을 달성할 수도 있습니다.
H100은 또한 DNA 시퀀스 정렬 및 단백질 구조 예측을 위한 단백질 정렬을 위한 Smith-Waterman과 같은 동적 프로그래밍 알고리즘에서 A100보다 7배, CPU보다 40배 더 높은 성능을 제공하는 새로운 DPX 명령어를 탑재하고 있습니다.
예상 성능은 변경될 수 있음. 3D FFT(4K^3) 처리량 | A100 클러스터: HDR IB 네트워크 | H100 클러스터: NVLink 스위치 시스템, NDR IB | 게놈 시퀀싱(Smith-Waterman) | 1 A100 | 1 H100
데이터 분석은 종종 AI 애플리케이션 개발에서 대부분의 시간을 소모합니다. 대규모 데이터 세트가 여러 서버에 분산되어 있기 때문에 범용 CPU 전용 서버를 갖춘 스케일아웃 솔루션은 확장 가능한 컴퓨팅 성능의 부족으로 인해 정체됩니다.
H100을 탑재한 가속 서버는 GPU당 3테라바이트/초(TB/s)의 메모리 대역폭과 NVLink 및 NVSwitch™를 통한 확장성과 함께 컴퓨팅 파워를 제공하여 고성능으로 데이터 분석을 처리하고 방대한 데이터 세트를 지원할 수 있습니다. NVIDIA Quantum-2 InfiniBand, Magnum IO 소프트웨어, GPU 가속 Spark 3.0, NVIDIA RAPIDS™ 와 결합된 NVIDIA 데이터 센터 플랫폼은 이러한 방대한 워크로드를 더 높은 성능과 효율성으로 가속화할 수 있는 독보적인 역량을 갖추고 있습니다.
IT 관리자는 데이터 센터에서 컴퓨팅 리소스의 활용도(피크 및 평균 모두)를 극대화하고자 합니다. 그들은 종종 컴퓨팅의 동적 재구성을 사용하여 사용 중인 워크로드에 적합한 크기의 리소스를 사용합니다.
MIG를 탑재한 H100을 사용하면 인프라 관리자가 GPU 가속 인프라를 표준화하는 동시에 더욱 세부적으로 GPU 리소스를 프로비저닝할 수 있는 유연성을 확보하여 개발자에게 적절한 양의 가속 컴퓨팅을 안전하게 제공하고 모든 GPU 리소스의 사용을 최적화할 수 있습니다.
기존의 기밀 컴퓨팅 솔루션은 CPU 기반이어서 대규모 AI와 같은 컴퓨팅 집약적 워크로드에는 너무 제한적입니다. NVIDIA 기밀 컴퓨팅은 NVIDIA Hopper™ 아키텍처 의 기본 제공 보안 기능으로, H100을 이러한 기능을 갖춘 세계 최초의 가속기로 만들었습니다. NVIDIA Blackwell을 사용하면 사용 중인 데이터와 애플리케이션의 기밀성과 무결성을 보호하면서 성능을 기하급수적으로 높일 수 있는 기회가 생겨 그 어느 때보다 데이터 통찰력을 얻을 수 있습니다. 이제 고객은 가장 성능이 뛰어난 방식으로 전체 워크로드를 보호하고 격리하는 하드웨어 기반 신뢰할 수 있는 실행 환경(TEE)을 사용할 수 있습니다.
Hopper Tensor Core GPU는 테라바이트 규모의 가속 컴퓨팅을 위해 특별히 제작되었으며 대형 모델 AI 및 HPC에서 10배 더 높은 성능을 제공하는 NVIDIA Grace Hopper CPU+GPU 아키텍처를 구동합니다. NVIDIA Grace CPU는 Arm® 아키텍처의 유연성을 활용하여 가속 컴퓨팅을 위해 처음부터 설계된 CPU 및 서버 아키텍처를 만듭니다. Hopper GPU는 NVIDIA의 초고속 칩 간 상호 연결을 사용하여 Grace CPU와 페어링되어 PCIe Gen5보다 7배 빠른 900GB/s의 대역폭을 제공합니다. 이 혁신적인 디자인은 오늘날 가장 빠른 서버에 비해 GPU에 최대 30배 더 높은 총 시스템 메모리 대역폭을 제공하고 테라바이트 규모의 데이터를 실행하는 애플리케이션의 경우 최대 10배 더 높은 성능을 제공합니다.
NVIDIA H100은 5년 NVIDIA AI Enterprise 구독과 함께 제공되며 엔터프라이즈 AI 지원 플랫폼을 구축하는 방식을 간소화합니다. H100은 컴퓨터 비전, 음성 AI, 검색 증강 생성(RAG) 등을 포함한 프로덕션에 적합한 생성 AI 솔루션에 대한 AI 개발 및 배포를 가속화합니다.
NVIDIA AI Enterprise에는 엔터프라이즈 생성 AI 배포를 가속화하도록 설계된 사용하기 쉬운 마이크로서비스 세트인 NVIDIA NIM TM 이 포함됩니다. 함께 배포하면 엔터프라이즈급 보안, 관리 용이성, 안정성 및 지원이 제공됩니다. 이를 통해 더 빠른 비즈니스 가치와 실행 가능한 통찰력을 제공하는 성능 최적화된 AI 솔루션이 탄생합니다.
최대 1,750억 개의 파라미터를 추론하는 LLM의 경우, NV링크 브리지가 있는 PCIe 기반 H100 NVL은 Transformer 엔진, NV링크 및 188GB HBM3 메모리를 활용하여 모든 데이터센터에서 최적의 성능과 간편한 확장을 제공함으로써 LLM을 메인스트림으로 가져옵니다. H100 NVL GPU가 탑재된 서버는 전력 제약이 있는 데이터센터 환경에서 낮은 레이턴시를 유지하면서 NVIDIA DGX™ A100 시스템보다 GPT-175B 모델 성능을 최대 12배까지 향상시킵니다.
메인스트림 서버용 H100에는 엔터프라이즈 지원을 포함한 NVIDIA AI Enterprise 소프트웨어 제품군 5년 구독이 함께 제공되어 최상의 성능으로 AI 채택을 간소화합니다. 따라서 조직은 AI 챗봇, 추천 엔진, 비전 AI 등과 같은 H100 가속 AI 워크플로우를 구축하는 데 필요한 AI 프레임워크와 도구에 액세스할 수 있습니다.
- 희소성 표시, 예비 사양은 변경될 수 있습니다.