AI의 운영 체제
NVIDIA Dynamo 플랫폼은 모든 프레임워크, 아키텍처 또는 배포 규모에 걸쳐 모든 AI 모델을 지원하도록 설계된 고성능, 저지연 추론 플랫폼입니다. 단일 엔트리 레벨 GPU에서 이미지 인식을 실행하든 수십만 개의 데이터센터 GPU에 걸쳐 수십억 개의 매개변수를 가진 대규모 언어 추론 모델을 배포하든, NVIDIA Dynamo 플랫폼은 확장 가능하고 효율적인 AI 추론을 제공합니다.
분산 추론은 계산을 병렬화하여 처리량을 극대화하기 위해 여러 컴퓨팅 장치나 노드에서 AI 모델 추론을 실행하는 프로세스입니다. 이 접근 방식은 GPU 또는 클라우드 인프라에 워크로드를 분산함으로써 생성 AI와 같은 대규모 AI 애플리케이션의 효율적인 확장을 지원합니다. 분산 추론은 사용자가 각 워크로드의 고유한 요구 사항에 맞춰 지연 시간과 처리량을 최적화할 수 있도록 하여 전반적인 성능과 리소스 활용도를 향상시킵니다.
플랫폼을 자세히 살펴보기
NVIDIA Dynamo 플랫폼에는 두 개의 오픈소스 추론 제공 프레임워크가 포함되어 있습니다.NVIDIA Dynamo는 대규모 분산 환경에서 생성적 AI 모델을 제공합니다. 분산 서비스 제공 및 키 값 캐시(KV 캐시) 인식 라우팅과 같은 대규모 언어 모델(LLM)별 최적화 기능을 제공하여 AI 팩토리가 토큰 수익 창출을 극대화하고 최저 비용으로 운영될 수 있도록 지원합니다. NVIDIA NIM™ 마이크로서비스에는 Dynamo 기능이 포함되어 빠르고 간편한 배포 옵션을 제공합니다. Dynamo는 NVIDIA AI Enterprise 에서도 지원 및 제공됩니다
NVIDIA Dynamo-Triton(이전 NVIDIA Triton™ Inference Server)은 모든 워크로드에서 AI 모델 배포 및 실행을 표준화합니다. 모든 AI 추론 백엔드를 지원하고 GPU 또는 CPU에서 실행 가능하여 기업과 ISV가 자사 제품 및 서비스에 AI를 빠르고 비용 효율적으로 통합할 수 있도록 지원합니다. Dynamo-Triton은 현재 NVIDIA NIM 마이크로서비스와 NVIDIA AI Enterprise 를 통해 엔터프라이즈급 지원, 보안 및 안정성을 제공합니다.
당신에게 가장 적합한 솔루션을 찾으세요
-
표준화된 AI 모델 제공 NVIDIA Dynamo-Triton
GPU, CPU 또는 기타 프로세서의 모든 프레임워크에서 학습된 머신 러닝이나 딥 러닝 모델에 AI 추론을 배포합니다.
-
분산형 생성 AI 서비스 NVIDIA Dynamo
가장 낮은 비용과 가장 높은 효율성으로 대규모 다중 노드 분산 환경에 생성적 AI 모델을 배포합니다.
-
쉽고 빠른 프로덕션 배포 NVIDIA NIM
NVIDIA AI Enterprise에서도 사용 가능한 NIM 마이크로서비스는 시간이 지남에 따라 Dynamo Platform 기능을 지속적으로 포함하므로 빠르고 쉽게 배포할 수 있습니다.
NVIDIA Dynamo를 사용한 AI 배포
NVIDIA Dynamo로 혁신을 주도하는 방법을 알아보세요.

추론 모델은 복잡한 문제를 해결하기 위해 더 많은 토큰을 생성하여 추론 비용을 증가시킵니다. NVIDIA Dynamo는 분산 처리(disaggregated serving)와 같은 기능을 통해 이러한 모델을 최적화합니다. 이러한 접근 방식은 프리필(prefill)과 디코딩(decode) 연산 단계를 별도의 GPU로 분리하여 AI 추론 팀이 각 단계를 독립적으로 최적화할 수 있도록 합니다. 결과적으로 리소스 활용도가 향상되고, GPU당 처리되는 쿼리 수가 늘어나며, 추론 비용이 절감됩니다.

AI 모델이 단일 노드에 비해 너무 커짐에 따라 효율적인 서비스 제공이 어려워집니다. 분산 추론을 위해서는 모델을 여러 노드로 분할해야 하므로 오케스트레이션, 확장 및 통신에 복잡성이 가중됩니다. 특히 동적 워크로드 환경에서 이러한 노드가 하나의 응집력 있는 단위로 기능하도록 하려면 세심한 관리가 필요합니다. NVIDIA Dynamo는 Kubernetes에서 사전 구축된 기능을 제공하여 스케줄링, 확장 및 서비스를 원활하게 처리함으로써 인프라 관리가 아닌 AI 배포에 집중할 수 있도록 지원합니다.

AI Agents는 LLM, 검색 시스템, 특수 도구 등 여러 모델을 실시간으로 동기화하여 작동합니다. 이러한 에이전트를 확장하는 것은 복잡한 과제이며, 지능형 GPU 스케줄링, 효율적인 KV 캐시 관리, 그리고 응답성을 유지하기 위한 초저지연 통신이 필요합니다. NVIDIA Dynamo는 내장된 지능형 GPU 플래너, 스마트 라우터, 그리고 저지연 통신 라이브러리를 통해 이 프로세스를 간소화하여 AI 에이전트의 원활하고 효율적인 확장을 지원합니다.

코드 생성에는 모델의 응답에 따라 프롬프트를 조정하고, 요구 사항을 명확히 하고, 출력을 디버깅하기 위한 반복적인 개선 작업이 필요한 경우가 많습니다. 이러한 반복적인 작업으로 인해 사용자 차례가 바뀔 때마다 컨텍스트 재계산이 필요하게 되어 추론 비용이 증가합니다. NVIDIA Dynamo는 컨텍스트 재사용을 지원하고 비용 효율적인 메모리로 오프로드하여 값비싼 재계산을 최소화하고 전반적인 추론 비용을 줄임으로써 이 프로세스를 최적화합니다.
NVIDIA Dynamo 작동 방식
모델은 점점 더 커지고 여러 모델과의 상호작용이 필요한 AI 워크플로에 더욱 통합되고 있습니다. 이러한 모델을 대규모로 배포하려면 여러 노드에 분산해야 하며, GPU 간의 세심한 조정이 필요합니다. 응답을 여러 GPU에 분산하는 분산 서비스(disaggregated serving)와 같은 추론 최적화 방식은 복잡성을 증가시켜 협업 및 데이터 전송에 어려움을 가중시킵니다.
NVIDIA Dynamo는 분산 및 분리 추론 서비스의 과제를 해결합니다.
-
GPU 리소스 플래너
다중 노드 배포에서 용량과 사전 채우기 활동을 모니터링하여 GPU 리소스를 조정하고 사전 채우기 및 디코딩에 할당하는 계획 및 스케줄링 엔진입니다.
-
스마트 라우터
다중 노드 배포에서 대규모 GPU 플릿에 수신 트래픽을 효율적으로 전달하여 비용이 많이 드는 재계산을 최소화하는 KV 캐시 인식 라우팅 엔진입니다.
-
저지연 통신 라이브러리
GPU 간, 그리고 이기종 메모리와 스토리지 유형 간에 KV 캐시 전송을 가속화하는 최첨단 추론 데이터 전송 라이브러리입니다.
-
KV 캐시 관리자
다양한 메모리 계층에 걸쳐 KV 캐시를 전송하도록 설계된 비용 인식형 KV 캐시 오프로딩 엔진으로, 사용자 경험을 유지하면서 귀중한 GPU 메모리를 확보합니다.
NVIDIA Dynamo 시작하기
모든 플랫폼의 모든 애플리케이션에 대한 AI 추론을 배포, 실행 및 확장할 수 있는 올바른 라이선스를 찾아보세요.
개발용 코드 다운로드
최신 문서, 튜토리얼, 기술 블로그 등 Dynamo를 사용하여 개발을 시작하는 데 필요한 자료를 찾아보세요. NVIDIA Dynamo와 NVIDIA Dynamo-Triton은 종단 간 예제가 포함된 오픈 소스 소프트웨어로 GitHub에서 제공됩니다.
구매 및 문의하기
NVIDIA Dynamo-Triton은 NVIDIA AI Enterprise를 통해 엔터프라이즈급 지원, 보안, 안정성 및 관리 편의성을 제공합니다. NVIDIA Dynamo는 향후 출시될 NVIDIA AI Enterprise의 프로덕션 추론 기능에 포함될 예정입니다.