AI의 운영 체제

NVIDIA Dynamo 플랫폼은 모든 프레임워크, 아키텍처 또는 배포 규모에 걸쳐 모든 AI 모델을 지원하도록 설계된 고성능, 저지연 추론 플랫폼입니다. 단일 엔트리 레벨 GPU에서 이미지 인식을 실행하든 수십만 개의 데이터센터 GPU에 걸쳐 수십억 개의 매개변수를 가진 대규모 언어 추론 모델을 배포하든, NVIDIA Dynamo 플랫폼은 확장 가능하고 효율적인 AI 추론을 제공합니다.

분산 추론이란 무엇인가?

분산 추론은 계산을 병렬화하여 처리량을 극대화하기 위해 여러 컴퓨팅 장치나 노드에서 AI 모델 추론을 실행하는 프로세스입니다. 이 접근 방식은 GPU 또는 클라우드 인프라에 워크로드를 분산함으로써 생성 AI와 같은 대규모 AI 애플리케이션의 효율적인 확장을 지원합니다. 분산 추론은 사용자가 각 워크로드의 고유한 요구 사항에 맞춰 지연 시간과 처리량을 최적화할 수 있도록 하여 전반적인 성능과 리소스 활용도를 향상시킵니다.

플랫폼을 자세히 살펴보기

NVIDIA Dynamo 플랫폼에는 두 개의 오픈소스 추론 제공 프레임워크가 포함되어 있습니다.

NVIDIA Dynamo는 대규모 분산 환경에서 생성적 AI 모델을 제공합니다. 분산 서비스 제공 및 키 값 캐시(KV 캐시) 인식 라우팅과 같은 대규모 언어 모델(LLM)별 최적화 기능을 제공하여 AI 팩토리가 토큰 수익 창출을 극대화하고 최저 비용으로 운영될 수 있도록 지원합니다. NVIDIA NIM™ 마이크로서비스에는 Dynamo 기능이 포함되어 빠르고 간편한 배포 옵션을 제공합니다. Dynamo는 NVIDIA AI Enterprise 에서도 지원 및 제공됩니다

NVIDIA Dynamo-Triton(이전 NVIDIA Triton™ Inference Server)은 모든 워크로드에서 AI 모델 배포 및 실행을 표준화합니다. 모든 AI 추론 백엔드를 지원하고 GPU 또는 CPU에서 실행 가능하여 기업과 ISV가 자사 제품 및 서비스에 AI를 빠르고 비용 효율적으로 통합할 수 있도록 지원합니다. Dynamo-Triton은 현재 NVIDIA NIM 마이크로서비스와 NVIDIA AI Enterprise 를 통해 엔터프라이즈급 지원, 보안 및 안정성을 제공합니다.

이미지

당신에게 가장 적합한 솔루션을 찾으세요

  • 이미지
    표준화된 AI 모델 제공 NVIDIA Dynamo-Triton

    GPU, CPU 또는 기타 프로세서의 모든 프레임워크에서 학습된 머신 러닝이나 딥 러닝 모델에 AI 추론을 배포합니다.

  • 이미지
    분산형 생성 AI 서비스 NVIDIA Dynamo

    가장 낮은 비용과 가장 높은 효율성으로 대규모 다중 노드 분산 환경에 생성적 AI 모델을 배포합니다.

  • 이미지
    쉽고 빠른 프로덕션 배포 NVIDIA NIM

    NVIDIA AI Enterprise에서도 사용 가능한 NIM 마이크로서비스는 시간이 지남에 따라 Dynamo Platform 기능을 지속적으로 포함하므로 빠르고 쉽게 배포할 수 있습니다.

NVIDIA Dynamo의 기능 살펴보기

  • 분리된 서비스 제공

    LLM 컨텍스트(사전 채우기)와 생성(디코드) 단계를 여러 GPU에 걸쳐 분리하여 맞춤형 모델 병렬 처리와 독립적인 GPU 할당을 가능하게 하여 GPU당 처리되는 요청 수를 늘립니다.

  • GPU 플래너

    분산 추론 환경에서 GPU 용량을 모니터링하고, 병목 현상을 해결하고 성능을 최적화하기 위해 컨텍스트 및 생성 단계에 걸쳐 GPU 작업자를 동적으로 할당합니다.

  • 최고 수준의 인프라 복원력

    추론 트래픽을 효율적으로 라우팅하여 반복되거나 중복되는 요청에 대한 비용이 많이 드는 재계산을 최소화하고, 대규모 GPU 플릿에서 균형 잡힌 부하 분산을 보장하면서 컴퓨팅 리소스를 보존합니다.

  • NIXL 저지연 통신 라이브러리

    GPU, CPU, 네트워크, 스토리지 등 다양한 하드웨어에서 전송의 복잡성을 단순화하는 동시에 분산 추론 설정에서 데이터 이동을 가속화합니다.

NVIDIA Dynamo의 이점

  • 하나의 GPU에서 수천 개의 GPU까지 원활하게 확장

    사전 구축되고 배포하기 쉬운 도구를 사용하여 GPU 클러스터 설정을 간소화하고 자동화하며, 실시간 LLM별 메트릭을 사용하여 동적 자동 확장을 활성화하여 GPU 리소스의 과도하거나 부족한 프로비저닝을 방지합니다.

  • 비용 절감과 동시에 추론 서비스 용량 증가

    분산 제공과 같은 고급 LLM 추론 제공 최적화를 활용하여 사용자 경험을 저하시키지 않고 제공되는 추론 요청 수를 늘립니다.

  • AI 인프라를 미래에 대비하고
    비용이 많이 드는 마이그레이션을 방지

    개방적이고 모듈식 설계를 통해 고유한 요구 사항에 맞는 추론 지원 구성 요소를 쉽게 선택할 수 있으므로 기존 AI 스택과의 호환성이 보장되고 비용이 많이 드는 마이그레이션 프로젝트를 피할 수 있습니다.

  • 프로덕션에서 새로운
    AI 모델을 배포하는 시간 단축

    NVIDIA Dynamo는 TensorRT-LLM, vLLM, SGLang, PyTorch 등 모든 주요 프레임워크를 지원하므로 백엔드에 관계없이 새로운 생성 AI 모델을 빠르게 배포할 수 있습니다.

NVIDIA Dynamo를 사용한 AI 배포

NVIDIA Dynamo로 혁신을 주도하는 방법을 알아보세요.

이미지
추론 모델 제공

추론 모델은 복잡한 문제를 해결하기 위해 더 많은 토큰을 생성하여 추론 비용을 증가시킵니다. NVIDIA Dynamo는 분산 처리(disaggregated serving)와 같은 기능을 통해 이러한 모델을 최적화합니다. 이러한 접근 방식은 프리필(prefill)과 디코딩(decode) 연산 단계를 별도의 GPU로 분리하여 AI 추론 팀이 각 단계를 독립적으로 최적화할 수 있도록 합니다. 결과적으로 리소스 활용도가 향상되고, GPU당 처리되는 쿼리 수가 늘어나며, 추론 비용이 절감됩니다.

이미지
분산 추론

AI 모델이 단일 노드에 비해 너무 커짐에 따라 효율적인 서비스 제공이 어려워집니다. 분산 추론을 위해서는 모델을 여러 노드로 분할해야 하므로 오케스트레이션, 확장 및 통신에 복잡성이 가중됩니다. 특히 동적 워크로드 환경에서 이러한 노드가 하나의 응집력 있는 단위로 기능하도록 하려면 세심한 관리가 필요합니다. NVIDIA Dynamo는 Kubernetes에서 사전 구축된 기능을 제공하여 스케줄링, 확장 및 서비스를 원활하게 처리함으로써 인프라 관리가 아닌 AI 배포에 집중할 수 있도록 지원합니다.

이미지
확장 가능한 AI Agents

AI Agents는 LLM, 검색 시스템, 특수 도구 등 여러 모델을 실시간으로 동기화하여 작동합니다. 이러한 에이전트를 확장하는 것은 복잡한 과제이며, 지능형 GPU 스케줄링, 효율적인 KV 캐시 관리, 그리고 응답성을 유지하기 위한 초저지연 통신이 필요합니다. NVIDIA Dynamo는 내장된 지능형 GPU 플래너, 스마트 라우터, 그리고 저지연 통신 라이브러리를 통해 이 프로세스를 간소화하여 AI 에이전트의 원활하고 효율적인 확장을 지원합니다.

이미지
소프트웨어 포트폴리오 극대화

코드 생성에는 모델의 응답에 따라 프롬프트를 조정하고, 요구 사항을 명확히 하고, 출력을 디버깅하기 위한 반복적인 개선 작업이 필요한 경우가 많습니다. 이러한 반복적인 작업으로 인해 사용자 차례가 바뀔 때마다 컨텍스트 재계산이 필요하게 되어 추론 비용이 증가합니다. NVIDIA Dynamo는 컨텍스트 재사용을 지원하고 비용 효율적인 메모리로 오프로드하여 값비싼 재계산을 최소화하고 전반적인 추론 비용을 줄임으로써 이 프로세스를 최적화합니다.

NVIDIA Dynamo 작동 방식

모델은 점점 더 커지고 여러 모델과의 상호작용이 필요한 AI 워크플로에 더욱 통합되고 있습니다. 이러한 모델을 대규모로 배포하려면 여러 노드에 분산해야 하며, GPU 간의 세심한 조정이 필요합니다. 응답을 여러 GPU에 분산하는 분산 서비스(disaggregated serving)와 같은 추론 최적화 방식은 복잡성을 증가시켜 협업 및 데이터 전송에 어려움을 가중시킵니다.

이미지

NVIDIA Dynamo는 분산 및 분리 추론 서비스의 과제를 해결합니다.

  • GPU 리소스 플래너

    다중 노드 배포에서 용량과 사전 채우기 활동을 모니터링하여 GPU 리소스를 조정하고 사전 채우기 및 디코딩에 할당하는 계획 및 스케줄링 엔진입니다.

  • 스마트 라우터

    다중 노드 배포에서 대규모 GPU 플릿에 수신 트래픽을 효율적으로 전달하여 비용이 많이 드는 재계산을 최소화하는 KV 캐시 인식 라우팅 엔진입니다.

  • 저지연 통신 라이브러리

    GPU 간, 그리고 이기종 메모리와 스토리지 유형 간에 KV 캐시 전송을 가속화하는 최첨단 추론 데이터 전송 라이브러리입니다.

  • KV 캐시 관리자

    다양한 메모리 계층에 걸쳐 KV 캐시를 전송하도록 설계된 비용 인식형 KV 캐시 오프로딩 엔진으로, 사용자 경험을 유지하면서 귀중한 GPU 메모리를 확보합니다.

NVIDIA Dynamo 시작하기

모든 플랫폼의 모든 애플리케이션에 대한 AI 추론을 배포, 실행 및 확장할 수 있는 올바른 라이선스를 찾아보세요.

개발자를 위한 Dynamo
개발용 코드 다운로드

최신 문서, 튜토리얼, 기술 블로그 등 Dynamo를 사용하여 개발을 시작하는 데 필요한 자료를 찾아보세요. NVIDIA Dynamo와 NVIDIA Dynamo-Triton은 종단 간 예제가 포함된 오픈 소스 소프트웨어로 GitHub에서 제공됩니다.

NVIDIA AI Enterprise
구매 및 문의하기

NVIDIA Dynamo-Triton은 NVIDIA AI Enterprise를 통해 엔터프라이즈급 지원, 보안, 안정성 및 관리 편의성을 제공합니다. NVIDIA Dynamo는 향후 출시될 NVIDIA AI Enterprise의 프로덕션 추론 기능에 포함될 예정입니다.

NVIDIA 소프트웨어 문의하기
맨위로가기