Inference

NVIDIA TensorRT, 고성능 딥러닝 추론을 위한 플랫폼

  • HOME >
  • Developer >
  • Inference

NVIDIA TensorRT

NVIDIA TensorRT™ 는 고성능 딥러닝 추론(inference)을 위한 플랫폼입니다. 이것은 딥러닝 추론 어플리케이션을 위한 low latency(낮은 대기시간), 높은 처리량의 실행 시간과 딥러닝 인퍼런스 최적화 도구를 포함합니다. TensorRT 기반의 어플리케이션들은 추론을 수행하는 동안 CPU단일 플랫폼보다 최대 40배 빠르게 수행합니다.
TensorRT를 사용하여, 모든 주요 프레임워크에서 트레이닝 된 신경망 모델의 개발을 최적화하고, 높은 정확성을 갖추어 정교하게 연산을 보정하며, 하이퍼스케일 데이터센터, 임베디드 또는 자동차 제품 플랫폼에 사용할 수 있습니다.

TensorRT는 비디오 스트리밍, 음성인식, 추천과 자연어처리와 같은 딥러닝 추론 어플리케이션의 생산현장 배치를 위한 INT8과 FP16 최적화를 제공합니다.
정교한 정밀도 추론은 많은 리얼타임 서비스, 오토, 그리고 임베디드 어플리케이션들을 위한 필수요건인 어플리케이션 대기시간을 크게 줄일 수 있습니다.

모든 딥러닝 프레임워크에서 TensorRT로 트레이닝 된 모델을 사용할 수 있습니다. 최적화 적용 후, TensorRT는 데이터 센터, Jetson 임베디드 플랫폼, 및 NVIDIA DRIVE 자율 주행 플랫폼의 Tesla GPU 상의 퍼포먼스를 극대화하는 플랫폼 별 커널을 선택합니다.

데이터 센터에서 AI모델을 사용하기 위해, TensorRT 인퍼런스 서버는 컨테이너식 마이크로서비스로서, 이는 GPU 활용을 극대화하고 한 노드에서 동시에 각각의 프레임워크로부터 다수의 모델들을 실행합니다.

개발자들은 TensorRT를 사용하여 퍼포먼스 최적화 과정을 위한 시간을 거치지 않고, 새로운 AI 기반의 추론 어플리케이션을 만드는데 집중할 수 있습니다.

img

TensorRT 최적화와 퍼포먼스

  • img

    굵기 & 활성화 정밀도 교정

    모델을 INT8로 양자화하여 처리량을
    극대화하는 동시에 정확도를 유지합니다.

  • img

    레이어 & 텐서 퓨전

    커널의 노드를 퓨징하여
    GPU 메모리와 bandwith를 최적화합니다.

  • img

    커넬 오토튜닝

    GPU 플랫폼을 기반으로 최고의
    데이터 레이어와 알고리즘을 선택합니다.

  • img

    역동적인 텐서 메모리

    메모리 풋프린트를 최소화하고 텐서의
    메모리를 효율적으로 재사용합니다.

  • img

    멀티 스트림 수행

    다양한 입력 스트림을 병렬로 처리하는
    확장 가능한 디자인

TensorRT는 NVIDIA GPU의 딥러닝 추론 성능을 획기적으로 가속화합니다.
처리량이 높고 지연시간이 짧은 다양한 네트워크에서 얼마나 추론요구를 강화하는지 확인해보세요.

성능 알아보기
CUDA로 개발 된 수천 개의 애플리케이션이 임베디드 시스템, 워크 스테이션, 데이터 센터 및 클라우드의 GPU에 배포되었습니다.

img

모든 주요 프레임워크의 통합

NVIDIA는 TensorRT를 사용하여 AI 플랫폼에서 추론에 최적화된 성능을 달성하기 위해 딥러닝 프레임워크 개발자와 긴밀하게 협력합니다.
트레이닝 모델이 ONNX 포맷이나 TensorFlow나 MATLAB과 같은 다른 인기 프레임워크에 있는 경우, 추론을 위해 TensorRT로 모델을 가져오는 쉬운 방법이 있습니다.
아래는 시작방법에 대한 정보를 담은 몇 가지 통합입니다.

  • img

    TensorRT와 TensorFlow는 긴밀하게 통합되어 있기 때문에 TensorRT의 강력한 최적화와 함께 TensorFlow의 유연성을 얻을 수 있습니다.
    TensorFlow blog 포스트와 통합된 TensorRT에서 자세한 내용을 알아보세요.

  • img

    MATLAB은 GPU Coder를 통해 TensorRT와 통합됩니다. 그래서 MATLAP을 사용하는 엔지니어와 과학자들은 Jetson, Drive 및 Tesla 플랫폼을 위한 고성능의 추론 엔진을 자동으로 생성할 수 있습니다. 이 웹세미나에 대해 더 알아보세요.

  • img

    TensorRT는 ONNX 파서를 제공하여 Caffe 2, Chainer, Microsoft Cognitive Toolkit, MxNet 및 PyTorch와 같은 프레임워크에서 ONNX 모델을 TensorRT로 쉽게 가져올 수 있습니다. 여기에서 TensorRT의 ONNX 지원에 대해 자세히 알아보세요.

전용 또는 사용자 프레임워크에서 딥러닝 트레이닝을 수행하면 모델을 가속화하고 가져오는 데TensorRT C++ API를 사용합니다. TensroRT 문서에서 더 자세히 읽어보세요.

NVIDIA TensorRT 추론 서버

NVIDIA TensorRT 추론 서버는 데이터 센터 생산에서 AI 추론을 사용하는 것을 단순화합니다. Docker와 Kubernetes 통합으로 데이터 센터 생산이 GPU 이용을 최대로 활용하고 DevOps 구축에 원활하게 통합되는 추론 마이크로서비스입니다.

TensorRT 추론 서버

  • • 하나 이상의 GPU에서 여러 모델에 대한 추론을 가능하게 하여 활용을 극대화
  • • 모든 인기있는 AI 프레임워크를 지원
  • • 오디오 스트리밍 입력 지원
  • • 역동적으로 요청을 묶어 처리량을 높임
  • • 자동 확장과 로드 밸런싱을 위한 지연 시간과 헬스 메트릭을 제공

TensorRT 추론 서버는 NGC 컨테이너 레지스트리로부터 배포 가능한 컨테이너에서 제공되므로 운영환경에서 사용하는 것을 단순하게 합니다.
(운영 환경에서 간편하게 사용할 수 있습니다.)
또한 개발자들이 커스터마이즈 하고 명확한 데이터 센터의 워크플로우에 맞는 소프트웨어의 기능을 확장하는 것을 가능하게 함으로써 오픈소스로도 사용할 수 있습니다. TensorRT 추론 서버를
사용하여, 이제 AI 추론을 위한 공통의 솔루션이 마련되어, 각각의 AI를 이용하는 애플리케이션을 위한
배관을 낭비할 필요없이, 연구자들이 고품질의 숙달 모델을 창출하고 DevOps 엔지니어들이
배치하는데 집중하며 개발자들이 애플리케이션에 집중하는 것을 가능하게 합니다.

NGC 컨테이너 레지스트리에서 TensorRT 추론 서버를 다운로드 하거나
GitHub에서 오픈소스 프로젝트에 액세스하세요.

img

TensorRT 5.1과 TensorRT 추론 서버의 새로운 기능

TensorRT 5.1은 20개 이상의 새로운 Tensorflow와 ONNX 작업을 위한 지원, 엔진에서 빠르게 모델 가중치를 업데이트 하는 기능 및 더 높은 성능을 위해 기본 프레임워크 포맷과 일치하는 새로운 패딩 모드를 포함합니다. 이 새로운 버전으로, 애플리케이션은 이미지/비디오, 번역 및 음성 애플리케이션을 위한 튜링 GPU에서 혼합 정밀도를 사용하는 추론 중에 40배 이상 빠른 성능을 보여줍니다.

TensorRT 추론 서버

  • • TensorFlow와 ONNX에서 20개 이상의 새로운 레이어, 액티베이션, 오퍼레이션으로 DenseNet과 TinyYOLO 와 같은 모델을 최적화합니다.
  • • 기존 엔진에서 재구성 없이 모델 무게를 업데이트 합니다.
  • • NVIDIA DLA 가속기를 사용하는 Xaiver 기반의 NVIDIA AGX 플렛폼에 INT8 정밀도로 애플리케이션을 구현합니다.
  • • 역동적으로 요청을 묶어 처리량을 높임
  • • 자동 확장과 로드 밸런싱을 위한 지연 시간과 헬스 메트릭을 제공

TensorRT는 모든 프레임워크를 지원하는 동시에 TensorFlow 2.0 에도 포함되어 있어 TensorFlow 사용자에게 강력한 TensorRT 최적화를 제공합니다. 또한 TensorRT는 ONNX 런타임과 통합되어 ONNX 포맷에서 다양한 머신 러닝 모델을 위한 고성능 추론을 가능하게 합니다. 이에 더하여 TensorRT 5.1은 NVTX 포맷과 버그 수정 지원을 통한 새로운 샘플, 새로운 디버깅 기능을 포함합니다.

TensorRT 5.1 Release Candidate는 지금 NVIDIA 개발자 프로그램의 멤버들은 다운로드 가능합니다. 바로가기

NVIDIA TensorRT 추론 서버 1.0는 오디오 스트리밍 API, 버그 수정 및 향상된 기능이 포함되어 있으며 모든 향후 버전은 이 버전과 역호환 됩니다.
NGC 컨테이너 레지스트리로부터 배포 가능한 컨테이너로, 그리고 GitHub의 오픈소스 프로젝트로 이용 가능 합니다.

실습 트레이닝을 시작하세요.

NVIDIA Deep Learning Institute (DLI)는 AI 및 가속화 컴퓨팅 분야의 개발자, 데이터 과학자, 연구자에게 실습 트레이닝을 제공합니다. 지금 TensorRT를 사용하는 지능형 비디오 분석을 위한 TensorRT와 배포를 사용하는 TensroFlow 모델의 최적화 및 배포에 대한 TensorRT 자기 주도 학습선택으로 체험학습을 시작하세요.

유용성

TensorRT는 개발과 배치를 위해 TensorRT 제품페이지에서 NVIDIA 개발자 프로그램의 멤버들에게 무료로 이용 가능합니다. 개발자는 NGC 컨테이너 레지스트리로부터 TensorRT를 TensorRT 컨테이너로 모을 수 있습니다. TensorRT 추론 서버는 NGC 컨테이너 레지스트리에서 배포 가능한 컨테이너로, 또한 GitHub에서오픈소스 프로젝트로 이용가능합니다.

TensorRT는 다음 항목에 포함되어 있습니다.

  • • Jetson TX1, TX2 임베디드 플랫폼용 NVIDIA Jetpack
  • • NVIDIA DRIVE PX2 자율 주행 플랫폼용 NVIDIA DriveInstall
  • • 지능형 비디오 분석 애플리케이션용 Deepstream SDK
바로가기