Fundamentals of Accelerated Data Science
(가속화된 데이터 과학의 기초)
교육시간
1일 8시간
언어
영어
기술
RAPIDS, cuDF, XGBoost, cuML, cuGraph, Dask, cuPy, pandas, NumPy, Bokeh
이미지
교육목적
  • 여러분의 회사가 고객 유지율을 개선해야 하는 소프트웨어 회사인지, 위험을 완화해야 하는 금융 서비스 회사 또는 고객 구매 행동을 예측하는 데 관심이 있는 리테일 회사에 해당되는 지와 관계없이 회사는 중요 리소스를 낭비하지 않으면서 대용량 데이터를 준비하고 관리하고 그로부터 인사이트를 확보해야 합니다. 기존 CPU 중심의 데이터 사이언스 워크플로우는 번거로울 수 있지만 GPU의 성능을 활용하면 팀에서 데이터를 빠르게 파악하여 비즈니스 의사 결정을 내릴 수 있습니다.
  • 이 교육에서는 작업을 빠르게 탐색하고 반복 작업하여 프로덕션으로 투입할 수 있게 만드는 엔드 투 엔드 GPU 가속 데이터 사이언스 워크플로우를 구축하고 실행하는 방법을 설명합니다. RAPIDS™ 가속 데이터 사이언스 라이브러리를 사용하여 XGBoost, cuGRAPH의 단일 소스 최단 경로, cuML의 KNN, DBSCAN 및 로지스틱 회귀를 포함하는 매우 다양한 GPU 가속 머신 러닝 알고리즘을 적용해 원하는 규모로 데이터 분석을 수행합니다.
전제조건
Python에 대한 경험(pandas 및 NumPy를 알면 더욱 이상적)
인증서
평가를 성공적으로 완료한 참가자는 관련 분야에 대한 역량을 인정 받고, 전문적 커리어 성장을 지원하는 NVIDIA DLI 인증서를 받게 됩니다.
사전준비 (하드웨어 요구 사항)
최신 버전의 Chrome 또는 Firefox를 실행할 수 있는 데스크톱 또는 노트북을 준비한 참가자에게는 클라우드 상에서 완전하게 구성된 GPU 가속 서버에 접근할 수 있는 전용 권한이 주어집니다.
교육문의하기
학습목표
  • 01

    cuDF 및 Apache Arrow 데이터 프레임을 사용하여 GPU 가속 데이터 준비 및 특징 추출 구현
  • 02

    XGBoost 및 다양한 cuML 알고리즘을 사용하여 광범위한 GPU 가속 머신 러닝 작업 적용
  • 03

    cuGraph를 사용하여 GPU 가속 그래프 분석을 실행하고 단기간에 방대한 규모의 분석 달성
  • 04

    cuGraph 루틴을 사용하여 방대한 규모의 그래프 분석을 빠르게 달성
NVIDIA | DEEP LEARNING INSTITUTE
Workshop Outline
인트로(15분) · 전문가 강사와 만나기
· courses.nvidia.com/join에서 계정 생성하기
GPU 가속 데이터 조작
(120 분)
교육 후반의 여러 가지 머신 러닝 실습에서 활용할 몇몇 데이터세트를 가져와서 준비합니다. (일부는 메모리보다 큼)
· cuDF 및 Dask cuDF를 사용하여 단일 및 멀티 GPU로 직접 데이터 읽기
· cuDF를 사용하여 GPU에서 머신 러닝 작업을 위한 인구, 도로망, 클리닉 정보 준비하기
휴식 (60분)
GPU 가속 머신 러닝
(120 분)
첫 번째 섹션에서 준비한 데이터에 몇 가지 필수 머신 러닝 기술을 적용합니다.
· cuML를 활용하여 지도 및 비지도 GPU 가속 알고리즘 사용하기
· 멀티 GPU에서 Dask를 사용하여 XGBoost 모델 트레이닝하기
· cuGraph를 사용하여 GPU에서 그래프 데이터 생성 후 분석하기
휴식 (15분)
프로젝트: 데이터 분석을 통해
영국 구하기 (120 분)
영국의 전체 인구에 영향을 미치는 시뮬레이션된 유행병을 예방하도록 인구 규모 데이터에 새로운 GPU 가속 데이터 조작 및 분석 기술을 적용합니다.
· RAPIDS를 사용하여 여러 방대한 데이터 세트를 통합하고 실제 분석 수행하기
· 시뮬레이션된 유행병이 시뮬레이션된 각 날짜마다 새로운 데이터를 제공하므로 피벗하고 분석을 반복하기
평가 및 Q&A (15분)