Fundamentals of Accelerated Data Science
(가속화된 데이터 과학의 기초)
(가속화된 데이터 과학의 기초)
- 교육시간
- 1일 8시간
- 언어
- 영어
- 기술
- RAPIDS, cuDF, XGBoost, cuML, cuGraph, Dask, cuPy, pandas, NumPy, Bokeh

교육목적
- 여러분의 회사가 고객 유지율을 개선해야 하는 소프트웨어 회사인지, 위험을 완화해야 하는 금융 서비스 회사 또는 고객 구매 행동을 예측하는 데 관심이 있는 리테일 회사에 해당되는 지와 관계없이 회사는 중요 리소스를 낭비하지 않으면서 대용량 데이터를 준비하고 관리하고 그로부터 인사이트를 확보해야 합니다. 기존 CPU 중심의 데이터 사이언스 워크플로우는 번거로울 수 있지만 GPU의 성능을 활용하면 팀에서 데이터를 빠르게 파악하여 비즈니스 의사 결정을 내릴 수 있습니다.
- 이 교육에서는 작업을 빠르게 탐색하고 반복 작업하여 프로덕션으로 투입할 수 있게 만드는 엔드 투 엔드 GPU 가속 데이터 사이언스 워크플로우를 구축하고 실행하는 방법을 설명합니다. RAPIDS™ 가속 데이터 사이언스 라이브러리를 사용하여 XGBoost, cuGRAPH의 단일 소스 최단 경로, cuML의 KNN, DBSCAN 및 로지스틱 회귀를 포함하는 매우 다양한 GPU 가속 머신 러닝 알고리즘을 적용해 원하는 규모로 데이터 분석을 수행합니다.


- 전제조건
- Python에 대한 경험(pandas 및 NumPy를 알면 더욱 이상적)
- 인증서
- 평가를 성공적으로 완료한 참가자는 관련 분야에 대한 역량을 인정 받고, 전문적 커리어 성장을 지원하는 NVIDIA DLI 인증서를 받게 됩니다.
- 사전준비 (하드웨어 요구 사항)
- 최신 버전의 Chrome 또는 Firefox를 실행할 수 있는 데스크톱 또는 노트북을 준비한 참가자에게는 클라우드 상에서 완전하게 구성된 GPU 가속 서버에 접근할 수 있는 전용 권한이 주어집니다.
학습목표
-
01
cuDF 및 Apache Arrow 데이터 프레임을 사용하여 GPU 가속 데이터 준비 및 특징 추출 구현 -
02
XGBoost 및 다양한 cuML 알고리즘을 사용하여 광범위한 GPU 가속 머신 러닝 작업 적용 -
03
cuGraph를 사용하여 GPU 가속 그래프 분석을 실행하고 단기간에 방대한 규모의 분석 달성 -
04
cuGraph 루틴을 사용하여 방대한 규모의 그래프 분석을 빠르게 달성
Workshop Outline
인트로(15분) |
· 전문가 강사와 만나기 · courses.nvidia.com/join에서 계정 생성하기 |
---|---|
GPU 가속 데이터 조작 (120 분) |
교육 후반의 여러 가지 머신 러닝 실습에서 활용할 몇몇 데이터세트를 가져와서 준비합니다. (일부는 메모리보다 큼) · cuDF 및 Dask cuDF를 사용하여 단일 및 멀티 GPU로 직접 데이터 읽기 · cuDF를 사용하여 GPU에서 머신 러닝 작업을 위한 인구, 도로망, 클리닉 정보 준비하기 |
휴식 (60분) | |
GPU 가속 머신 러닝 (120 분) |
첫 번째 섹션에서 준비한 데이터에 몇 가지 필수 머신 러닝 기술을 적용합니다. · cuML를 활용하여 지도 및 비지도 GPU 가속 알고리즘 사용하기 · 멀티 GPU에서 Dask를 사용하여 XGBoost 모델 트레이닝하기 · cuGraph를 사용하여 GPU에서 그래프 데이터 생성 후 분석하기 |
휴식 (15분) | |
프로젝트: 데이터 분석을 통해 영국 구하기 (120 분) |
영국의 전체 인구에 영향을 미치는 시뮬레이션된 유행병을 예방하도록 인구 규모 데이터에
새로운 GPU 가속 데이터 조작 및 분석 기술을 적용합니다. · RAPIDS를 사용하여 여러 방대한 데이터 세트를 통합하고 실제 분석 수행하기 · 시뮬레이션된 유행병이 시뮬레이션된 각 날짜마다 새로운 데이터를 제공하므로 피벗하고 분석을 반복하기 |
평가 및 Q&A (15분) |