기초부터 배우는 2022 데이타로봇 자동 머신러닝 튜토리얼

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News KR 기초부터 배우는 2022 데이타로봇 자동 머신러닝 튜토리얼

기초부터 배우는 2022 데이타로봇 자동 머신러닝 튜토리얼

데이터 준비하기 (선택사항)
DataRobot에 로그인하기
데이터를 DataRobot으로 가져오기
타겟 변수 입력하기
모델링 모드 선택하기
데이터 페이지로 이동하기
데이터 품질 평가하기
특성 선택하기
특성 리스트 만들기
특성 리스트 확인하기
특성 엔지니어링하기
모델 선택하기
특성 리스트 선택하기
샘플 크기 변경하기
교차검증 설정하기
모델 추가하기
모델 정보 확인하기
모델 평가하기
졸업시키기
특성 중요도 확인하기
속도 vs 정확도 확인하기
모델 비교하기
모델 선택하기
예측하기
예측 결과 다운로드하기

데이터 준비하기 (선택사항)

Step 0은 모델링을 위한 데이터를 준비하는 단계입니다. 이 튜토리얼에서는 s k learn의 유방암 데이터셋을 사용합니다. 여러분은 이 노트북을 따라가서 훈련 및 테스트 데이터셋을 csv 파일로 내보낼 수 있습니다. 또는 여러분만의 데이터셋을 사용해서 튜토리얼을 진행할 수도 있습니다. 유방암 데이터셋은 이진 분류 모델을 위한 데이터셋이므로, 튜토리얼을 따라하기 위해서는 이진 레이블을 가진 데이터셋을 사용하는 것이 좋습니다.

DataRobot에 로그인하기

DataRobot 앱에 로그인하면 홈페이지 화면이 표시됩니다. DataRobot은 사용자 인터페이스를 자주 업데이트하기 때문에 더 최신 버전을 반영한 약간 다른 화면을 볼 수 있습니다.

데이터를 DataRobot으로 가져오기

다양한 데이터 소스에서 데이터를 가져올 수 있습니다. 이 예제에서는 로컬 컴퓨터에서 유방암 훈련 데이터셋을 가져올 것입니다(Step 0에서 데이터셋을 다운로드했어야 합니다). 오렌지 버튼인 "Local file"을 클릭하여 데이터셋을 가져옵니다. 데이터셋을 가져온 후 프로젝트에 타겟 변수를 입력해야 합니다.

타겟 변수 입력하기

유방암 예측 데이터셋에는 타겟 변수로 "target"이라는 이진 변수가 있습니다. 0은 유방암이 없음을 의미하고 1은 유방암이 있음을 의미합니다. 타겟 변수를 입력한 후, DataRobot은 자동으로 해당 변수에 대한 막대 차트를 생성합니다.

모델링 모드 선택하기

DataRobot은 네 가지 다른 모델링 모드를 제공합니다. "Autopilot" 모드는 타겟 변수에 대해 최상의 예측 모델을 선택합니다. "Quick" 모드는 최대 샘플 크기로 선택된 모델을 실행합니다. "Manual" 모드는 사용자가 직접 선택한 모델만 실행합니다. "Comprehensive" 모드는 저장소의 모든 모델을 실행하기 때문에 실행 시간이 오래 걸릴 수 있습니다. 기본 모드는 "Quick"입니다. 여기서는 수동으로 모델을 선택하기 위해 "Manual" 모드를 선택할 것입니다.

데이터 페이지로 이동하기

시작 버튼을 클릭한 후, DataRobot은 데이터셋의 품질을 자동으로 평가합니다. 평가 진행 상황은 화면의 오른쪽에 표시됩니다. 평가가 완료되면 팝업 창이 나타나고 "Go to Repository" 또는 "Dismiss" 중에서 선택하라고 요청합니다. 우선 "Dismiss"를 선택하여 모델을 선택하기 전에 특성들을 확인하겠습니다.

데이터 품질 평가하기

Dismiss를 클릭하면 데이터 요약 페이지가 표시됩니다. 이 페이지에서는 데이터셋 이름, 특성 수, 레코드 수, 각 특성의 결측치 수 등을 확인할 수 있습니다. 첫 번째 열은 "Feature Name"입니다. 기본적으로 특성은 중요도에 따라 내림차순으로 정렬됩니다. 그러나 열의 헤더를 클릭하여 정렬 값을 변경할 수도 있습니다. 데이터 품질 경고 열은 "Data Quality"입니다. 여기에서는 target leakage와 outliers와 같은 데이터 품질 문제에 대한 경고가 표시됩니다. 경고는 사용자가 다음 단계로 이동하는 것을 방해하지는 않습니다. 단지 잠재적인 문제를 빠르게 확인해줍니다.

특성 선택하기

모델에 포함할 특성을 선택하기 위해 "Feature Name" 옆의 체크 박스를 클릭한 후, 모델에 포함시키지 않으려는 특성을 선택 해제합니다. 이 예제에서는 가장 중요성이 낮은 마지막 3개의 특성을 선택 해제합니다.

특성 리스트 만들기

오렌지색 "+" 버튼인 "+Create feature list"를 클릭한 후, 특성 리스트의 이름을 지정하고 "Create feature list"를 클릭합니다.

특성 리스트 확인하기

Step 8에서 "Create feature list"를 클릭한 후, 기본 Feature List는 "All Features"에서 방금 만든 특성 리스트의 이름으로 변경됩니다. 이 리스트가 step 8에서 만든 변경 사항을 반영하는지 확인합니다. 이 예에서는 기본 Feature List가 "my_feature_list_1"로 변경되었으며, 마지막 3개의 특성이 리스트에서 제외되었습니다.

특성 엔지니어링하기

변수를 변환하여 새로운 특성을 만들 수 있습니다. 이를 위해 주황색 메뉴 버튼인 "Actions"를 클릭한 후 "Create f(x) transform"을 선택합니다. 예를 들어, "log_mean_area"라는 변환된 특성을 만들기 위해 식을 표현식 상자에 입력합니다. "Create" 버튼을 클릭한 후 새로운 특성인 "log_mean_area"이 원래 특성 "mean_area" 아래에 나타나며, 로그 버전의 변수에는 데이터 품질 경고가 없습니다.

모델 선택하기

상단 메뉴에서 "Models"를 클릭한 후 "+Add new model"을 클릭합니다. "Select a model" 아래에서 기본 모델 이름을 클릭하고 모델 이름을 검색합니다. "XGBoost" 모델을 선택하기로 하고 검색어로 "extreme"을 입력합니다. 이렇게 하면 다양한 버전의 XGBoost 모델이 나타납니다. "BP40" 버전의 XGBoost 모델을 선택합니다.

특성 리스트 선택하기

"Run on feature list" 아래에서 방금 생성한 특성 리스트 "my_feature_list_1"을 선택합니다. 이 특성 리스트는 모델에 사용할 예측변수의 리스트입니다.

샘플 크기 변경하기

기본적으로 DataRobot은 데이터의 20%를 홀드아웃으로 설정하고, 나머지 80%를 k-fold cross validation을 위해 5개의 폴드로 분할합니다. 샘플 크기는 "Sample size" 아래의 주황색 "+" 기호를 클릭하여 변경할 수 있습니다.

교차검증 설정하기

"CV runs" 아래에서 1개의 폴드 또는 5개의 폴드 중에서 교차검증을 실행할지 선택할 수 있습니다. 기본값은 1폴드입니다.

모델 추가하기

모델 옵션을 모두 선택한 후 주황색 "Add Model" 버튼을 클릭하면 모델이 리더보드에 추가됩니다. 모델 훈련 과정은 오른쪽 창에 표시됩니다. "Select a model" 아래의 주황색 아래 화살표를 클릭하여 새로운 모델을 추가하는 것과 같은 프로세스를 따라 새로운 모델을 추가할 수 있습니다.

모델 정보 확인하기

모델 훈련이 완료되면 모델 이름을 클릭하면 모델 패널이 확장되어 자세한 정보가 표시됩니다. "Describe" 섹션에는 모델 훈련 과정에 대한 모든 정보가 포함되어 있습니다.

모델 평가하기

모델 평가 정보는 "Evaluate" 탭 아래에 있습니다. "Lift Chart" 탭에는 예측값과 실제 값에 대한 리프트 차트가 표시됩니다. "ROC Curve" 탭에는 예측 분포, ROC 커브, 혼동 행렬 및 모델 성능 메트릭이 표시됩니다.

졸업시키기

모든 모델이 완료되면 "Models" → "Leaderboard"로 돌아가서 오른쪽 창에있는 "Unlock project Holdout" 버튼을 클릭합니다. 그런 다음 팝업 창에서 주황색 "Unlock project holdout" 버튼을 클릭합니다.

특성 중요도 확인하기

특성 중요도는 "Insights" 섹션의 "Models" 아래에서 확인할 수 있습니다.

속도 vs 정확도 확인하기

"Models" → "Speed vs Accuracy" 아래에서 시간당 1000개의 예측에 걸리는 시간(x축)과 선택한 메트릭에 대한 검증 점수(y축)가 표시된 산점도가 있습니다.

모델 비교하기

모델 비교를 위해 "Model Comparison"을 클릭하면 모델 비교 요약이 표시됩니다. DataRobot은 테이블에 메트릭을 요약하고, 모델에서 최고의 성능을 형광펜으로 표시합니다. 이 튜토리얼에서 선택한 두 모델의 비교 결과는 XGBoost 모델이 검증 데이터셋에서 더 나은 성능을 보이지만, 신경망 모델이 교차검증 및 홀드아웃 데이터셋에서 더 나은 성능을 보입니다. XGBooster는 예측에 신경망 모델보다 더 빠릅니다.

모델 선택하기

모델 비교를 마친 후, 교차검증 및 홀드아웃 데이터셋에서 성능이 더 좋은 신경망 모델을 선택하기로 결정합니다. 테스트 데이터셋이 작으므로 예측 시간이 오래 걸리는 것은 문제가 되지 않습니다.

예측하기

"Models" → "Leaderboard"를 클릭한 후, 신경망 모델의 이름을 클릭합니다. 확장된 섹션에서 "Predict"를 클릭합니다. "Test Predictions" 아래에서 예측 임계값을 사용자 정의할 수 있습니다. 파일을 선택하기 위해 주황색 "Choose file"을 클릭합니다. 로컬 드라이브에서 "test_data.csv" 파일을 업로드합니다. 업로드된 파일이 "Prediction Datasets" 섹션에 나타납니다. 예측을 수행하려면 주황색 "Compute predictions"를 클릭합니다.

예측 결과 다운로드하기

예측이 완료되면 주황색 "Download predictions"를 클릭하여 예측 결과를 다운로드할 수 있습니다. 예측 결과에는 행 ID, 예측 확률 및 예측 레이블이 포함됩니다. DataRobot은 모델의 배포 및 모니터링도 제공하지만, 이 튜토리얼에서는 자동 ML에 초점을 맞추기 때문에 배포와 MLOps는 다루지 않습니다.