Train, Test 데이터 셋을 분리시키는 이유
- Train 데이터로 학습한 후, Test데이터로 실험을 해봄으로써 지표를 확인한다
(70:30 정도)
교차검증이란?
- Train 데이터 셋을 나눈다
ex) 5개정도로 나눈다고 가정(Fold 1 ~ 5)
1번째 학습에서는 Fold2 ~ 5까지 학습
2번째 학습에서는 Fold1,3,4,5를 학습
3번째 학습에서는 Fold1,2,4,5를 학습
4번째 학습에서는 Fold1,2,3,5를 학습
5번째 학습에서는 Fold1,2,3,4를 학습 - 각각의 학습에서 빠지는 Fold는 Validation, 즉 검증 데이터셋이 되는 것
- 4개의 학습 데이터셋으로 학습을 시키고, 남은 1개의 Fold를 활용해서 성과지표를 임시로 만들어냅니다.
그렇게 성과지표 1,2,3,4,5가 만듭니다
임시적인 성과지표의 평균을 내서 대략적인 성과지표를 만든다.
교차검증을 하는 이유
- Test 데이터셋을 넣어서 학습을 시킬 때 나오는 성과지표가 안정적으로 확보할 수 있도록 다양한 방식으로
학습을 시키는 것
'학부과정 > 머신러닝' 카테고리의 다른 글
Neural Network (0) | 2023.01.03 |
---|---|
과대적합, 과소적합 (0) | 2022.11.09 |
MSE, MAE (0) | 2022.11.09 |
머신러닝_1 (0) | 2022.11.09 |
강화&Batch&온라인 학습 (0) | 2022.10.11 |