Train, Test 데이터 셋을 분리시키는 이유

  • Train 데이터로 학습한 후, Test데이터로 실험을 해봄으로써 지표를 확인한다
    (70:30 정도)

교차검증이란?

  • Train 데이터 셋을 나눈다
    ex) 5개정도로 나눈다고 가정(Fold 1 ~ 5)

    1번째 학습에서는 Fold2 ~ 5까지 학습
    2번째 학습에서는 Fold1,3,4,5를 학습
    3번째 학습에서는 Fold1,2,4,5를 학습
    4번째 학습에서는 Fold1,2,3,5를 학습
    5번째 학습에서는 Fold1,2,3,4를 학습
  • 각각의 학습에서 빠지는 Fold는 Validation, 즉 검증 데이터셋이 되는 것
  • 4개의 학습 데이터셋으로 학습을 시키고, 남은 1개의 Fold를 활용해서 성과지표를 임시로 만들어냅니다.
    그렇게 성과지표 1,2,3,4,5가 만듭니다

    임시적인 성과지표의 평균을 내서 대략적인 성과지표를 만든다.

교차검증을 하는 이유

  • Test 데이터셋을 넣어서 학습을 시킬 때 나오는 성과지표가 안정적으로 확보할 수 있도록 다양한 방식으로 
    학습을 시키는 것

 

'학부과정 > 머신러닝' 카테고리의 다른 글

Neural Network  (0) 2023.01.03
과대적합, 과소적합  (0) 2022.11.09
MSE, MAE  (0) 2022.11.09
머신러닝_1  (0) 2022.11.09
강화&Batch&온라인 학습  (0) 2022.10.11

+ Recent posts