강화학습(Reinforcement Learning)

  • 행동 결과에 따른 보상(혹은 벌점)을 레이블로 줌
    [체스 승리 or 패배]
  • 주어진 환경(enviornment)에서 에이전트(agent)가
    최대의 보상(reward)을 얻기 위해 최상의 정책(policy)을 학습
  • 딥마인드의 알파고(Alpha Go)
    아타리(Atari)게임

Batch 학습(Offline 학습)

  • 학습 데이터를 모두 모은 후 한꺼번에 학습 : 배치(batch)학습
  • 새 데이터가 추가되면 이전 학습데이터와 합쳐 새로 학습함
  • 일반적으로 시간과 자원이 많이 소모됨
  • 훈련과 모델 런칭을 자동화할 수도 있다
    ex) 새 데이터를 추가해서 내가 원하는 시간대마다 자동으로 학습
 

온라인(online) 학습

  • 데이터가 실시간으로 추가됨 : 실시간 학습
  • 데이터 한 개 또는 미니배치(mini-batch)라 부르는 작은 묶음 단위로 훈련
    --> 추가학습(incremental learning)이 더 올바른 표현
  • 학습 단계가 빠르고 데이터가 준비되는 대로 즉시 학습할 수 있음[ ex) 주식 or 코인..?]
  • 사용한 샘플을 버릴수도 있고 보관할 수도 있다

온라인 학습 주의사항

  • 학습률(learning rate)로 데이터에 얼마나 빠르게 적응할지 제어
  • 나쁜 데이터가 모델 학습에 주입되면 성능이 조금씩 감소됨
  • 시스템 모니터링이 필요하고 성능 감소가 감지되면 학습을 중지하고 이전 버전으로
    되돌리거나 비정상적인 데이터를 찾음
 
 

'학부과정 > 머신러닝' 카테고리의 다른 글

MSE, MAE  (0) 2022.11.09
머신러닝_1  (0) 2022.11.09
준지도&자기지도 학습  (0) 2022.10.11
비지도 학습(Unsupervised Learning)  (0) 2022.10.11
지도학습(Supervised Learning)  (0) 2022.10.10

+ Recent posts