강화학습(Reinforcement Learning)
- 행동 결과에 따른 보상(혹은 벌점)을 레이블로 줌
[체스 승리 or 패배] - 주어진 환경(enviornment)에서 에이전트(agent)가
최대의 보상(reward)을 얻기 위해 최상의 정책(policy)을 학습 - 딥마인드의 알파고(Alpha Go)
아타리(Atari)게임
Batch 학습(Offline 학습)
- 학습 데이터를 모두 모은 후 한꺼번에 학습 : 배치(batch)학습
- 새 데이터가 추가되면 이전 학습데이터와 합쳐 새로 학습함
- 일반적으로 시간과 자원이 많이 소모됨
- 훈련과 모델 런칭을 자동화할 수도 있다
ex) 새 데이터를 추가해서 내가 원하는 시간대마다 자동으로 학습
온라인(online) 학습
- 데이터가 실시간으로 추가됨 : 실시간 학습
- 데이터 한 개 또는 미니배치(mini-batch)라 부르는 작은 묶음 단위로 훈련
--> 추가학습(incremental learning)이 더 올바른 표현 - 학습 단계가 빠르고 데이터가 준비되는 대로 즉시 학습할 수 있음[ ex) 주식 or 코인..?]
- 사용한 샘플을 버릴수도 있고 보관할 수도 있다
온라인 학습 주의사항
- 학습률(learning rate)로 데이터에 얼마나 빠르게 적응할지 제어
- 나쁜 데이터가 모델 학습에 주입되면 성능이 조금씩 감소됨
- 시스템 모니터링이 필요하고 성능 감소가 감지되면 학습을 중지하고 이전 버전으로
되돌리거나 비정상적인 데이터를 찾음
'학부과정 > 머신러닝' 카테고리의 다른 글
MSE, MAE (0) | 2022.11.09 |
---|---|
머신러닝_1 (0) | 2022.11.09 |
준지도&자기지도 학습 (0) | 2022.10.11 |
비지도 학습(Unsupervised Learning) (0) | 2022.10.11 |
지도학습(Supervised Learning) (0) | 2022.10.10 |