728x90
반응형


Supervised learning (교사학습, 감독학습, 지도학습)



Supervised Learning 개념 

교사학습은 훈련 데이터(Training Data)로 부터 하나의 함수를 유추해내기 위한 기계학습(Machine Learning)의 한 방법이다. 훈련 데이터는 일반적으로 입력 객체에 대한 속성을 벡터 형태로 포함하고 있으며 벡터에 대해 원하는 결과가 무엇인지 표시되어있다.


이렇게 훈련 데이터로부터 유추된 함수 중 연속적인 값을 출력하는 것을 회귀분석(Regression)이라고 하고, 주어진 입력 벡터가 어떤 종류의 값인지 표식하는 것을 분류(Classification) 이라고 한다. 교사학습기는 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측하는 역할을 한다. 


이를 수행하기 위해서는 학습기가 올바른 방법을 통하여 기존 훈련데이터로부터 나타나지 않는 상황까지도 일반화하여 처리 할 수 있어야 한다.



평가 방법



 

 실제 결과 / 분류

 참

거짓 

 추론된 결과 / 분류

TP (True Positive) 

FP (False Positive) 

거짓 

FN (False Negative) 

TN (True Negative)


훈련 데이터로부터 하나의 함수가 유추되고 나면 해당 함수에 대한 평가를 통해 파라미터를 최적화한다. 이러한 평가를 위해 교차 검증(Cross-Validation)이 이용되며 이를 위해 검증 집합을 다음의 세가지로 나눈다.


1. 훈련 집합 (A Training Set)

2. 검증 집합 (A Validation Set)

3. 테스트 집합 (A Test Set)


정밀도(Precision)와 재현율(Recall)은 다음과 같이 정의


\mbox{Precision}=\frac{tp}{tp+fp} \,
\mbox{Recall}=\frac{tp}{tp+fn} \,





Unsupervised learning (비교사학습, 무감독학습, 자율학습)


Unsupervised Learning 개념

이 자율학습은 데이터에 대해 아무런 정보도 주어지지 않고 각각의 데이터를 군집화(Clustering)하는 것이다. 교사학습과는 달리 비교사학습(Unsupervised Learning)은 사전정보가 주어지지 않는게 특징이다. 이 교수학습도 기계학습의 일종으로 데이터가 어떻게 구성되어 있는지 알아내는 것에 목표를 두고있다. 하지만 입력값에 대한 목표치가 주어지지 않고, 대상을 분류하는 것이 큰 특징이다.


입력 대상들에 대한 집합을 모아둔 후, 그것을 임의의 변수 (Random variable)의 집합으로 여긴다. 적용되는 확률밀도도 그 데이터 집합에 대해 만들어진다.


자율학습은 주어진 임의의 변수에 대한 조건부 확률 즉, Supervised Learning을 계산하기 위해 베이즈 추론(Bayesian Inference)와 함께 사용될 수 있다. 이 베이즈 추론은 다음 포스팅에서 알아보도록 하겠다.


이 자율학습의 또 다른 형태는 군집화(Clustering) 이며 최근 이슈가 되고있는 딥러닝(Deep Learning) 등이 있다.


728x90
반응형