[Supervised Learning]  

 

머신러닝은 크게 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)으로 나뉨.

 

이 지도학습과 비지도학습의 큰 차이는 예측하고자 하는 것에 대한 정답, 레이블(Label)의 존재 유무이다.

지도학습의 경우에는 레이블이 존재하지만, 비지도학습에서는 존재하지 않는다.

사람이 만들어 놓은 정답지로 모델이 나아가야 할 방향을 지도할지 말지 차이가 두 방법론의 차이

좌측 그래프는 Income(소득)과 Years at Company(재직기간)의 관계를 나타냄

비지도 학습을 통해 소득과 재직기간을 클러스터링하여 누가 빠르게 승진하고 있는지 알아보려고 할 때,

비지도 학습 알고리즘은 근거(정답)없이 관찰을 통해 스스로 기준을 학습하여 두 가지 그룹으로 나누게 됨

 

 

지도학습은 각 데이터 포인트의 레이블에 대한 개념이 존재하고 있음

 

위의 예시는 식당에서 웨이터의 성별, 계산금액, 팁금액에 대한 과거 데이터로

이를 기반으로 팁 금액이나 성별 등을 예측하는 모델을 만들려고 함

이 경우 과거 데이터의 팁 금액과 성별이 레이블에 해당함.

 

그런 다음 내역 데이터와 특정 테이블에 대해 알고있는 값을 기반으로 팁을 실시간으로 예측하려고 함

지도학습의 경우 크게 두 가지 종류의 모델이 존재함  

 - 회귀모델 (Regression) : 팁과 같이 레이블의 값이 연속적일 경우의 문제

 - 분류모델 (Classification) : 성별과 같이 레이블의 값이 이산적으로 나뉠 수 있는 문제

 

그리고 위와 같은 데이터 셋에서 각 열의 명칭을 Feature라고 하며

각 행을 Example Data 라고 함

 

그리고 각 컬럼들 중에 예측하고자 하는 대상이 되는 컬럼이 레이블이 됨

머신러닝 문제의 유형은 레이블된 데이터를 가지고 있는지,

그리고 무엇을 예측하고자 하는지에 따라 달라진다.

+ Recent posts