디시전트리는 1980~90년대에 발명된 개념으로 결과를 해석하기가 쉬운 직관적인 알고리즘으로 회귀와 분류에 모두 사용 가능

디시전트리를 수행할 때는 먼저 데이터셋을 보고 데이터들이 어떻게 분할될 수 있는지 질문을 던져보면 좋다.


위의 그림은 캐글의 타이타닉 생존자 예측 문제를 디시전트리로 시각화한 것이다.

그렇다면 위와 같이 데이터를 분할할 때 어떤 기준으로 적용이 되는가?
사이킷런에서 적용하는 디시전트리 알고리즘(CART)에서는 기본적으로 지니계수를 이용하여 데이터를 분할.

※ 지니계수 : 경제학에서 불평등지수를 나타낼 때 사용하는 것으로 0일 때 완전 평등, 1일 때 완전 불평등을 의미

데이터가 다양한 값을 가질수록 평등하며 특정 값으로 쏠릴 때 불평등한 값이 됨
다양성이 낮을수록 균일도가 높다는 의미로 1로 갈수록 균일도가 높음.(집단의 순수성이 높아짐)
모집단의 지니계수보다 자식 집단의 지니계수가 높다면 분기가 형성되어 데이터가 분할됨

+ Recent posts