1. LightGBM의 장단점

LightGBM의 장점

(1) XGBoost 대비 더 빠른 학습과 예측 수행 시간
(2) 더 작은 메무리 사용량
(3) 카테고리형 피처의 자동 변환과 최적 분할
: 원-핫인코딩 등을 사용하지 않고도 카테고리형 피처를 최적으로 변환하고 이에 따른 노드분할 수행

LightGBM의 단점

적은 데이터 세트에 적용할 경우 과적합이 발생하기 쉽습니다.
(공식 문서상 대략 10,000건 이하의 데이터 세트)

기존 GBM과의 차이점

일반적인 균형트리분할 (Level Wise) 방식과 달리 리프중심 트리분할(Leaf Wise) 방식을 사용합니다.

  • 균형트리분할은 최대한 균형 잡힌 트리를 유지하며 분할하여 트리의 깊이를 최소화하여
    오버피팅에 강한구조이지만 균형을 맞추기 위한 시간이 필요합니다.
  • 리프중심 트리분할의 경우 최대 손실 값을 가지는 리프노드를 지속적으로 분할하면서
    트리가 깊어지고 비대칭적으로 생성합니다. 이로써 예측 오류 손실을 최소화하고자 합니다.

 

2. LightGBM의 하이퍼 파라미터

하이퍼 파라미터 튜닝방안

num_leaves의 개수를 중심으로 min_child_sampes(min_data_in_leaf), max_depth를
함께 조절하면서 모델의 복잡도를 줄이는 것이 기본 튜닝 방안입니다.

  • num_leaves를 늘리면 정확도가 높아지지만 트리가 깊어지고 과접합되기 쉬움
  • min_child_samples(min_data_in_leaf)를 크게 설정하면 트리가 깊어지는 것을 방지
  • max_depth는 명시적으로 깊이를 제한. 위의 두 파라미터와 함꼐 과적합을 개선하는데 사용

또한, learning_rate을 줄이면서 n_estimator를 크게하는 것은 부스팅에서의 기본적인 튜닝 방안

 

3. LightGBM 적용 - 위스콘신 유방암 예측

LightGBM에서도 위스콘신 유방암 데이터 세트를 이용해 예측을 해보겠습니다.

feature importance 시각화

LightGBM도 plot_importance() 를 통해 시각화 가능

+ Recent posts