반응형

전에 의사결정 트리에 대해서 다뤘는데 추가 개념을 정리해보고자 한다.
Bagging
bootstrap 방식으로 복원추출로 데이터를 랜덤으로 추출하여, 데이터를 병렬적으로 트리에 제공해준다.
random forest
의사결정 트리를 여러개 이용하여, 랜덤으로 분류해 나간다.
여기서 Bagging과 random forest의 관계를 알아보면 도움이된다.
Bagging의 알고리즘을 구현한것이 random forest이다?
맞는 말이지만, 구별이 필요하다.
bagging의 정의처럼 데이터를 추출할 때 bootstrap방식으로 복원추출하여, 랜덤 데이터를 병렬적으로 트리에 제공해주는 것은
bagging 의사결정 트리라고한다.
random forest 는 위와 같은 방식으로 데이터를 추출하여, 병렬적으로 트리에 제공을 해준 후, 가지치기를 할 때에도 랜덤으로 몇개를 뽑아서 가지치기를 하는 부분까지 들어가야 random forest라고 부르는 것이다.
| bagging tree | random forest | |
| 데이터추출 | bootstrap을 통해 랜던 데이터 병렬적 추출 | 배깅과 동일 |
| 가지치기 | 모든 데이터로 가지치기 | 랜덤으로 가지치기 |
Boosting
틀린것에 가중치를 주어서 순차적으로 의사결정 트리를 학습하는 것
boosting도 마찬가지로 boosting알고리즘을 구현한 것이있다.
AdaBoost
AdaBoost는 Adaptive Boosting를 줄여서 부르는 말로 관측치들에 가중치를 더하면서 동작 한다.
분류하기 어려운 Instances에는 가중치를 더하고 이미 잘 분류되어진 Instances는 가중치를 덜 한다.
- 즉, 약한 학습기의 오류에 가중치를 더하면서 부스팅을 수행하는 알고리즘 이다.
Gradienet Boosting Machine
GBM은 AdaBoost처럼 앙상블에 이전까지의 오차를 보정하도록 예측기를 순차적(Sequential)으로 추가합니다.
그렇지만, AdaBoost처럼 매 반복 마다 샘플의 가중치를 조정하는 대신에 이전 예측기가 만든 잔여 오차에 새로운 예측기를 학습시킨다.
- 가중치 업데이트를 경사하강법(Gradient Descent) 기법을 사용하여 최적화된 결과를 얻는 알고리즘
- 과적합(Overfitting) 이슈가 있다.
XGBoost
GBM는 과적합문제, 속도의 문제와 같은 여러 문제점이 있다.
따라서, 이러한 GBM의 단점을 보완하기 위해 만들어졌다.
- GBM 보다 빠른 속도를 가진다.
- 과적합 방지를 위한 규제를 가진다.
- 분류 와 회귀 둘 다 가능하다.
- 경사하강법 기법을 사용한다.

반응형
'AI' 카테고리의 다른 글
| 태태개발일지 - 자연어처리(FFN, RNN 등장) (0) | 2026.04.11 |
|---|---|
| 태태개발일지 - 기계학습(SVM) (0) | 2026.04.11 |
| 태태개발일지 - 기계학습(KNN, 의사결정 tree) (0) | 2026.04.05 |
| 태태개발일지 - 자연어처리(역사, dense vector,skip-gram) (0) | 2026.04.05 |
| 태태코딩 - 자연어처리(word-net, tf,df,idf,pmi) (0) | 2026.03.28 |