티스토리 뷰
class sklearn.ensemble.RandomForestRegressor(n_estimators=100, *, criterion='mse', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, ccp_alpha=0.0, max_samples=None)
A random forest regressor.
A random forest is a meta estimator that fits a number of classifying decision trees on various sub-samples of the dataset and uses averaging to improve the predictive accuracy and control over-fitting. The sub-sample size is controlled with the max_samples parameter if bootstrap=True (default), otherwise the whole dataset is used to build each tree.
source: scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html
sklearn.ensemble.RandomForestRegressor — scikit-learn 0.24.0 documentation
scikit-learn.org
scikit-learn.org/stable/modules/ensemble.html#forest
1.11. Ensemble methods — scikit-learn 0.24.0 documentation
1.11. Ensemble methods The goal of ensemble methods is to combine the predictions of several base estimators built with a given learning algorithm in order to improve generalizability / robustness over a single estimator. Two families of ensemble methods a
scikit-learn.org
Ensemble mothods는 여러개의 알고리즘을 결합하여 예측하므로 하나를 기반으로 사용하는 것 보다 더 좋은 성능을 낼 수 있다. 크게 두 가지로 나뉜다.
1. Averaging Methods. 여러 개의 메소드를 개별적으로 적용하고 그 개별의 결과를 평균낸다. 종류, Bagging methods, Forests of randomized trees
2. Boosting Methods. 여러 개의 메소드를 연속적으로 적용한다. method1 -> method2 -> method3 이런 식으로.. 관건은 연결 시킨 이후에 하나의 메소드에 치우치는 것을 보정하는 것이다. 종류, AdaBoost, Gradient Tree Boosting
Random Forest는 Averaging Method에 해당된다.
sklearn.ensemble 모듈은 Random Forest와 Extra-Tree method 두 종류의 Averaging Method에 기반을 두고 있다. 두 알고리즘 모두 petrub-and-combine 테크닉이 핵심이다. 다시 말해서 무작위(random)를 기반으로 다양한 classifier를 만든다. ensemble에서 예측을 한다는 것은 각각의 classifier에 대한 예측을 평균 내는 것이다.
Random Forest에서 Forest classifier는 2개의 배열에 fit 되어야 한다. 하나는 spare 혹은 dense array라고 불리는 X이며, X의 형태는 (n_samples, n_features)로 training sample을 저장한다. 다른 하나는 training sample에서 target value를 (n_samples)의 형태로 저장하고 있는 array Y이다.
from sklearn.ensemble import RandomForestClassifier
X = [[0, 0], [1, 1]]
Y = [0, 1]
clf = RandomForestClassifier(n_estimators=10)
clf = clf.fit(X, Y)
Decision Tree처럼 Random Forest도 복수의 출력을 가지는 문제로 확장될 수 있다. 이 경우에 Y는 (n_samples, n_outputs) 형태가 된다.
Random Forest에서 각 tree의 ensemble은 sample drawn with replacement 로 만들어진다.
(무슨 뜻인지 파악 못함.. 원문은 the ensemble is build from a sample drwan with replacement (i.e., a bootstrap sample) from the training set.)
Tree를 만들 때 각각의 node를 자르는 최선의 방법은 모든 input feature에 대해서 자르거나 아니면 무작위로random 골라진 크기 max_feature(parameter)의 subset을 이용하는 것이다.
무작위에서 얻어진 두가지 자료source를 사용하는 것은 forest estimator의 분산을 줄이기 위해서이다. 하나의 source를 사용하는 tree는 통상적으로 분산이 높으며 overfit할 확률이 높다. Decision tree에 무작위성randomness을 넣는 것은 예측에 대한 오류를 줄여준다. 이러한 예측들을 평균 냄으로써 어떠한 오류들은 제거될 수 있다. Random Forest는 diverse tree들을 합침으로써 분산을 낮추는 효과를 가진다. 그러나 때때로는 이러한 과정이 어떤 tree들에 대한 의존bias을 높일 수도 있다. 전체적으로는 이런 과정이 더 나은 모델을 만든다.
Breiman, “Random Forests”, Machine Learning, 45(1), 5-32, 2001.에 기술 된 Random Forests 정의와 다르게, scikit-learn 에서는 개별 classifier들을 독립적인 class로 관리하는 것이 아니라 classifier들의 확률적인 예측probabilistic prediction을 모아 평균낸다.
RandomForestRegressor에서 핵심적인 Parameter는 두 가지이다.
n_estimators: 모델에 사용될 tree의 갯수를 의미한다. 커질수록 정교한 모델 구축이 가능하지만 커질수록 계산량이 늘어난다.
max_features: feature가 node를 자르는 데 사용 될 random subset의 크기를 의미한다. subset의 크기가 작아지면 분산이 커지고, subset의 크기가 커지면 bias를 높이게 된다.
경험적으로 좋은 설정은 max_features=none 이다. random하게 subset을 선택하는 것이 아니라 모든 feature를 사용하는 것이다.
또한 Random Forest에서는 bootstrap을 사용하도록 초기값이 설정 되어 있다.
'머신러닝 라이브러리 > scikit-learn' 카테고리의 다른 글
LabelEncoder and OneHotEncoder (0) | 2021.01.08 |
---|---|
SimpleImputer (0) | 2021.01.08 |
DecisionTreeRegressor (0) | 2021.01.03 |