https://en.wikipedia.org/wiki/Random_forest Random forest - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search This article is about the machine learning technique. For other kinds of random tree, see Random tree. Binary search tree based ensemble machine learning method Diagram of a random dec en.wikipedia.org Random Forests 혹은 Random Decision Forests는 분류classific..
Source: machinelearningmedium.com/2018/04/08/error-metrics-for-skewed-data-and-large-datasets/ Error Metrics for Skewed Classes and Using Large Datasets The error metrics like mean-squared error do not work for highly imbalanced class. Also, why is it that using larger dataset is always advised? machinelearningmedium.com What are Skewed Classes? Skewed classes basically refer to a dataset, where..
Batch gradient descent는 전체 example를 한번에 다 통과시킨 후, 그 중에 최적의 값을 찾는다. theta 값이 업데이트 되지 않고 최초의 theta 값으로 전체 example을 계산하고, 그 전체의 평균으로 theta를 업데이트 시킨다. Batch size = Size of Training Set Stochastic gradient descent는 한 번에 하나씩 example을 통과시킨 후, 점진적으로 최적을 교체한다. 그러므로, theta는 example 갯수 만 큼 업데이트 된다. Batch size = 1 따라서, Stocastic gradient descent가 더 정밀하지만, 속도는 Batch gradient descent가 훨씬 더 빠르다. Mini-Batch Gra..
Coursera week1, Gradient Descent For Liner Regression. 아래 내용을 이해할 수 없었음. For the specific choice of cost function used in liner regression, there are no local optima other than the global optima. Note that, while gradient descent can be susceptible to local minima in general, the optimization problem we have posed here for linear regression has only one global, and no other local, optima; thus g..
$$J(\theta_{0},\theta_{1}) = \frac{1}{2m}\sum_{i=1}^{m}(\hat{y}_{i}-y_{i})^{2} = \frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x_{i})-y_{i})^{2}$$ Hypothesis Function의 정확도를 cost function으로 구할 수 있다. 대개, cost function 값이 낮을 수 록 정확도가 높다. Cost function의 형태에 따라 달라질 수 있다. Mean Squared Error는 대표적인 cost function 중의 하나이다. $$h_{\theta}(x_{i})$$는 hypothesis function의 결과 값이며, $$y_{i}$$는 실제 값이다. *이해되지 않는 설명 The mean..
source: www.kaggle.com/alexisbcook/categorical-variables Categorical Variables Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 카테고리 변수의 예시는 다음과 같다. 어떤 색깔을 좋아하는가? "빨강", "파랑", "초록"... 얼마나 자주 외식을 하는가? "매일", "가끔", "반반"... 데이터가 카테고리 일 때, 전처리 없이 ML 라이브러리로 사용하려고 하면 대부분의 경우 오류가 난다. 왜냐하면 ML 라이브러리 대부분은 variable이 숫자numeric라고 가정하기 때문이다. 3가지 ..