티스토리 뷰
Source: machinelearningmedium.com/2018/04/08/error-metrics-for-skewed-data-and-large-datasets/
What are Skewed Classes?
Skewed classes basically refer to a dataset, wherein the number of training examples belonging to one class out-numbers heavily the number of training examples belonging to the other.
왜곡된 class는 다음과 같은 데이터셋을 의미한다. 데이터의 일부분은 어떤 클래스에 속해 있고 그 이외의 더 많은 데이터들은 다른 클래스에 속해있다.
Consider a binary classification, where a cancerous patient is to be detected based on some features. And say only 1 of the data provided has cancer positive.
2개로 분류하는 경우를 가정해보자. 어떤 특성을 기준으로 암에 걸린 환자를 찾아낼 수 있다. 그리고 데이터 중에 단 하나만 암에 양성이다.
In a setting where having cancer is labeled 1 and not cancer labeled 0, if a system naively gives the prediction as all 0’s, still the prediction accuracy will be 99%.
데이터에 1로 기재되면 양성이고, 0이면 음성이다. 그리고 predict_cancer는 99퍼센트의 정확도로 예측한다.
% naive prediction ignoring features
def predict_cancer(x):
return 0
Therefore, it can be said with conviction that the accuracy metrics or mean-squared error for skewed classes, is not a proper indicator of model performance. Hence, there is a need for a different error metric for skewed classes.
그러므로 accuracy metrics나 MSE는 skewed class를 평가하기에 부적합하다. Skewed Class의 에러를 평가할 때는 다른 척도가 필요하다.
'머신러닝' 카테고리의 다른 글
Latent Space (0) | 2022.04.19 |
---|---|
Random Forest (0) | 2021.12.29 |
Batch gradient descent and Stochastic gradient descent (0) | 2021.01.10 |
Global minima and Local minima (0) | 2021.01.10 |
MSE, cost function (0) | 2021.01.10 |