티스토리 뷰

머신러닝

Skewed Class

★ ☆ 2021. 2. 15. 20:11

Source: machinelearningmedium.com/2018/04/08/error-metrics-for-skewed-data-and-large-datasets/

 

Error Metrics for Skewed Classes and Using Large Datasets

The error metrics like mean-squared error do not work for highly imbalanced class. Also, why is it that using larger dataset is always advised?

machinelearningmedium.com

 

 

What are Skewed Classes?

Skewed classes basically refer to a dataset, wherein the number of training examples belonging to one class out-numbers heavily the number of training examples belonging to the other.

왜곡된 class는 다음과 같은 데이터셋을 의미한다. 데이터의 일부분은 어떤 클래스에 속해 있고 그 이외의 더 많은 데이터들은 다른 클래스에 속해있다.

 

Consider a binary classification, where a cancerous patient is to be detected based on some features. And say only 1 of the data provided has cancer positive.

2개로 분류하는 경우를 가정해보자. 어떤 특성을 기준으로 암에 걸린 환자를 찾아낼 수 있다. 그리고 데이터 중에 단 하나만 암에 양성이다.

In a setting where having cancer is labeled 1 and not cancer labeled 0, if a system naively gives the prediction as all 0’s, still the prediction accuracy will be 99%.

데이터에 1로 기재되면 양성이고, 0이면 음성이다. 그리고 predict_cancer는 99퍼센트의 정확도로 예측한다.

% naive prediction ignoring features
def predict_cancer(x):
    return 0

Therefore, it can be said with conviction that the accuracy metrics or mean-squared error for skewed classes, is not a proper indicator of model performance. Hence, there is a need for a different error metric for skewed classes.

그러므로 accuracy metrics나 MSE는 skewed class를 평가하기에 부적합하다. Skewed Class의 에러를 평가할 때는 다른 척도가 필요하다.

'머신러닝' 카테고리의 다른 글

Latent Space  (0) 2022.04.19
Random Forest  (0) 2021.12.29
Batch gradient descent and Stochastic gradient descent  (0) 2021.01.10
Global minima and Local minima  (0) 2021.01.10
MSE, cost function  (0) 2021.01.10
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함