본문 바로가기
프로젝트/제품 이상 여부 판별 프로젝트

언더보단 오버샘플링?

by Merware 2024. 8. 26.

대회가 기본으로 제공한 베이스라인 코드에는 언더샘플링 코드 또한 포함되어 있었다.

왜냐하면 기본적으로 이 이상치 탐지 예측 모델 프로젝트의 경우 정상 데이터에 비해 예측해야할 이상 데이터의 비율이 압도적으로 적기 때문이다.

그럼 정상과 이상 데이터의 크기가 차이나 균형을 맞춰줘야 하는데 대회에서는 기본으로 언더샘플링을 적용한 것이다.

 

프로젝트를 진행하면서 든 생각이 언더샘플링은 결국 정상 데이터의 크기를 줄여 이상 데이터와 균형을 맞추는 것인데 이렇게 되면 많은 정보 손실을 야기하게 된다는 것이다.

그래서 언더샘플링보단 오버샘플링이 더 좋다고 생각이 들었다. 물론, 오버샘플링의 경우 이상 데이터의 수를 늘려 정상 데이터와 맞추는 것이므로 어떻게 보면 잘못된 과적합, 오버피팅의 문제가 발생할 수도 있지 않을까 싶다.

일단, 언더피팅 보다는 오버피팅이 천배 만배 나으므로 우리팀은 오버샘플링으로 하자고 했다. 오버샘플링의 기법으로는 SMOTE 기법을 사용했다.