본문 바로가기

프로젝트/제품 이상 여부 판별 프로젝트3

LG AI 해커톤 5기 예선 최종 점수 결과 공개 8월 30일, 최종 예선 점수 결과가 나왔는데 public 점수는 그래도 0.2점대가 나온것과 달리 final 점수는 0.18점대로 떨어졌다..어차피 본선 진출은 못하긴 하지만 아무래도 과적합이 발생한 것 같은데 오버샘플링을 해서 그런 거 아닐까 하는 생각이 든다.아쉽지만 다른 4명의 팀원들과의 프로젝트도 끝이 났다. 사람마다 실력도 천차만별이고 더군다나 다양하게 데이터를 전처리 하는 방법을 볼 수 있었다. 다음 게시글엔 이번 해커톤에 제출한 코드에 대해서 리뷰하도록 하겠다. 2024. 9. 3.
언더보단 오버샘플링? 대회가 기본으로 제공한 베이스라인 코드에는 언더샘플링 코드 또한 포함되어 있었다.왜냐하면 기본적으로 이 이상치 탐지 예측 모델 프로젝트의 경우 정상 데이터에 비해 예측해야할 이상 데이터의 비율이 압도적으로 적기 때문이다.그럼 정상과 이상 데이터의 크기가 차이나 균형을 맞춰줘야 하는데 대회에서는 기본으로 언더샘플링을 적용한 것이다. 프로젝트를 진행하면서 든 생각이 언더샘플링은 결국 정상 데이터의 크기를 줄여 이상 데이터와 균형을 맞추는 것인데 이렇게 되면 많은 정보 손실을 야기하게 된다는 것이다.그래서 언더샘플링보단 오버샘플링이 더 좋다고 생각이 들었다. 물론, 오버샘플링의 경우 이상 데이터의 수를 늘려 정상 데이터와 맞추는 것이므로 어떻게 보면 잘못된 과적합, 오버피팅의 문제가 발생할 수도 있지 않을까 .. 2024. 8. 26.
팀원이 활용한 PCA 본 프로젝트를 진행하면서 정말 많은 변수를 얼마나 어떻게 의미있게 축소하는지가 관건이라고 생각했다.각 공정에서의 데이터에서 사출 장치의 좌표값에 대한 데이터들이 x, y, z축의 형태로 제공이 되었는데 팀원 중 한 분이 이 3차원 데이터를 1차원으로 PCA, 즉 주성분 분석을 통해 축소시켰다. 이런 식으로 3차원의 데이터의 차원을 저차원으로 줄였다고 볼 수 있다. 2차원의 그래프로 보이지만 애초에 왼쪽 수치는 빈도 수를 나타내고 아래 수치의 값에 분포한다고 볼 수 있을 것 같다.실제 프로젝트에서 PCA를 쓴 경험은 처음 봐서 나름 공부가 되는 것 같다.이렇게 여러가지 3차원 데이터들을 차원 축소시켜도 원래의 데이터의 대표성을 갖고 있어 좋은 방법인 것 같다. 2024. 8. 26.