카테고리 없음

태태개발일지 - 머신러닝

태태코 2025. 1. 30. 19:51
반응형

 

데이터 전처리

데이터 분석 및 머신러닝 모델링을 위해 데이터를 준비하는 과정.

 

 

원시 데이터는 종종 불완전하거나, 노이즈가 많거나 형식이 일관되지 않아 직접 모델링에 사용하기 어렵다.

 

데이터 전처리는 데이터의 품질을 올린다.

 

 

1. 결측값 처리: None , null 데이터가 들어가있다는 뜻이다.

삭제: 행이나 열 삭제

대체: 평균,중앙값으로 바꿔버린다.

예측: 예측하고, 채웁니다.

 

2. 이상값 처리: 값 자체가 이상한경우 ex) 사람키가 270이 넘는경우

제거: 제거

변환: 상한선 하한서으로 대체

IQR방법: 이상치를 발견하는 방법(특정범위를 잡아놓고 범위가 넘어가는 것을 이상값이라고 처리)

 

3. 중복데이터 제거: 동일한 데이터가 여러번 나타나는 경우 ex) 개,고양이 사진을 넣는데 개가 99%고 고양이가 1%일경우 데이터의 불균형이 있을 있고, 데이터에 가중치가 생길 수 있다.

 

4. 데이터 타입 변환, 인코딩 : 모델에 따라서 처리할 수 있는 데이터 타입이 다양하다. 즉 모델이 이해할 수 있는 형태로 바꿔주는 것. (이진벡터)

 

5. 데이터 정규화: 값의 범위가 다르면, 영향을 주는 범위가 다르기 때문에. ex) 재산(1000억), 키 (250) -> 재산쪽에 가중치가 쌓이게된다.

 

데이터를 일정한 범위로 스케일링 => 모든데이터를 0~1로 바꿔준다. Data/Max(Data) = 0 or 1

 

6. 샘플링: 데이터를 분할하거나 늘리는 것.

 

7. 특징 선택 및 추출

 

8. 데이터 표준화 => 데이터를 안정된 상태로 바꾸는 것.

 

데이터분할

1. 학습데이터(학습에 필요한 데이터)

2. 검증데이터(검증에  필요한 데이터)

3. 테스트 데이터(실제 테스트 데이터)

반응형