반응형

pandas 2

태태코딩 - pandas 정리

Pandas엑셀말고 판다스를 이용하는 이유 엑셀은 만줄만 넘어가도 느려지지만, 파이썬은 만줄은 가볍다. pandas종류seriesdataframe구별법 열의 갯수이다. series는 열이 하나이다.dataframe은 열이 두개이상이다. loc와 iloc 구별법pd.loc['index']pd.iloc[index숫자] loc는 ''로 특정 인덱스 이름으로 찾는 것이고,iloc는 인덱스의 번호로 찾는다. #판다스 사용법import pandas as pdlst = [1,2,3,4,5,6,7,8,9]lst2 = [1,2,3,'Apple','play',6,7,8,9]#열이 하나여야 한다.sr2 = pd.Series(lst2)#csv파일 읽어오기pd.read_csv('삼성전자 종가.csv')#csv파일에있는..

태태개발일지 - 머신러닝

데이터 전처리데이터 분석 및 머신러닝 모델링을 위해 데이터를 준비하는 과정.  원시 데이터는 종종 불완전하거나, 노이즈가 많거나 형식이 일관되지 않아 직접 모델링에 사용하기 어렵다. 데이터 전처리는 데이터의 품질을 올린다.  1. 결측값 처리: None , null 데이터가 들어가있다는 뜻이다.삭제: 행이나 열 삭제대체: 평균,중앙값으로 바꿔버린다.예측: 예측하고, 채웁니다. 2. 이상값 처리: 값 자체가 이상한경우 ex) 사람키가 270이 넘는경우제거: 제거변환: 상한선 하한서으로 대체IQR방법: 이상치를 발견하는 방법(특정범위를 잡아놓고 범위가 넘어가는 것을 이상값이라고 처리) 3. 중복데이터 제거: 동일한 데이터가 여러번 나타나는 경우 ex) 개,고양이 사진을 넣는데 개가 99%고 고양이가 1%일경..

카테고리 없음 2025.01.30
반응형