Python/데이터분석

태태코딩 - pandas 정리

태태코 2025. 4. 20. 14:12
반응형

Pandas

엑셀말고 판다스를 이용하는 이유

 

엑셀은 만줄만 넘어가도 느려지지만, 파이썬은 만줄은 가볍다.

 

pandas종류

  • series
  • dataframe

구별법 


열의 갯수이다.

 

 

series는 열이 하나이다.

dataframe은 열이 두개이상이다.

 

 

loc와 iloc 구별법

pd.loc['index']

pd.iloc[index숫자]

 

loc는 ''로 특정 인덱스 이름으로 찾는 것이고,
iloc는 인덱스의 번호로 찾는다. 

 

 

#판다스 사용법
import pandas as pd


lst = [1,2,3,4,5,6,7,8,9]
lst2 = [1,2,3,'Apple','play',6,7,8,9]

#열이 하나여야 한다.
sr2 = pd.Series(lst2)

#csv파일 읽어오기
pd.read_csv('삼성전자 종가.csv')


#csv파일에있는 첫번째 두번째열중 인덱스로 지정할 요소를 정하는 것이 index_col 이다.
#header은 몇번째 행이 제목이 될것인가를 정하는 것이다.
a = pd.read_csv('삼성전자 종가.csv',index_col = 0,header = 0)
#기본적으로 dataframe이 되기때문에 Series로 만드려면 squeeze를 사용해야하는데 
#기존엔 read_csv파일로 인자로 넘겼지만, 이제는 지원을 안하고 dataframe의 메서드로 사용해야한다.
a = a.squeeze('columns')

#iloc사용
a.iloc[966]

z = pd.read_excel('samsung_excel.xlsx',sheet_name = 'Sheet2',index_col=0)

#이것도 동일한게 Serise.append()메서드의 지원이 중지되어 pandas.concat을 사용하여 Series를 이어야한다.
wz = pd.concat([w, z], ignore_index=True)

#평균값과 여러가지 지표를 볼 때 유용한 메서드
wz.describe()


#최댓값
wz.max()


#값들의 모임
wz.values


wz.index[wz.argmin()]

#아래로 한칸씩 미는 것이다.
wz.shift()

#수익률 구해주는 함수
val = wz.pct_change()

#na를 대체하는 메서드
fillna('값')
#na삭제메서드
dropna()
반응형

'Python > 데이터분석' 카테고리의 다른 글

태태개발일지(Numpy)  (1) 2023.12.11