반응형

Pandas
엑셀말고 판다스를 이용하는 이유
엑셀은 만줄만 넘어가도 느려지지만, 파이썬은 만줄은 가볍다.
pandas종류
- series
- dataframe
구별법
열의 갯수이다.
series는 열이 하나이다.
dataframe은 열이 두개이상이다.
loc와 iloc 구별법
pd.loc['index']
pd.iloc[index숫자]
loc는 ''로 특정 인덱스 이름으로 찾는 것이고,
iloc는 인덱스의 번호로 찾는다.

#판다스 사용법
import pandas as pd
lst = [1,2,3,4,5,6,7,8,9]
lst2 = [1,2,3,'Apple','play',6,7,8,9]
#열이 하나여야 한다.
sr2 = pd.Series(lst2)
#csv파일 읽어오기
pd.read_csv('삼성전자 종가.csv')
#csv파일에있는 첫번째 두번째열중 인덱스로 지정할 요소를 정하는 것이 index_col 이다.
#header은 몇번째 행이 제목이 될것인가를 정하는 것이다.
a = pd.read_csv('삼성전자 종가.csv',index_col = 0,header = 0)
#기본적으로 dataframe이 되기때문에 Series로 만드려면 squeeze를 사용해야하는데
#기존엔 read_csv파일로 인자로 넘겼지만, 이제는 지원을 안하고 dataframe의 메서드로 사용해야한다.
a = a.squeeze('columns')
#iloc사용
a.iloc[966]
z = pd.read_excel('samsung_excel.xlsx',sheet_name = 'Sheet2',index_col=0)
#이것도 동일한게 Serise.append()메서드의 지원이 중지되어 pandas.concat을 사용하여 Series를 이어야한다.
wz = pd.concat([w, z], ignore_index=True)
#평균값과 여러가지 지표를 볼 때 유용한 메서드
wz.describe()
#최댓값
wz.max()
#값들의 모임
wz.values
wz.index[wz.argmin()]
#아래로 한칸씩 미는 것이다.
wz.shift()
#수익률 구해주는 함수
val = wz.pct_change()
#na를 대체하는 메서드
fillna('값')
#na삭제메서드
dropna()

반응형
'Python > 데이터분석' 카테고리의 다른 글
태태개발일지(Numpy) (1) | 2023.12.11 |
---|