자격증/ADSP

태태개발일지 - ADSP 3 통계와 회귀분석

태태코 2025. 10. 26. 18:10
반응형

통계와 회귀분석

 

기초통계

통계학개론

  1. 모집단/표본
  2. 표본추출방법
  3. 자료의 종류

기초통계분석

  1. 기술통계/추측통계
  2. 회귀분석

다변량분석

  1. 상관분석(상관계수)
  2. 다차원 척도법(MDS)
  3. 주성분 분석(PCA)

 

시계열 예측

 

통계

특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다.

통계자료 획득 방법: 총조사/전수조사, 표본조사

 

모집단과 표본

표본의 평균, 표본의 표준편차, 표본의 분산 등 표본에서 요약하여 정리한 데이터를 통계량이라고 한다.
실제 모집단의 평균, 표준편차, 분산등을 모수라고한다. 

 

통계량을 통해 모수 추정을 할 수 있다.

 

표본 추출방법

단순랜덤추출법

1~N 까지의 번호를 부여하고, n개의 번호를 임의로 선택해 원소를 추출

 

계통추출법

번호를 부여하고, k개씩 n개의 구간으로 나누고 하나의 임믜로 선택한 후 k개씩 띄어서 표본 추출

 

집락추출법

모집단이 몇 개의 집락이 결합된 형태로 구성되어있고, 원소들에게 일련의 번호를 부여함

집락 내부는 이질적, 집락간은 동질적 특성

 

층화추출법

상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 구로 대표할 수 있도록 표본을 추출하는 방법

집락 내부는 동질적 집락 간에는 이질적 특성

군집간에 상이하면 층화추출법이다.

 

질적자료(이산형)

명목척도

측정대상이 어느 집단에 속하는 지 분류할 떄 사용되는 척도

ex) 성별, 출생지, 혈액형, 주소

 

순서척도

측정대상 특성이 가지는 서열 관계를 관측하는 척도
선택사항이 일정한 순서로 되어있음.

 

ex) 직급, 계급, 순위, 등급, 선호조사

 

양적자료(연속형)

구간척도

측정대상이 갖고 있는 속성의 양을 측정
측정 결과가 숫자로 표현되지만, 해당 속성이 전혀없는 상태인 0 이없음

 

섭씨온도, 지능 지수

 

비율척도

절대적 기준값인 0이존재하고 연산이 가능하다.

 

통계적 분석 방법

 

기술 통계

수집된 자료를 정리- 요약하기위해 사용되는 기초통계

 

숫자로 표현하는 방식: 평균,표준편차, 중위수, 최빈값,%

그림으로 표현하는 방식: 막대 그래프, 원그래프, 꺾은선 그래프

 

추론

  1. 모수추정
  2. 가설점정
  3. 회귀 검정
  4. 예측

 

확률

특정 사건이 일어날 가능성의 척도

 

표본 공간:  나타날 수 있는 모든 결과들의 집합

원소: 나타날 수 있는 개개의 결과

사건: 표본공간의 부분집합

 

기대값 xf(x)

 

x 1 2 3
f(x) 1/3 1/6 1/2

 

X의 기댓값은 1/3*1+1/6*2+1/2*3

 

조건부 확률

사건 A가 일어났다는 가정 하의 사건 B의 확률

 

사건 A가 주어졌을 떄 조건부확률 = P(B|A)

두 사건 A,B가 독립이면,

P(AnB)=P(A)*P(B)

 

독립일때 조건부확률은

P(A)*P(B)/P(A)

 

분산,표준편차 확률변수의 흩어진 정도

 

확률변수 및 확률변수의 종류

 

확률 변수

특정 값이 나타날 가능성이 확룰적으로 주어지는 변수

 

이산형 확률 변수

0이 아닌 확률값을 갖는 셀수있는 실수의 값
  1. 베르누이
  2. 이항분포
  3. 포아송분포
  4. 다항분포
  5. 기하분포

 

연속형 확률 변수

특정 실수 구간에서 0이 아닌 확률을 갖는 확률 변수
사건의 확률을 확률 밀도 함수의 면적으로 표현

 

  1. 균일 분포
  2. 정규분포(z)
  3. 지수분포
  4. t분포
  5. f분포
  6. x2분포

 

정규분포

중심값을 기준으로 좌우 대칭 형태가 나타나며, 종 모양으로 나타남

표준 정규분포는 평균이 0이고 표준편차가 1인 분포이다.

 

t-분포

표준 정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포

정규분포보다 퍼져있고, 자유도가 커질수록 정규분포에 가까움

두집단의 평균이 동일한지 알고자 할때 검정 통계량 활용

 

중심극한정리

표본의 크기가 커질수록 n>=30 표본 평균의 분포는 모집단의 분포와 상관없이 정규분포에 가까워진다.

 

점추정과 구간추정

 

추정

표본으로부터 미지의 모수를 추축하는 것

 

점 추정

모수가 특정한 값일 것이라고 추정하는 것

사실상 추정이 얼마나 정확한가를 판단하기가 불가능

 

구간 추정

점 추정의 정확성을 보완하는 방법

추정한 구간 -> 신뢰구간

일반적인 신뢰구간: 90%,95%,99% 확률 이용

 

신뢰수준 95%의 의미

한 개의 모집단에서 동일한 방법으로 동일한 자료의 개수의 확률표본을 무한히 많이 추출하여, 각 확률 표본마다 신뢰구간을 구하면,

이 무한히 많은 신뢰구간 중에서 95%의 신뢰구간이 미지의 모수를 포함한다는 것을 의미

 

가설검정

 

모집단에 대해 어떤 가설을 설정한 후, 그 가설의 채택여부를 결정하는 방법

 

가설의 종류

 

귀무가설

모수에 대한 가설 중 간단하고 구체적인 표현 설정

 

대립 가설

 

확실하게 증명하고 싶은 가설로, 뚜렷한 증거가 있어야 채택할 수 있는 가설

 

가설 검정

 

표본 관찰 또는 실험을 통해 귀무가설과 대립 가설중에서 하나를 선택하는 과정

 

1. 가설의 설정

2. 유의 수준

3. 기각역 설정

4. 검정 통계량 계산

5. 가설 채택의 여부결정

 

검정통계량

 

표본평균과 표본 통계량이 사용됨

 

p-값

 

관측된 검정통계량의 값보다 대립가설을 지지하는 방향으로 검정 통계량이 나올 확률

 

기각역

 

귀무가설을 기각하는 통계량의 영역

 

1종 오류

귀무가설이 옳은데 기각하는 경우

 

2종오류

귀무가설이 틀렸는데 채택하는 경우

 

기술통계

자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리 및 요약하는 것이다.

 

중심 위치 측도

  1. 표본평균
  2. 중앙값
  3. 최빈값

 

중심 위치의 대표값을 선정하는 기준

 

명목척도 -> 최빈값

분포가 대칭이고 이상값 존재X -> 표본 평균

비대칭이거나 이상값 존재 -> 중앙값

순위 척도 -> 중앙값

 

 

왜도

분포의 비대칭 정도를 나타내는 측도, 정규분포의 왜도는 0

 

첨도

분포의 중심에서 뾰족한 정도를 나타내는 측도, 정규분포의 첨도는 3

 

범주형

파이차트. 모자이크 플랏, 막대그래프

 

연속형

히스토그램, 상자 그림, 줄기 - 잎

 

공분산

종속변수와 독립변수의 관계를 나타낸 것이다.
한 변수가 커질 때 같이 커지면 공분산은 양의 값을 가짐

 

반대로 움직이면 음의 값을 가짐

연관이 없으면 - 의값

 

  • 데이터: X = {2, 4, 6, 8}, Y = {1, 3, 5, 7}라고 하자.
    1. 평균: Xˉ=(2+4+6+8)/4=5, Yˉ=(1+3+5+7)/4=4.
    1. 편차곱 합:
      i=1: (2−5)(1−4)=9, i=2: (4−5)(3−4)=1, i=3: (6−5)(5−4)=1, i=4: (8−5)(7−4)=9, 합=20.
    1. 표본공분산: Sxy=1n−1∑(xi−xˉ)(yi−yˉ)=20/3.
    2. 상관계수: r=Sxysxsy=20/3(20/3)(20/3)=1 (완전 양의 선형관계).

 

상관계수

두 변수의 선형 상관관계를 계량화한 수치

 

  1. r=0 선형 상관관계 없음
  2. r >0  양의 상관관계
  3. r=<1 음의 선형 상관관계

피어슨 상관계수

등간척도 이상으로 측정되는 두 변수의 상관관계 측정

두 변수간의 선형 관계의 크기를 측정하는 값으로 비 선형적인 산관관계를 나타내지 못함

 

스피어만 상관계수

비선형 상관관계도 표시

서열 척도인 두 변수의 상관관계 측정하는데 사용

 

 

회귀분석

하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추론하는 통계 기법

 

변수의 종류

종속변수

영향을 받는 변수, 분석의 대상이 되는 변수

 

독립변수

종속변수에 영향을 주는 변수

 

회귀분석의 종류

  1. 단순 회귀분석
  2. 다중회귀분석

 

회귀계수 추정법

최소제곱법

 

회귀 분석의 검정

  1. 회귀 모형에 대한 검증 - F-검정
  2. 회귀 계수들의 검증 - t-검정
  3. 모형의 설명력은 R^2 결정계수는 0~1사이의값
  4. 단순회귀분석의 결정계수는 상관계수의 제곱과 같다.

 

회귀모델의 평가기준

잔차

실제 값과 예측 값의 차이

 

MSE

잔차를 제곱의 합으로 계산

 

RMSE

MSE에 루트를 씌워 실제값과 유사한 값으로 변경

 

R^2

결정계수

 

다중선형회귀분석의 다중공선성

다중회귀분석에서 설명변수들 사이에 선형 관계가 존재하면 회귀계수의 정확한 추정이 곤란해지는 현상.

 

분산팽창요인 VIF이 10보다 크면 다중공산성이 있는 것으로 간주

10이상이면 문제가있다보고, 30보다 크면 심각

 

 

정상성 검정

데이터 셋의 분포가 정규분포를 따르는 지 검정하는 것.

샤피로-월크 검정

Q-Q plot

 

 

최적회귀방정식 - 설명변수의 선택법

가능한 범위 내에서 되도록 적은 수의 설명변수를 포함한 것이 좋음

  1. 전진선택법 AIC가 높은것 선택
  2. 후진제거법 AIC가 낮은거 선택
  3. 단계별 방법 변수를 추가해가면서 높으면 선택 낮으면 제거

 

 

시계열 자료

시간의 흐름에 따라 관측된 데이터로, X축이 시간의 흐름을  Y축이 관측된 데이터를 나타낸다.

 

정상성

시점에 상관없이 시계열의 특성이 일정하다는 것을 의미하며, 아래의 조건을 만족해야한다.

평균이 일정

분산이 일정

공분산은 단지 시차에만 의존, 시점에는 의존하지 않음

 

비정상 시계열을 정상 시계열로 바꾸는 방법

추세를 보이지 않는 경우 -> 차분을 통해 정상화

분산이 일정하지 않은 경우 -> 변환을 통해 정상화

 

차분

일반차분 = 현시점의 자료값 - 전 시점의 자료값

계절 차분 = 현재 시점에서 여러 시점 전의 자료를 빼는 것

 

 

시계열 모형

자기 회귀 모형

현 시점 자료가 p 시점의 전의 유한개의 과거자료로 설명될 수 있다는 의미 AR모형

 

이동 평균모형

이동평균 모형은 현 시점의 자료를 유한개의 백색잡음의 선형으로 결합으로 표현되었기 떄문에 정상성, 가정 필요없음 MA 모형

 

자기 회귀누적이동평균모형

ARIMA 모형으로

대부분의 많은 시계열 자료가 자기회귀누적이동평균모형을 따른다.

 

 

분해 시계열

시계열에 영향을 주는 일반적인 요인을 시계열에서 분리하여 분석하는 방법
  1. 추세요인
  2. 계절요인
  3. 순환요인
  4. 불규칙요인

 

다차원 척도법

군집 분석과 같이 개체들을 대상으로 변수들을 측정한 후 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간상에서 점으로 표현하는 분석 방법

개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고, 개체들 사이의 집단화를 시각적으로 표현, 주로 데이터의 축소목저을 가짐

유클리드 행렬을 사용

 

주성분 분석

상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 기법으로, 선형 결합으로 상관관계가 높은 변수를 축약, 축소하는 기법

 

보통 3개 이내의 변수로 축약하고 이로인한 정보손실은 20%로함

 

목적

여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리

주성분 분석을 통해 차원을 축소하여, 군집 분석에서의 군집화 결과와 연산속도 개선, 회귀분석에서 다중공선성 최소화

 

누적기여율 85%이상이면 주성분의 수로 결정할 수 있음

 

1과목

https://taetaecoding.tistory.com/350

 

태태개발일지 - ADSP 1 과목 데이터의 이해 총정리

1 과목 데이터의 이해데이터 유형정성적 데이터(질적 자료)저장,검색, 분석에 많은 비요이 소모되는 언어/문자 형태의 데이터 주관적 내용통계분석이 어렵다.ex) 회사 매출 증가함 정량적 데이터

taetaecoding.tistory.com

 

 

 

2과목

https://taetaecoding.tistory.com/351

 

태태개발일지 - ADSP 2 데이터 분석 기획 총정리

데이터 분석 기획 분석 기획의 특징분석기획실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계

taetaecoding.tistory.com

 

반응형