관리 메뉴

HAMA 블로그

자동상관 / 자동회귀 본문

통계 & 머신러닝 & 딥러닝

자동상관 / 자동회귀

[하마] 이승현 (wowlsh93@gmail.com) 2016. 7. 23. 21:44

AR-HMM 에 대한 논문을 읽다가 통계학에 관해 공부를 조금 했는데 

(배워서 써먹는게 아니라 내 경우는 써먹으려고 배운 경우라 시간이 없어 기초/체계가 부족하다) 


관련 교과서들이 why 에 대해 설명한 교재는 거의 없더라 ... 몇권있다

일본인이 쓴 "빅데이터를 지배하는 통계의 힘"이란 책이 why 에 대한 책 중 하나


참고로 


주파수 해석에 관한 책으론 "수학으로 배우는 파동의 법칙" 이 

패턴인식으로는 "패턴인식 - 오일석 저" 가 참 좋다.  이해시키려고 책을 썼다는 느낌이 든다...

팔아먹으려고 혹은 자신이 성취한것을 자랑하기 위해 쓰여진 국내 책들이 너무나 많다. 



그 와중에 통계학에 대한 편견이 생겼는데  쉬운걸 어렵게 설명하는데 있어선 최고인 학문같다라는 점.

학문 자체가 '글월 (문장)' 으로 설명하는데 많이 수고스러울거 같긴하더라..작가가 그 why 나 설명 부분을 적절하게 말하기가 어렵고 귀찮으니 단지 수식이나 남발하며  SAS 나 SPSS 사용법만으로 책을 가득 채웠겠지 싶다..


학(저)자란 '쉬운걸 어렵게 말하는 사람들' 이란 예가 딱 맞지 싶다..


특히 시계열 관련 교재중 제대로 된 교재는 없다고 느꼈는데  그나마  송근원 선생님이 지으신 

"회귀분석과 아리마 시계열 분석" 인데  이 분은 한글화를 주창하시는 분인데 개인적으로 공감하며 

절로 존경의 마음이 생기더라..  ( 이 책은 특정부분 설명은 좋은데, 너무 얇아서 많은 생략이 있어 아쉽다) 


한글화 번역 


white-noise : 없소리 (백색소음)

stochastic : 제멋대로 (확율적) 

co-variation : 함께 변하기 (공변)

linear  : 곧은 줄꼴  (선형)

scatter-gram : 펼친그림 (산포도)

homoscedasticity : 같게퍼짐 (등분산성) 

residuals : 찌꺼기 (잔차)

mising value : 빠진 값 (결측치)

differencing : 차이화 (차분)

outlier : 삐진자 


일반 번역 

parametric : 모수 

nominal variable  : 명목변수 

intervening variable : 매개변수

timeliness : 적시성

time lag : 시차

asymptotic : 점근적

unbiasedness : 불편성 

spurious relation : 거짓관계 

estimator : 추정값

stationarity : 정태성 

disturbance term : 교란항 




자 이제 제목에 충실해보자. 
다음 글은  여기 저기서 발췌하여 정리 한 것이란걸 밝힌다.  (처음엔 내가 풀어서 쓰려고 했는데.. GG) 

자동 상관 (autocorrelation) 

위키정의)

Autocorrelation, also known as serial correlation, is the correlation of a signal with itself at different points in time. Informally, it is the similarity between observations as a function of the time lag between them. It is a mathematical tool for finding repeating patterns, such as the presence of a periodic signal obscured by noise, or identifying the missing fundamental frequency in a signal implied by its harmonic frequencies. It is often used in signal processing for analyzing functions or series of values, such as time domain signals.



예1 )
나는 상수동에서 커피숍을 운영하는데 , 날씨(온도) 에 따라서 커피 판매량이 달라진다.
더우면 많이 팔리는데,  온도에 따른 판매량을 회귀식으로 나타낼 수 있다.
여기서 판매량은 온도에 따라서만 달라지는데, 즉 시간의 흐름하고는 무관하다.
근데 어제 많이 팔리면 오늘도 많이 팔리는 경향이 있다고 하자. 
이건 t (오늘) 은  t-1 (하루전) 에 영향을 받았다고 할 수 있다. 이렇게 이 전날의 결과가
현재에 영향을 미칠때  자동 상관 되었다고 본다. 
회귀분석에서는 자동 상관이 되면 정확한 계산을 할 수 없다고 한다. 

예2 )

시계열 자료의 경우 과거의 상태가 현재의 상태에 영향을 미치는 경우가 흔하다.
예를들어 정부 예산의 경우 전년도 예산을 바탕으로 새 예산을 짜는 까닭에 연도별 예산액들 사이에는 점증주의 예산의 특징이 나타나고 이러한 것들이 자동 상관으로 타나난다.  
이런 경우 만들어낸 회귀모형에서는 오차항들 사이에 자동상관의 문제가 발생한다.

자동상관 발견모형 )

기어리 검증 / 더빈-와슨의 d 값 

자동상관 해결 방법 )

일반화된 최소제곱법 /  코크란스-오커트 방법 / 1차 차이화하는 방법 

자동 회귀 (autoregressive) 
자동 회귀는 ARIMA 시계열 분석방법에서 사용되는데 
ARIMA 자체가 'AR (자동회귀)' 과 'MA(움직평균)' 와 '차이화'를 섞어놓은 모형이다.

위키정의 )

In statistics and signal processing, an autoregressive (ARmodel is a representation of a type of random process; as such, it describes certain time-varying processes in natureeconomics, etc. The autoregressive model specifies that the output variable depends linearly on its own previous values and on a stochastic term (an imperfectly predictable term); thus the model is in the form of a stochastic difference equation.

Together with the Moving-Average (MA) model, it is a special case and key component of the more general ARMA and ARIMA models of time series, which have a more complicated stochastic structure; it is also a special case of the vector autoregressive model (VAR), which consists of a system of more than one stochastic difference equation.


WHY)


 AR 모형은 아래 가설에 의해 제안되었다. 


○ 과거의 패턴이 지속된다면 시계열 데이터 관측치 Yt 는 과거 관측치 , ,... 2 , Yt−1 Yt− Yt− p 에 의해 

    예측할 수 있을 것이다. 


○ 어느 정도의 멀리 있는 과거 관측치까지 이용할 것인가? 그리고 멀어질수록 영향력을 줄어들 것이다. 

   이런 상황을 고려할 수 있는 가중치를 사용해야 하지 않을까?


AR(1) 모형 )


현재 시점의 값은 이전 시점의 값에 상수(a)를 곱해준 것과 유사하고, 찌꺼기 정도의 차이만 있다고 함 끄적여본 것 이다. 이 모형을 AR (Autoregressive) 모형이라 하고 , 바로 이전 시점 (t-1 시점) 까지만 고려하면  AR(1), 그 이전 까지 모두 고려해 주면 일반적으로 AR(p) 모형이라 한다. AR 모형은 아래와 같다. 






자동회귀와 자동상관의 차이는 무엇인가요?


 'Autoregression' is a variable regressed against lagged values of itself plus any other terms and their lagged values. You could have a model like: 

y(t) = C + ay(t-1) + by(t-2)....cx(t) + dx(t-1) + ex(t-2) + u(t) 


First of all 'Autocorrelation' is a word that is applicable to the error terms of time series regressions. 'Autocorrelation' means that the errors terms are correlated, which violates one of the assumptions of OLS testing. 

You could model it like so: 

e(t) = C + ae(t-1) + be(t-2) + ce(t-3)... 

What is e? e is a random variable that represents the error term in any particular regression model. If the paramters a, b, c etc... are significant, then you have serial correlation. I don't think you can use OLS for this, but check the text. Certainly in practice it is often done to get an idea if there is a problem. 

There is some very simple algebra that shows if the cov between 2 error terms is zero or not, but alas, my memory fails.


결론

기계적으로 사용하는 곳(적용처)이 다르다. 라는 뻔한 말 말고 느낌을 말하자면 

과거의 값들로 현재를 말하고 미래를 예측한다라는 뽄새는 동일하나  

자동상관은 오차항,교란항과 밀접한 관계가 있는 경우를 특별히 지칭하는게 아닌가 싶다. 

별거 아닌걸 가지고 너무 헥깔려하는건가 싶기도 하다 -.-;;




Comments