- 시계열 y를 예측할 때 이것이 다른 시계열 x와 선형 관계가 있다고 가정
- `목표 예상변수(forecast variable)` : y(= 회귀선, 종속 변수, 피설명 변수)
- `예측변수(predictor variables)` : x(= 회귀자, 독립 변수, 설명 변수)
- 해당 자료에선 항상 y를 "목표 예상(forecast)" 변수, x를 "예측(predictor)" 변수라고 명명
선형 모델
단순 선형 회귀(Simple Linear Regression)
- 목표 예상변수 y와 하나의 예측변수 x 사이의 선형 관계를 다루는 회귀 모델
- B_0 : 직선의 절편으로, x = 0에서 y의 예측값
- B_1 : 직선의 기울기로, x가 1만큼 증가했을 때 y의 예측된 변화
- e_t : 무작위 오차(error)로 관측값이 기본 직선 모델로부터 얼마나 떨어져 있는지를 의미
- 모델의 체계적인 부분이란, 모델이 선형 회귀 식을 통해 설명할 수 있는 부분(오차를 제외한 부분)
다중 선형 회귀(Multiple Linear Regression)
- `다중 선형 회귀(multiple linear regression)` : 두 개 이상의 예측변수가 있는 회귀 모델
- y는 예측될 목표 예상변수이며, x_1, ... , x_k들은 k개의 예측변수
- 예측변수 각각은 숫자 형태여야 함
- 계수 B_1 , ... , B_k는 다른 모든 예측변수의 효과를 고려한 후의 각 예측변수의 효과를 나타냄
- 예측변수의 `한계 효과(marginal effects)`를 나타냄
선형 회귀 모델을 사용할 때의 가정
- 모델은 현실에 대한 타당한 근사식(목표 예상변수와 예측변수 사이의 관계는 이러한 선형 관계식을 만족)
- 오차(error)에 대한 가정
- 오차의 평균은 0 → 예측값이 체계적으로 편향되는 것을 방지
- 오차는 `자기상관계수(autocorrelation)`이 없음 → 데이터에 악용될 수 있는 정보가 더 많아 예측값이 비효율적으로 되는 것을 방지
- 오차는 예측변수와 상관관계가 없음 → 모델의 체계적인 부분에 포함되어야 할 정보가 더이상 없음
- `예측 구간(prediction interval)`을 쉽게 내기 위해 오차가 일정한 분산 simga^2을 가지는 `정규 분포(normal distribution)`를 나타낸다고 가정하는 것도 유용
- 예측변수 x는 `확률 변수(random variable)`가 아님
- 실험실에서 통제된 실험을 하고 있는 상황에서는 각 x 값을 통제할 수 있어 무작위가 아니기 때문에 결과 y 값을 관측할 수 있음
- 관측 데이터(비즈니스 및 경제 분야의 대부분의 데이터를 포함)로 x 값을 통제하는 것은 불가능하고 단순히 관측할 뿐이기 때문에 이러한 가정을 사용
💡 확률 변수는 알려져있지 않은 대상이다. 우리가 예측해야하는 대상은 알려져있지 않아야 하기 때문에(반대로 말하면, 알려져 있다면 예측하지 않기 때문에) y는 확률 변수이며, 상대적인 확률 값에 따라 이 무작위 변수가 가질 수 있는 값은 `확률 분포(probability distribution)`라고 한다. 예측을 하는 경우에는 `예측 분포(forecasting distribution)`이라고 하며, 보통 예측 분포의 평균으로 예측하게 된다.
최소 제곱 추정(Least Square Estimation)
- `최소 제곱 원리(least square principle)` : 제곱 오차의 합을 최소화하여 계수를 효과적으로 선택할 수 있는 방법
- 아래 값을 최소화하는 계수를 선택
- 오차를 제곱하여 더한 양의 최소값을 나타내기 때문에 `최소 제곱(least square)` 추정
- 계수의 가장 좋은 추정치를 찾는 것을 종종 모델을 데이터에 맞춘다, 혹은 모델을 학습시키거나 훈련시킨다고 표현
적합값(fitted value)
- 회귀식에서 추정된 계수를 사용하고 오차항을 0으로 두어 y의 예측값을 얻음
- 여기서 x 값을 대입하면 학습-표본 안의 y_t 예측값을 얻으며, 이를 `적합값(fitted value)`라고 함
- 이는 y의 참 미래 예측값이 아니고 모델을 추정하기 위해 사용한 데이터의 예측 값
- 적합값이 실제 데이터를 꽤 비슷하게 따라가며, 강한 양의 관계를 보임
적합도(Goodness-of-fit)
- 선형 회귀 모델이 데이터에 얼마나 잘 맞는지 요약하는 일반적인 방법은 `결정 계수(coefficient of determination)` 또는 R^2
- 관측한 y 값과 예측한 y^ 값 사이의 `상관관계(correlation)`의 제곱
- 다음과 같이 회귀 모델로 설명되는 목표 예상변수의 변동 비율을 반영하는 식도 가능
- 단순 선형 회귀 분석에서 R^2 값은 y와 x 사이의 상관 관계의 제곱과 동일
- R^2은 0과 1 사이의 값을 가지며, 1에 가까울수록 예측값이 실제 값과 가깝고 0에 가까울수록 예측값과 실제 값이 관련 x
- 예측변수를 모델에 추가할 때 R^2 값이 줄어들지 않고 이것이 `과대적합(over-fitting)`으로 이어질 수 있음
- 좋은 R^2 값에 대한 정해진 규칙은 없으며 R^2의 일반적인 값은 사용하는 데이터의 종류에 따라 다름
- 테스트 데이터에 대해 모델의 예측 성능을 확인하는 것이 학습 데이터에 대한 R^2을 측정하는 것보다 훨씬 나음
회귀 분석의 표준 오차
- `잔차 표준 오차(residual standard error)`를 통해 모델이 데이터에 얼마나 잘 들어맞는지 확인
- K는 모델에 포함된 예측변수의 수
- `잔차(residual)`를 계산할 때 각 예측변수에 대한 계수와 추가적으로 절편을 추정했기 때문에 T-k-1로 나눔
- 표준 오차를 평가하는 것은 스케일(scale)에 따라 매우 주관적일 수 있음
- `예측 구간(prediction interval)`을 생성할 때 필요
회귀 모델 평가
- `잔차(residual)` : 관측된 y 값과 적합값 y^ 사이의 차이값
- 잔차의 성질
- 잔차의 평균이 0이고, 잔차와 예측변수에 대한 관측값 사이의 상관관계도 0
- 회귀 변수를 고르고, 회귀 모델을 맞춘 후에 모델의 가정이 만족되는지 확인하기 위해 잔차를 그려보는 것이 필요
잔차의 ACF 그래프
- `적합 모델(fitted model)`과 기본 가정의 서로 다른 측면을 확인하기 위해 그려야 할 그래프 중 하나
- 시계열 데이터에서 현재 시점에 관측한 변수의 값은 이전 기간의 값과 비슷하거나 그보다 이전 기간의 값과 비슷
- 회귀 모델로 시계열 데이터를 맞출 때, 보통은 잔차의 자기상관을 찾음
- 추정된 모델 오차에서 자기상관관계가 없다는 가정을 위배하면 예측이 비효율적
- 자기상관을 가지는 오차가 있는 모델로 낸 예측치는 여전히 편향되어있지는 않아서 잘못된 것은 아니지만 필요보다 더 큰 예측구간을 가짐
- 이를 확인하기 위해 항상 잔차의 ACF(AutoCorrelation Function) 그래프를 살펴봐야 함
- `브로이쉬-갓프레이(Breusch-Godfrey)` 검정은 회귀 모델을 고려하여 설계한 잔차의 자기상관을 확인하는 또 다른 방법
- `계열 상관(serial correlation)`에 대한 `LM(Lagrange Multiplier)` 검정이라고도 함
- 계열 상관은 자기상관과 동일한 의미
- 어떤 특정한 순서까지 잔차에 자기상관이 없다는 결합 가설을 검증하는데 사용
- 작은 p-값은 잔차에 중요한 자기상관이 남아있다는 것을 나타냄
- `융-박스(Ljung-Box)` 검정과 비슷하지만 회귀 모델을 위해 설계되었다는 차이점 존재
- `계열 상관(serial correlation)`에 대한 `LM(Lagrange Multiplier)` 검정이라고도 함
잔차의 히스토그램
- 잔차가 정규 분포를 따르는지 확인하는 작업이 예측 작업에서 필수적이진 않지만, 예측 구간을 훨씬 쉽게 계산할 수 있게 됨
- 시간 그래프, ACF, 미국 분기별 소비 데이터에 맞춘 다중 회귀 모델로 얻은 잔차의 히스토그램, 8차 자기 상관까지 확인하기 위한 브로이쉬-갓프레이 검정 결과
- 시간 그래프에서 몇몇 부분은 시간에 따라 변하지만 나머지는 변화가 별로 없음
- 잔차는 살짝 치우친 것 같은 모습이며, 이는 예측 구간 범위에 영향을 끼칠 수도 있음
- ACF에서는 시차 7에서 튀는 점이 있지만 브로이쉬-갓프레이 검정에서 5% 수준에 도달할만큼 유의미하진 않음
예측 변수에 대한 잔차 그래프
- 각 예측변수에 대한 잔차의 산점도를 통해 잔차가 체계적인 패턴을 보이지 않고 무작위로 흩뿌려진 형태로 나타나는지 확인
- 산점도에 패턴이 나타나면, 관계가 비선형적일 수 있어 모델 수정 필요
- 모델에 없는 모든 예측변수에 대해 잔차에서 어떤 패턴이 나타난다면, 관련된 예측변수를 모델에 넣어야 함
- 아래와 같은 그래프에서는 모든 잔차가 흩뿌려진 형태인 것처럼 보임
적합값에 대한 잔차 그래프
- 적합값에 대해 잔차를 그려도 어떠한 패턴도 나타나지 않아야 함
- 패턴이 있다면 잔차의 분산이 일정하지 않을 수도 있다는 것을 의미(오차의 `이분산성(heteroscedasticity)`
- 이러한 문제가 생길 시 목표 예상변수에 로그나 제곱근 같은 변환을 취해야 할 수 있음
이상값과 영향력 있는 관측값
- `이상값(outliers)` : 대다수의 데이터에 비해 극단적인 값을 갖는 관측값
- 영향력 있는 관측값 : 회귀 모형의 추정된 계수에 큰 영향을 주는 관측값
- 이상값이 나타나는 한 가지 원인은 데이터 입력 실수
- 몇몇 관측값이 단순히 다를 때도 이상값이 나타나는데, 이 경우 이를 제거하는 것이 현명하지 않을 수 있음
- 이상값이 영향력 있는 관측값일 때 이를 제거하거나 유지하기로 결정하는 일은 어려울 수 있음
- 이러한 관측값을 제거한 경우와 그렇지 않은 경우 모두 결과를 보고하는 것이 현명
- 빨간색 선은 이상값을 포함하는 데이터에 맞춘 회귀선이며, 검은색 선은 이를 제거한 데이터에 맞춘 회귀선
- 좌측 그래프에서 이상값은 소비의 백분율 변화가 -4%로 잘못 기록되어 y 방향으로 극단적인 값
- 우측 그래프에서 이상값은 6% 소득 증가에 대응되는 4% 소비 감소로 x 방향으로 극단적인 값
- 빨간색 선이 검은색 선에서 크게 벗어나기 때문에 이상값은 아주 큰 영향력 존재
허위회귀(Spurious regression)
- 대부분의 경우 시계열 데이터는 시계열의 값이 일정한 평균이나 일정한 분산으로 변하지 않는 비정상성을 보임
- 정상성을 나타내지 않는 시계열을 회귀 분석하는 것은 `허위회귀(spurious regression)`으로 이어질 수 있음
- 높은 R^2와 자기 상관은 허위회귀의 신호일 수 있음
몇 가지 유용한 예측변수
- 시계열 데이터에 회귀를 사용할 때의 유용한 몇 가지 예측변수
추세(Trend)
- 시계열 데이터에 추세가 나타나는 것은 흔한 일이며, 선형 추세는 다음과 같이 x_1,t = t를 예측변수로 사용하여 모델링
가변수(dummy variable)
- 예측변수가 숫자 값들로 나타나는 것이 아닌, 두 가지 값만 갖는 `범주형(categorical)` 변수인 경우 `가변수(dummy variable)` 사용
- 모의 변수를 `지표 변수(indicator variable)`이라고도 함
- 데이터의 `이상값(outlier)`를 설명하는 경우에도 이를 생략하는 대신, 가변수를 사용하여 1로 표현
- 세 개 이상의 범주가 있는 경우 변수를 몇 가지 가변수로 부호화하여 전체 범주의 수보다 한 개 적게 표현
- 일반적인 규칙은 범주보다 하나 적은 수의 가변수를 사용하는 것
- 범주의 개수와 동일하게 가변수를 설정할 경우 `가변수 함정(dummy variable trap)`에 빠져 회귀가 실패
- 가변수와 관계된 각 계수는 생략된 범주에 관한 해당 범주의 효과를 나타냄
- 일요일의 경우 모든 가변수를 통해 모든 값이 0이기 때문에 월요일과 관계된 d_1,t의 계수는 목표 예상변수에 대해 일요일의 효과와 비교하여 월요일의 효과를 나타냄
- 호주 분기별 맥주 생산량이 선형 추세와 분기별 가변수를 고려하는 모델링
- t가 분기 i이면 d_i,t = 1이고, 아니면 0
- 1번째 분기 변수는 생략되었기 때문에 다른 분기와 관련된 계수는 1번째 분기와 다른 분기와의 차이
- 분기별 -0.34백만리터 값에 평균적인 하향 추세
- 평균적으로 2번째 분기는 생산량이 1번째 분기보다 34.7백만리터, 3번째 분기는 17.8백만리터 적음
- 4번째 분기는 1번째 분기보다 72.8 백만리터 큼
개입 변수(intervention variance)
- 예측하려는 변수에 영향을 줄 수도 있는 `개입(intervention)` 값을 모델링하는 것이 종종 필요 → 경쟁자의 활동, 광고 지출 등
- 효과가 한 주기만 지속될 때는 개입 기간에는 1로 두고 그 외에는 0으로 두는 가변수인 `스파이크(spike)` 변수 사용
- 스파이크 변수는 이상값을 처리하기 위한 가변수와 동일
- 시계열의 값이 개입 시점부터 영구적으로 변하는 경우, 즉 개입이 수준 변화를 일으킬 때는 `단계(step)` 변수를 사용
- 개입 전에는 단계 변수를 0으로 두고 개입 이후에는 1로 둠
푸리에 급수
- `계절성 가변수(seasonal dummy variable)` 대신에 긴 계절성 주기에 대해서는 `푸리에 항(Fourier term)`을 사용
- 사인과 코사인 항의 급수로 임의의 주기적 함수의 근사치를 낼 수 있으며, 이러한 항을 계절성 패턴을 다룰 때 사용
- m이 계절성 주기일 때의 푸리에 항
- 월별 계절성을 다루고 예측변수 중 처음 11개를 사용한다면, 11개의 가변수를 사용하여 정확하게 같은 예측값을 얻음
- 푸리에 항이 있으면 가변수가 있는 경우에 예측변수보다 적은 수의 예측변수를 사용(특히 m이 큰 경우)
- 짧은 계절성 주기를 다룰 때는(분기별 데이터 등) 계절성 가변수에 대해 푸리에 항을 사용해도 딱히 이점은 없음
- 푸리에 항을 포함하는 회귀 모델은 연이은 푸리에 항이 처음 두 푸리에 항의 조화를 나타내기 때문에 `조화회귀(harmonic regression)`라고 부름
예측변수 선택
- 가능한 예측변수가 많은 경우 회귀 모델에서 사용할 가장 좋은 예측변수를 선택하는 전략 필요
- 목표 예상변수를 특정한 예측변수에 대해 그래프로 나타내서 눈에 띄는 관계가 없는 경우 버리는 것은 추천 x
- 모든 예측변수에 대해 다중 선형 회귀 분석을 하여 p-값들이 0.05보다 큰 모든 변수를 무시하는 것도 추천 x
- 통계적인 유의미함이 항상 예측값을 나타내는 것은 아님
- 2개 이상의 예측변수가 서로 관련되어있을 때 p-값들이 오해를 일으킬 수 있음
- 이러한 방법들보단, 예측 정확도 측정량을 사용
조정된 R^2
- 기존 R^2 값은 모델이 과거 데이터를 얼마나 잘 설명하는지는 측정할 수 있지만, 모델이 미래 데이터를 얼마나 잘 예측하는지는 측정 x
- `자유도(degree of freedom)`을 허용하지 않아 어떤 변수를 추가하면 변수가 적합하지 않더라도 값이 증가
- `과대적합(over-fitting)`이 발생할 수 있음
- `제곱 오차의 최소 합(SSE)`을 최소화하는 것은 R^2를 최대화하는 것과 같고, 항상 변수가 가장 많은 모델을 선택하기 때문에 예측변수를 선택하는 올바른 방법이 아님
- 이러한 문제를 해결하기 위해 조정된 R^2 활용
- T : 관측값의 수
- k : 예측변수의 수
- 예측변수가 추가되어도 값이 크게 증가하지 않음
- 해당 값이 가장 큰 모델이 가장 좋은 모델이며, 이는 표준 오차를 최소화하는 것과 동일
- 너무 많은 예측변수를 선택하는 부분이 잘못된 경향이 있지만, 조정된 R^2 값을 최대화하는 것은 예측변수를 선택하는 방법으로 적합
교차검증(cross-validation)
- 학습 데이터는 테스트 데이터를 구성하는 관측에 앞서서 일어난 관측만으로 구성
- 예측치를 구성할 때 미래 측청치를 전혀 사용 x
- 작은 학습 데이터에서 신뢰할만한 예측을 얻을 수 없어 초반부의 관측값은 테스트 데이터로 고려 x
- 파란 관측값은 학습 데이터, 빨간 관측값은 테스트 데이터
- `예측 정확도(forecast accuracy)`는 테스트 데이터에 대한 평균으로 계산
- 예측하는 원점을 시간에 따라 앞으로 굴리기 때문에 `예측 원점 굴리기에 대한 평가(evaluation on a rolling forecasting origin)`이라고도 함
- 시계열 예측에서 한 단계 예측치는 여러 단계 예측치와 관련이 없을 수 있음
- 예측 원점 굴리기에 기초한 `교차 검증(cross-validation)` 과정을 `여러 단계 오차(multi-step forecst)`를 사용할 수 있도록 변형
- 4단계 앞 예측치에 해당하는 그래프
- 대응되는 `예측값(forecast)`이 참 예측되는 것 대신에 전체 데이터 모음을 맞추는 모델이 될수록 잔차에서 얻은 `RMSE`가 더 작음
- 가장 뛰어난 예측 모델을 선택하는 좋은 방법은 시계열 교차 검증으로 RMSE를 계산하여 가장 작은 모델을 찾는 것
- 회귀 모델에서 예측변수를 선택하기 위해 고전적인 `단일 관측치 제거법(leave-one-out)` 교차검증을 사용하는 것도 가능
아카이케의 정보 기준(Akaike's Information Criterion; AIC)
- T는 추정에 사용하는 관측값의 수이며, k는 모델에 있는 예측변수의 수
- k+2의 부분은 모델에 k+2개의 매개변수가 있기 때문에 사용
- 예측변수에 대한 k개의 계수, 절편, 잔차에 대한 분산 → k+2개
- 추정할 필요가 있는 매개변수의 수로 SSE에 제한을 거는 것이 기본적인 개념
- AIC 값이 최소인 모델은 예측할 때 종종 가장 좋은 모델
- T 값이 큰 경우 AIC를 최소화하는 것은 CV 값을 최소화하는 것과 동일
수정된 아카이케의 정보 기준
- T 값이 작은 경우 AIC는 예측변수를 너무 많이 고르는 경향이 있어 수정된 AIC를 사용
- AIC_c 또한 최소화해야 함
슈바르츠의 베이지안 정보 기준(Schwarz Bayesian Information Criterion; SBIC, BIC, SC)
- BIC가 AIC보다 매개변수의 수에 더 큰 제한을 주기 때문에 BIC로 고른 모델은 더 적은 수의 항을 고려
예측 정확도 측정량의 사용
- 조정된 R^2이 널리 사용되고, 다른 방법보다 더 오래되었지만 너무 많은 예측변수를 고르는 경향이 있어 예측 작업에 덜 적합
- 진짜 original model이 있을 경우 충분한 T에 대하여 BIC가 해당 모델을 고를 것이기 때문에 BIC를 많이 사용하지만, 실제 original model이 존재하는 경우는 거의 없으며, 있더라도 매개변수 추정값이 정확하지 않을 수 있기 때문에 해당 모델을 선택하는 것이 반드시 가장 좋은 예측치를 낼 것이라 보장 x
- AIC_c, AIC, CV, BIC를 모두 사용하여 미국 소비에 대한 예시 확인
- 미국 소비 예측 다중 회귀 예제에서 4개의 예측변수를 고려하여 16개(2^4)의 모델이 가능
- 4개의 모든 예측변수가 실제로 유용한지, 하나 이상을 버릴지 고려
- 가장 좋은 모델은 4개의 예측변수를 모두 포함
- 처음 4개의 행의 모델과 아래 모델이 분명하게 구분되어, 소득 및 저축이 생산과 실업률보다 더 중요한 변수임을 확인
- 처음 2개의 행에서 CV, AIC, AIC_c 값이 거의 동일하므로 생산 변수를 무시할 수 있음
- 생산과 실업률은 아주 높은 상관 관계가 있으며, 생산에 나타나는 대부분의 예측 정보가 실업률 변수에도 포함
- 가능한 경우 모든 가능한 회귀 모델을 맞춰보고, 다룬 측정량 중 하나에 근거하여 가장 좋은 모델을 선택 → `가장 좋은 부분집합(Best Subset)` 회귀 또는 `모든 가능한 부분집합(all possible subset)` 회귀
단계적 회귀(stepwise regression)
- 예측변수의 수가 많을 경우 모든 가능한 모델을 확인하는 것은 불가능하여 모델의 개수를 제한하는 전략이 필요
- `후진 단계적 회귀(backwards stepwise regression)`도 좋은 접근 방식
- 모든 잠재적인 예측변수를 포함하는 모델부터 시작
- 한 번에 하나의 예측변수를 제거하여 예측 정확도가 나아지면 모델을 유지
- 더 나아지지 않을 때까지 반복
- 잠재적인 예측변수가 너무 많으면 `전진 단계적 회귀(forward stepwise regression)`을 사용
- 절편만 포함하는 모델에서 시작
- 한 번에 하나의 예측변수를 추가하여 예측 정확도가 나아지면 모델을 유지
- 더 나아지지 않을 때까지 반복
- 혼합 절차도 가능
- 후진이나 전진에 대해 시작 모델은 잠재적인 예측변수의 부분집합을 포함하여 추가
- 후진 절차에 대해 각 단계에서 예측변수를 넣는 것도 고려
- 전진 절차에 대해 예측변수를 빼는 것도 고려
회귀로 예측하기
- `사전 예상값(Ex-ante forecast)`는 과거~현재까지의 데이터만 사용해서 내는 예측값
- 이를 위해 예측변수의 미래 값(예상값)이 필요한데, 이는 평균, 랜덤워크 등 다양한 방법을 사용 가능
- `사후 예상값(Ex-post forecst)`는 예측변수의 현재값의 이후 정보로 내는 것
- 예측변수의 실제 값을 관측하고 나서 실제 값을 이용하여 예측
- 100% 순수한 예측이라 할 수는 없지만, 예측 모델이 작동하는 것을 살펴볼 때 유용
- 사후 예상값을 내는 모델을 예측 기간의 데이터를 이용하여 추정해서는 안됨
- 사후 예상값은 예측변수(x 변수)에 관한 지식을 가정할 수 있지만, 예측할 데이터(y 변수)에 대한 지식을 가정해선 안됨
- 사전 예상값과 사후 예상값을 비교 평가하면 예측 불확실성의 원인을 구분하는데 도움이 됨
- 예측 오차가 안 좋은 예측 모델 때문인지, 예측변수에 대한 안 좋은 예측값 때문인지 확인
예측 회귀 모델 세우기
- 회귀 모델의 가장 큰 장점은 관심 있는 목표 예상변수와 예측변수의 중요한 관계를 잡아내는데 사용할 수 있다는 것
- 주된 어려움은 사전 예상값을 내기 위해 모델에 각 예측변수의 미래값이 필요하다는 것
- `시차 값(lagged value)`를 예측변수로 사용하여 h-단계 앞 예측 수행
- 예측변수 모음은 y를 관찰하기 전 h시간 주기에 관찰한 x의 값으로 구성
- 추정된 모델을 미래에 투영할 때 모든 예측변수 값을 이용 가능
예측구간(prediction interval)
- 회귀 오차가 정규 분포를 따른다는 것을 가정할 때 예측과 관련된 근사적인 95% 예측구간
- T : 관측값의 전체 개수
- x^bar : 관측된 x 값의 평균
- s_x : 관측된 x 값의 표준 편차
- sigma^_e : 회귀의 표준 오차
행렬 정식화
최소 제곱 추정
적합값과 교차검증
예측값과 예측구간
비선형 회귀
- 비선형적인 관계를 모델링하는 가장 단순한 방법은 회귀 모델을 추정하기 전에 y와 x를 변환하는 것
- 이 경우 비선형적인 함수 형태를 얻긴 하지만 모델은 매개변수에 대해 여전히 선형적
- 로그 변환
- B_1은 x가 1% 증가할 때 y의 평균 백분률 변화
- 변수를 로그 변환하려면 모든 관측된 값이 0보다 커야하며, 변수 x가 0인 값을 가지는 경우에는 log(x+1)와 같은 변환 사용
- 단순하게 데이터를 변환하는 것은 적절하지 않은 경우가 있어 다음과 같은 모델을 사용
- f는 비선형 함수
- 비선형 회귀 형태를 통해 f를 단순히 로그나 다른 변환에 비해 더욱 유연한 x에 관한 비선형 함수로 둠
- f의 기울기가 변할 수 있는 점인 `매듭(knots)`을 도입해 f를 `조각별 선형(piecewise linear)`으로 만듬
- x_1,t = x로 두고 변수 x_2,t를 도입하여 다음과 같이 구성
- (x-c)_+는 양수일 때 x-c 값을 의미하고 이외에는 0
- c 점에서 기울기가 구부러지도록 함
- 조각별 선형 관계는 `회귀 스플라인(regression splines)`의 특수한 경우
- 일반적인 선형 회귀 스플라인은 아래 관계식을 이용
- c_1, ... , c_k-1은 매듭(선이 휠 수 있는 점)
- 매듭의 수 (k-1)를 고르는 것과 어디에 두어야하는지를 지정해야 함
- 조각별 선 대신 3차식을 쓰면 갑작스러운 방향 변화 없이 연속적이고 매끄러움
- 3차 스플라인이 보통 데이터에 더 잘 맞는 결과를 냄
- x가 과거 데이터의 범위를 넘어갈 때 y 값 예측값을 신뢰할 수 없게 됨
비선형 추세로 예측하기
- 비선형 추세를 맞추는 가장 간단한 방법은 다음과 같은 2차 이상의 추세를 사용하는 것
- 예측 작업에서 2차 이상의 추세 사용은 권장 x
- `외삽(extrapolate)`하는 경우에 결과 예측값이 종종 비현실적
- 더 나은 접근 방식은 조각별로 위의 식을 조각별로 적어서 사용하고, 시간에 따라 어떤 점에서 조각별 선형 추세가 휘게 맞추는 것
상관관계, 인과관계, 그리고 예측
- `상관관계(correlation)`를 `인과관계(causation)`와 또는 인과관계를 예측하는 것과 혼동하지 않는 것이 중요
- 변수 x는 변수 y를 예측할 때 유용할 수 있지만, 이것이 x가 y의 원인이 된다는 의미 x
- x가 y의 원인이 될 수 있지만, y가 x의 원인이 될 수도 있고, 둘 사이의 관계는 단순한 인과관계보다 더 복잡할 수도 있음
- `혼선자(confounder)`는 우리가 사용하는 예측 모델에 포함되지 않는 어떤 변수가 반응변수와 적어도 하나 이상의 예측변수 모두에 영향을 미치는 것
- `혼선(confounding)`은 어떤 변수들이 다른 변수들에 영향을 주고 있는지 판단하기 어렵게 만들지만, 항상 예측 작업을 더 어렵게 만들지는 않음
다중공선성과 예측
- 다중 회귀에 2개 이상의 예측변수로 비슷한 정보가 주어질 때 `다중공선성(Multicollinearity)` 발생
- 이 성질은 두 예측변수의 상관관계가 아주 높은 상황(1이나 -1에 가까운 경우)에 발생
- 변수 중에서 하나의 값을 알면 다른 변수의 값을 추정할 수 있어 두 예측변수는 비슷한 정보를 주고 받는 셈
- 다중공선성은 예측변수의 선형결합이 예측변수의 다른 선형결합과 매우 상관관계가 높을 때도 발생
- 첫 번째 예측변수의 묶음 값을 알면 두 번째 예측변수의 묶음의 값에 대한 정보를 알 수 있어 두 묶음이 비슷한 정보를 주고 받는 셈
- `가변수 함정(dummy variable trap)`은 다중공선성의 특별한 경우
- 예를 들어 분기별 데이터를 가지고 있고 4개의 가변수(d1, d2, d3, d4)를 사용하는 상황에서 d4 = 1-d1-d2-d3이고, d4와 d1+d2+d3 사이에는 완벽한 상관관계가 존재
- 완벽한 상관계수(상관계수가 +1 또는 -1)의 경우 회귀 모델 추정이 불가
- 상관계수가 큰 경우(+1과 -1에 가까운 경우) 회귀 계수를 계산하여 추정하는 것이 어려움
- 다중공선성이 나타날 때 각 회귀 계수와 관련된 불확실성이 커져 회귀 계수에 대한 통계 검정, 즉 `t-검정`을 신뢰할 수 없게 됨