단계적 회귀분석, 이제는 버려야 할 변수선택 방법

오늘의 떡밥은 ‘변수 선택’ variable selection 입니다. 흔히 회귀분석에서 반응변수 (또는 종속변수) 를 설명/예측하는 변수 (독립변수) 를 선정하기 위한 방법으로 단계적 회귀분석 (stepwise regression) 을 활용합니다. 이를테면 모든 독립변수가 다 포함된 모형으로부터 출발하여 설명력이 가장 낮은 변수를 하나씩 제거하면서 아무 변수도 제거되지 않을 때까지 반복하거나, 아무 독립변수도 없는 모형으로부터 출발하여 설명력이 가장 높은 변수를 추가하면서 아무 변수도 더 추가되지 않을 때까지 반복합니다. 혹은 이 두 가지 방식을 혼합하기도 합니다. 이 방식은 자동적인 기준에 의해 변수선택이 이루어진다는 장점이 있고, 다수의 통계 패키지에 포함되어 있기 때문에 연구자들이 흔히 선호하는 방식입니다. 하지만 단계적 회귀분석 방식에는 심각한 문제가 있음이 알려져 있기 때문에 사실 추천할 만한 방식은 아닙니다. 아래 링크에 그 문제점들이 친절하게 설명되어 있습니다.

https://towardsdatascience.com/stopping-stepwise-why-stepwi…

문제점들을 구체적으로 나열하자면 다음과 같습니다.

1. R제곱 값이 실제보다 크게 편향되어 추정된다 (R^2 values are biased high).
2. F 통계치의 실제 분포가 가정된 F 분포로부터 벗어난다 (The F statistics do not have the claimed distribution).
3. 모수 추정치들의 표준오차가 실제보다 작게 추정된다 (The standard errors of the parameter estimates are too small).
4. 3의 결과로, 모수들의 신뢰구간이 실제보다 좁게 보고된다 (Consequently, the confidence intervals around the parameter estimates are too narrow).
5. P값들이 올바르지 않으며 교정하기 어렵다 (p-values are too low, due to multiple comparisons, and are difficult to correct).
6. 모수 추정치들이 0이 아닌 것으로 편향되기 쉽다 (Parameter estimates are biased away from 0).
7. 공선성 문제가 더 심각해진다 (Collinearity problems are exacerbated).

이런 이유들 때문에 통계/방법론 연구자들은 단계적 회귀분석 대신 위계적 회귀분석 hierarchical regression 을 추천합니다. 컴퓨터가 특정 기준에 의해 자동으로 변수를 선택하는 대신, 위계적 회귀분석에서는 연구자가 기존 가설 및 이론에 의거해 선정한 변수와 모형들을 직접 비교합니다.

https://data.library.virginia.edu/hierarchical-linear-regr…/

이 외에도 최근 각광받는 변수선택 방법으로는 기계학습에서 널리 쓰이는 penalized regression의 일종인 LASSO, elastic net 등이 있습니다. 이 방식들은 특히 설명보다는 예측이 주 목적일 때 더욱 유용합니다. 이들을 이용하여 stepwise regression을 대체할 수 있습니다.

p.s. 겔만 옹도 한 마디 보태신 주제입니다 (…)

https://statmodeling.stat.columbia.edu/…/hate-stepwise-reg…/

About The Author

Related posts

Leave a Reply

Your email address will not be published. Required fields are marked *