내배캠_Data_3기/TIL

240808_통계학 기초 4주차

케일라(Data_3기) 2024. 8. 8. 21:16

통계학 기초 4주차 - 회귀(Regression)

 

4.1 단순선형회귀

단순선형회귀 : 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법

회귀식 :  Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기(1차함수)

특징

독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측.

데이터가 직선적 경향을 따를 때 사용한다.

간단하고 해석이 용이하다.

데이터가 선형적이지 않을 경우 적합하지 않다.

 

단순선형회귀를 사용할 때

하나의 독립변수와 종족변수와의 관계를 분석 및 예측

광고비(X)와 매출(Y) 간의 관계 분석.

현재의 광고비를 바탕으로 예상되는 매출을 예측 가능.

 

4.2 다중선형회귀

다중선형회귀 : 두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링.

회귀식 : Y = β0 + β1X1 + β2X2 + ... + βnXn

특징

여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측

종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용한다.

여러 변수의 영향을 동시에 분석할 수 있다.

변수들 간의 다중공선성 문제가 발생할 수 있다.

-다중공선성(Multicollinearity)은 회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우

이는 회귀분석 모델의 성능과 해석에 여러 가지 문제를 일으킬 수 있다.

독립 변수들이 서로 강하게 상관되어 있으면, 각 변수의 개별적인 효과를 분리해내기 어려워져 회귀의 해석을 어렵게 만든다.

다중공선성으로 인해 실제로 중요한 변수가 통계적으로 유의하지 않게 나타날 수 있다.

진단하는 방법

가장 간단한 방법으로는 상관계수를 계산하여 상관계수가 높은(약 0.7) 변수들이 있는지 확인해볼 수 있다.

더 정확한 방법으로는 분산 팽창 계수(VIF)를 계산하여 VIF값이 10이 높은지 확인하는 방법으로 다중공선성이 높다고 판단할 수 있습니다.

다중공선성 해결 방법

가장 간단한 방법으로는 높은 계수를 가진 변수 중 하나를 제거하는 것이다.

혹은 주성분 분석(PCA)과 같은 변수들을 효과적으로 줄이는 차원 분석 방법을 적용하여 해결할 수도 있다.

다중선형회귀를 사용할 때

두 개 이상의 독립 변수와 종속변수와의 관계를 분석 및 예측