통계학 기초 4주차 - 회귀(Regression)
4.1 단순선형회귀
단순선형회귀 : 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법
회귀식 : Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기(1차함수)
특징
독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측.
데이터가 직선적 경향을 따를 때 사용한다.
간단하고 해석이 용이하다.
데이터가 선형적이지 않을 경우 적합하지 않다.
단순선형회귀를 사용할 때
하나의 독립변수와 종족변수와의 관계를 분석 및 예측
광고비(X)와 매출(Y) 간의 관계 분석.
현재의 광고비를 바탕으로 예상되는 매출을 예측 가능.
4.2 다중선형회귀
다중선형회귀 : 두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링.
회귀식 : Y = β0 + β1X1 + β2X2 + ... + βnXn
특징
여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측
종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용한다.
여러 변수의 영향을 동시에 분석할 수 있다.
변수들 간의 다중공선성 문제가 발생할 수 있다.
-다중공선성(Multicollinearity)은 회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우
이는 회귀분석 모델의 성능과 해석에 여러 가지 문제를 일으킬 수 있다.
독립 변수들이 서로 강하게 상관되어 있으면, 각 변수의 개별적인 효과를 분리해내기 어려워져 회귀의 해석을 어렵게 만든다.
다중공선성으로 인해 실제로 중요한 변수가 통계적으로 유의하지 않게 나타날 수 있다.
진단하는 방법
가장 간단한 방법으로는 상관계수를 계산하여 상관계수가 높은(약 0.7) 변수들이 있는지 확인해볼 수 있다.
더 정확한 방법으로는 분산 팽창 계수(VIF)를 계산하여 VIF값이 10이 높은지 확인하는 방법으로 다중공선성이 높다고 판단할 수 있습니다.
다중공선성 해결 방법
가장 간단한 방법으로는 높은 계수를 가진 변수 중 하나를 제거하는 것이다.
혹은 주성분 분석(PCA)과 같은 변수들을 효과적으로 줄이는 차원 분석 방법을 적용하여 해결할 수도 있다.
다중선형회귀를 사용할 때
두 개 이상의 독립 변수와 종속변수와의 관계를 분석 및 예측
'내배캠_Data_3기 > TIL' 카테고리의 다른 글
240812_머신러닝 기초 1. 머신러닝의 기초 (0) | 2024.08.12 |
---|---|
240809_통계학 기초 5주차 상관관계 (0) | 2024.08.09 |
240807_통계학 기초 3주차 (0) | 2024.08.07 |
240806_통계학 기초 2주차 데이터의 분포 (0) | 2024.08.06 |
240805_통계학 기초 1주차 데이터의 분석과 통계 (0) | 2024.08.05 |