다중 회귀 분석과 로지스틱 회귀 분석의 차이점
다중 회귀 분석은 과거의 판매 경험이나 소셜 미디어의 반응 수를 바탕으로 판매수를 예측하는 방법입니다. 예측 결과를 바탕으로 발주량을 조정해 재고 부족 또는 재고 과다 문제를 개선할 수 있습니다. 1시간 단위로 콜센터에 들어오는 문의량을 예측할 수 있습니다. 그리고 그 결과를 바탕으로 직원들의 근무 시간을 조절함으로써 비용 절감을 도모할 수 있습니다. 다변량 분석의 일종으로 여러 개의 데이터를 바탕으로 하나의 데이터를 예측하는 모델입니다. 예측 모델에서 가장 많이 쓰이는 기법으로 꼭 알아두면 좋습니다. 연봉을 예측하는 모델식 역시 전형적인 다중 회귀 분석의 모델입니다. 다중 회귀 분석의 좌변에는 예측 대상이 들어갑니다. 이 데이터를 종속 변수라고 부릅니다. 연봉이 종속 변수에 해당합니다. 우변에는 예측에 사용되는 데이터가 들어갑니다. 이 데이터를 독립 변수라고 부릅니다. 위의 예에선 근속 연수와 토익 점수가 독립 변수입니다. 독립 변수는 분석 결과의 정확도를 좌우하기 때문에 종속 변수와 상관관계가 큰 변수를 선택해야 합니다. 그 외에 다른 계수는 일정한 수로서 각 독립 변수를 얼마나 예측값에 포함시키느냐를 뜻하는 가중치를 말합니다. 오차는 예측값과 실제값의 차이를 보정하기 위한 것입니다. 근속 연수와 토익 점수만으로 연봉을 예측하는 것은 불가능하기 때문에 우변에 오차를 놓습니다. 다중 회귀 분석을 할 때 주의해야 할 것은 다중 공선입니다. 다중 공선 성은 독립 변수 사이에 상관관계가 있는 상태를 말합니다. 독립 변수의 계수 예측 정확도가 떨어지기 때문에 다중 회귀 분석을 하기 전에 독립 변수 사이의 상관관계를 꼭 분석해놔야 합니다. 로지스틱 회귀 분석은 상품별로 구매 실적과 고객 속성을 바탕으로 로지스틱 회귀 모델을 만듭니다. 신규 고객이 구매할 확률이 높은 상품을 제안하게 됩니다. 건강 진단 결과를 입력하고 로지스틱 회귀 분석으로 질병에 걸릴 잠재 위험을 예측합니다. 로지스틱 회귀 분석은 어떤 일의 발생 확률을 예측하는 분석 기법입니다. 예측을 할 때 다중 회귀 분석과 마찬가지로 여러 개의 독립 변수를 곱해서 발생 확률을 산출하게 됩니다. 로지스틱 회귀 분석의 공식은 다중 회귀 분석과 달리 발생 확률이 0에서 100퍼센트 범위에 수렴합니다. 로지스틱 회귀 분석의 모델식에서는 좌변에 반드시 로그가 필요합니다. 로그를 취하는 것을 로짓 변환이라고 부릅니다. 변수인 자산 잔액이나 가족 수가 어떤 값을 갖든 아파트 구입 확률은 0에서 100퍼센트를 벗어나지 않습니다. 우변에는 다중 회귀 분석과 마찬가지로 아파트 구입 확률을 예측하기 위한 독립 변수와 그 계수가 적용됩니다. 이 예에서는 자산 잔액과 가족 수가 여기에 해당합니다. 다중 회귀 분석과 마찬가지로 발생 확률과 상관관계가 있는 변수를 독립 변수로 사용하는 것이 바람직합니다. 단순 회귀 분석에서는 다중 회귀 분석과 결괏값이 다르게 나올 때가 있습니다. 그 이유 중에 하나는 독립 변수를 추가할 때 그 영향력과 상관관계 때문에 작아지거나 커질 수 있습니다. 정확한 분석을 위해 결과에 부정적인 영향을 주는 변수는 제외시켜줘야 합니다. 다중 회귀 분석에서 톨러런스 분석을 통해서 영향력이나 상관관계에 있어서 부정확한 영향을 주는 것은 없는지 체크해봐야 합니다. 리커트 척도로 이루어진 자료일 경우에는 다중 회귀 분석 적용에 적합하지 않을 수 있습니다. 자료의 분포도를 두루 고려하고 적정한 변환을 해서 적용해야 합니다. 4가지 유형의 주거만족도를 조사했습니다. 이 유형별로 종합 주거만족도에 세부 요인들이 미치는 영향을 보기 위해 다중 회귀 분석을 실시했습니다. 세부 주거만족도는 4개의 그룹으로 분류했습니다. 종속변수에 영향을 미치는 독립변수가 2개 이상이라면 다중 회귀 분석을 진행하는 것이 옳습니다. 주택 유형 변수는 명목상으로 설정되어 있을 수 있습니다. 이런 상황에서는 더미 변수를 치환해서 다중 회귀 분석을 진행해야 합니다. 분산 분석 결과표에서 유의 값이 작으면 회귀 모형이 분석에 적합한 모양이라고 판단합니다. 독립 변수별 값이 작으면 해당하는 독립 변수가 종속 변수에 미치는 영향이 통계적으로 유의미하다고 해석할 수 있습니다. 계수 값은 이 변수가 종속 변수에 미치는 영향의 척도라고 말합니다. 독립 변수가 증가하면 종속 변수도 증가한다고 볼 수 있습니다. 결정 계수는 R제곱으로 표시합니다. 독립 변수가 종속 변수를 어떻게 설명하는지 수치로 나타내 줍니다. F값은 분석 모형이 적합한지 나타내 주고 유의 확률이 나오면 임계치를 해석해서 적합도를 해석합니다. 유의 확률을 제대로 알고 있어야 통계를 제대로 이해할 수 있습니다. 통계는 이처럼 여러 가지 변수를 잘 통제해야 합니다. 각 변수가 조금이라도 달라지면 도출할 수 있는 값이 전혀 다르게 나올 수 있기 때문입니다. IT 기업에서 통계학과 출신의 직원을 우대해서 채용하는 이유도 여기에 있습니다. 간단한 접근만으로는 위의 열거한 내용들의 이해가 쉽지 않기 때문입니다. 몇 년 간의 노력을 통해서 다중 회귀 분석과 로지스틱 회귀 분석을 정확하게 이해하고 각종 변수를 통제할 수 있다면 좋은 예측 결과치를 도출할 수 있습니다. 독립 변수들이 종속 변수를 어느 정도 설명하는지 정확한 해석은 참여시간, 전문가, 교수 등 여러 가지 변동을 설명하는 정도 값이라고 생각하면 됩니다. 최종적으로 독립 변수들의 유의성을 판단해서 유의미한 모형을 생성해야 합니다. 수정된 회귀 계수는 회귀 모형이 여러 개 있을 때 어떤 모형이 더 좋은가 판단할 때 사용하므로 이 문제에서는 크게 신경 쓰지 않아도 됩니다.