데이터 분석을 위한 기초 통계 지식 3가지
데이터 분석을 실제로 하는 사람은 전문 지식을 갖춘 분석 담당자입니다. 그 밖의 관계자들도 최소한의 통계 지식은 아는 상태에서 프로젝트를 진행해야 합니다. 통계적 사고의 기초가 되는 평균과 분산, 표준 편차에 대해서 알아보겠습니다. 통계 데이터를 그래프로 만들면 많은 것을 볼 수 있습니다. 수집한 미가공 데이터를 일정한 범위에 따라 구분해 집계한 것을 도수 분포표라고 합니다. 데이터를 나눠서 묶은 범위를 계급이라고 부릅니다. 각 계급에 해당하는 수치를 도수라고 합니다. 도수 분포표의 특징은 숫자가 정리되어 알아보기 쉽다는 점입니다. 다만 전체를 넓은 시야로 바라보며 분포 상태를 직감적으로 떠올리기는 쉽지 않습니다. 가로축에 계급, 세로축에 도수를 할당해 그래프로 만든 것을 히스토그램이라고 합니다. 도수 분포표를 히스토그램으로 바꾸면 통계 데이터의 전체적인 모습과 분포 정도를 직감적으로 파악하기가 용이합니다. 때문에 통계 데이터를 시각화하는 수단으로 히스토그램을 자주 이용합니다. 히스토그램이 일반적인 막대그래프와 다른 점은 막대의 넓이가 도수를 나타낸다는 점입니다. 필요로 하는 정보가 사람의 수 같은 구체적인 수치가 아니라 비율일 경우는 세로축의 도수를 데이터의 개수로 나눠서 비율로 바꾼 다음 그래프로 만듭니다. 수치가 비율로 바뀔 뿐이므로 그래프의 모양은 변함이 없습니다. 명칭이 히스토그램에서 확률분포로 바뀝니다. 확률 분포는 그래프의 넓이를 전부 더하면 1이 된다는 특징이 있습니다. 통계학에서 가장 자주 볼 수 있는 그래프를 정규 분포 또는 가우스 분포라고 합니다. 좌우 대칭의 종 모양이 특징으로 꼭대기에 해당하는 평균값 부근에 데이터가 많이 분포함을 나타냅니다. 그리고 이 꼭대기에서 좌우로 멀어짐에 따라 데이터의 수가 줄어듭니다. 수집 데이터 중에서 가장 빈도가 높게 나타나는 최빈값과 모든 데이터의 정확히 한가운데를 가리키는 중앙값이 종의 꼭대기인 평균값과 일치합니다. 정규분포 중에서도 표준 정규 분포라고 부르는 그래프가 있습니다. 가로축의 중앙에 위치한 평균값에서 좌우로 표준 편차 하나 분량씩 눈금을 넣음으로써 기재된 수치가 어느 정도의 확률로 나타나는지 알 수 있습니다. 플러스와 마이너스 양쪽으로 표준 편차 하나만큼의 범위 사이에 모든 데이터의 약 70퍼센트가 들어갑니다. 이와 같은 특징 때문에 표준 정규 분포는 학력 분포나 불량품 발생률 등 폭넓은 분야에서 그 통계 데이터가 나타날 확률이 어느 정도인지 알고 싶을 때 이용되고 있습니다. 데이터 분석에 필요한 통계학 수법은 빈도론, 주관론, 탐색적 자료 분석, 중심 극한 정리, 가우스 함수, 검정 등 다양합니다. 데이터 분석이 비즈니스에 어떻게 활용된다는 거지라는 의문 속에서 구체적인 효과를 체감하지 못한 채 중도에 포기하는 사람도 적지 않습니다. 데이터 분석에 유용한 지식을 깊게 파고들수록 복잡하고 난해한 개념이 나오는 것은 부정할 수 없습니다. 데이터 분석은 이 세상에서 볼 수 있는 다양한 사건의 자유분방함을 해석하는 것이라고 할 수 있습니다. 그 자죠 분방함에서 기본 개념을 이해해 둬야 할 지표가 평균과 분산, 표준편차입니다. 평균은 수집한 데이터의 수치를 더한 다음 데이터의 개수로 나눠서 구하니다. 초등학교에서 배우는 평균을 구하는 방법과 똑같습니다. 일상생활 속에서 자주 사용하므로 쉽게 이해가 가능합니다. 두 사람의 1개월당 평균 매출액을 계산하면 월평균 매출액은 110만 원, B는 140만 원이 나옵니다. 그러나 평균값을 바탕으로 B가 우수한 영업 사원이라고 하면 안 됩니다. 월간 매출액은 들쭉날쭉할 수 있기 때문입니다. 이 들쭉날쭉한 정도를 조사하기 위한 계산이 분산입니다. 분산을 이용해서 들쭉날쭉한 정도를 계산하려면 기준이 되는 지표인 평균값이 필요합니다. 각 수치를 제곱해 플러스로 바꾼 다음 제곱한 수치의 합을 데이터의 개수로 나누면 분산을 구할 수 있습니다. 평균에서의 편차의 제곱이므로 제곱근으로 돌리면 표준 편차가 나옵니다. 단순한 데이터 모집단의 평균에서 얼마나 벗어났는가를 측정하는데 불과했던 편차가 분산을 이용한 단순한 게산을 거쳐서 표준 편차로 표현될 수 있습니다. 평균과 분산, 표준 편차라는 세 가지 지표를 이용해서 비교하면 영업 직원의 능력을 안정적이라는 측면에서 평가할 수 있습니다. 일반적으로 이런 통계 값을 요약 통계량이라고 합니다. 이 수치는 품질 관리나 재고 최적화의 논리에 포함되는 매주 중요한 통계 값이 될 수 있습니다. 다중 회귀 분석 같은 모델의 검정 처리에도 적용됩니다. 통계 수법의 기초를 이루는 사람의 몸으로 치면 골격에 필적한 만큼 중요한 계산 처리 항목입니다. 다만 현실 비즈니스에서는 이렇게 단순한 예를 만나기가 쉽지 않습니다. 분석에 필요한 데이터의 양도 비교할 수 없을 만큼 많습니다. 통계는 절대적인 객관성을 제공합니다. 하나의 현상으로 바라봐서는 알 수 없는 불안정한 들쭉날쭉함도 계산 처리를 통해 시각화하면 명쾌해집니다. 통계가 신뢰성이 높다고 해도 최소한의 지식조차 없이 결과를 받아들이면 그릇된 판단으로 이어질 수 있습니다. 평균과 분산, 표준 편차만으로 비즈니스 문제를 해결할 수는 없습니다. 그러나 이것을 알면 데이터 분석에 큰 도움이 되니다.