요약 통계량에서 필수로 알아둬야 할 수치 5가지

    요약 통계량은 자사 서비스 해약자의 속성 정보와 서비스 이용 이력의 요약 통계량을 추출해 해약이 많은 그룹을 특정합니다. 이로 인해 해약 방지 전략을 세울 때 활용할 수 있습니다. 고객층의 측정, 상품 카테고리별로 구매자 속성 정보의 요약 통계량을 산출합니다. 구매 수요가 높은 고객층을 파악합니다. 요약 통계량이란 데이터 분포의 특징을 나타내는 통계량입니다. 요약 통계량을 산출하면 데이터의 치우침이나 형상 등을 알 수가 있습니다. 분석의 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 자주 산출하고는 합니다. 엑셀이나 분석 도구로 그래프를 그리면 데이터 분포를 파악할 수도 있습니다. 그러나 데이터가 수천 개를 넘어가면 그래프를 그려서 파악하는 것은 비현실적입니다. 수많은 분석 도구가 요약 통계량을 쉽게 산출하는 기능을 갖고 있습니다. 이로 인해 손쉽게 데이터 분포의 특징을 파악할 수 있습니다. 요약 통계량에서 필수로 알아두어야 할 값에 대해 알아보겠습니다. 첫 번째는 평균값입니다. 모든 데이터의 합계를 데이터의 개수로 나눈 값입니다. 예를 들어 한 점포당 매출이나 1인당 이용 횟수 같은 데이터의 규모감을 파악할 경우에 널리 사용됩니다. 두 번째는 표준 편차와 변동 계수입니다. 데이터가 얼마나 널뛰는가를 파악할 수 있습니다. 수치가 클수록 데이터가 흩어져 있다고 판단할 수 있습니다. 반대로 작으면 데이터가 서로 가까이 붙어 있음을 나타냅니다. 세 번째는 왜도와 첨도입니다. 이 값으로 데이터 분포의 형상을 파악할 수 있습니다. 왜도는 분포의 좌우로 치우친 정도를 나타냅니다. 첨도는 분포가 얼마나 뾰족하게 이루어져 있는가를 나타내는 수치입니다. 네 번째는 중앙값입니다. 정확히 한가운데의 데이터가 어디에 있는가를 파악할 수 있습니다. 평균값은 극단값의 영향을 많이 받습니다. 실태를 파악하고 싶을 때는 평균값 대신 중앙값을 사용하면 더 좋습니다. 다섯 번째는 최빈값입니다. 데이터가 가장 많은 그룹이 어디에 있는가를 파악할 때 좋은 값입니다. 베이지안 확률에 대해 알아보겠습니다. 스팸 메일의 필터링에 자주 쓰입니다. 몇 가지 단어에 대해 스팸 메일에 들어 있을 확률과 정상적인 메일에 들어 있을 확률을 사전에 산출한 다음 새로운 메일에 들어있는 단어를 조사해 수시로 확률을 갱신합니다. 이것을 이용해서 스팸 메일인가 아닌가를 판정할 수 있습니다. 경비 모니터링에도 쓰입니다. 주차장이나 공항에서 사람의 움직임을 카메라로 촬영하고 그 화상 자료에서 일반적이지 않은 움직임을 보이는 사람을 특정해 범죄 확률을 계산하는데 쓰일 수 있습니다. 베이지안 확률은 극단적으로 감이나 경험을 바탕으로 한 확률에 입수한 데이터의 결과를 반영시켜 새로운 확률을 산출하는 분석 수법입니다. 베이지안 확률을 이용할 때 꼭 필요한 사전 확률과 사후 확률의 개념에 관해서도 설명해 보겠습니다. 아무런 입력 정보가 없는 시점에서의 확률을 사전 확률이라고 합니다. 주어진 정보를 이용해 다시 계산한 확률을 사후 확률이라고 부릅니다. 사전 정보와 사후 정보를 모두 고려해 사후 확률을 산출합니다. 베이지안 확률의 개념은 주어진 정보를 바탕으로 그 사건이 일어날 수 있는 확률의 분포를 갱신해 나간다는 것입니다. 또한 베이지안 확률에서는 분석자가 과거의 경험 등을 바탕으로 사전 확률을 자의적으로 정할 수 있습니다. 상관 분석에 대해서 알아보겠습니다. 주된 용도로는 서비스 해약자의 경향 분석, 자사 서비스의 해약 유무에 관한 정보와 고객 속성 정보를 상관 분석해 서비스 해약을 하기 쉬운 사람의 경향을 파악할 수 있습니다. 판매 실적과 연관성이 큰 특징을 추출합니다. 자사 제품의 특징과 판매 실적을 상관 분석해 어떤 특징이 판매 실적에 많이 기여하는지 파악할 수 있습니다. 상관 분석은 두 데이터의 연계성을 분석하는 수법입니다. 상관 계수는 상관 분석의 지표의 일종입니다. 마케팅이나 리스크 분석 등 다양한 상황에서 이용되는 분석 수법입니다. 비교 대상인 두 데이터의 형태에 따라 상관 분석의 지표가 달라집니다. 상관 계수는 두 데이터가 모두 숫자일 때 사용합니다. 상관 계수의 범위는 마이너스 1에서 플러스 1입니다. 상관 계수가 1에 가까운 양의 값이라면 두 데이터가 양의 상관관계임을 의미합니다. 한쪽 데이터가 커질수록 다른 쪽 데이터도 커지는 관계입니다. 근속 연수가 급여는 양의 상관관계일 때가 많습니다. 상관 계수가 마이너스 1에 가까운 음의 값이라면 두 데이터가 음의 상관관계임을 말합니다. 한쪽 데이터가 커지면 다른 쪽 데이터는 작아지는 관계입니다. 예를 들면 골프 스코어와 경험 연수는 음의 상관관계일 때가 많습니다. 상관 비는 한쪽 데이터가 숫자이고 다른 데이터가 분류 값일 때 사용합니다. 제품의 색상과 판매 실적을 분석할 경우에 사용합니다. 상관 비의 범위는 0에서 1 사이입니다. 상관 비가 1에 가까울수록 서로 상관관계가 있음을 뜻합니다. 독립성 검정은 두 데이터가 모두 카테고리 값일 때 사용할 수 있는데 예를 들어 직업과 서비스 해약의 관계를 분석할 수 있습니다. K평균 법은 고객의 속성 정보나 서비스 이용 이력 등을 기준으로 특성에 입각해 분류할 수 있습니다. 매출에 공헌하는 우량 고객의 세분화 등에 활용 가능합니다. 금융 기관 등에서 고객의 속성 정보나 자산 잔액을 기준으로 리스크의 수준을 그룹별로 분류할 수 있습니다. K평균 법은 클러스터링 기법의 일종입니다. 클러스터링 기법이란 어떤 데이터의 지단을 색이나 모양, 크기 등 특정한 기준에 따라 비슷한 것끼리 묶는 수법을 말하며 이는 머신 러닝에서 자율 학습의 대표적인 예입니다. 표본을 어떤 기준에 따라 그룹으로 나누고 싶을 때 사용합니다. 그룹 분류의 기준은 분석자가 스스로 결정해야 합니다. 고객 속성을 조합해 설정하면 됩니다. 소매점이 고객을 상대로 판촉 활동을 검토하고 있다고 가정하고 고객의 구매 특성에 맞춰 판촉 활동의 내용을 바꾸기로 해봅시다. 이럴 때 K평균 법을 이용하면 고객의 구매 특성에 따라 고객을 유의미하게 그룹화할 수 있습니다. 유의해야 할 점이 두 가지 있습니다. 첫째는 그룹 분류 기준을 무작정 늘려서는 안 됩니다. 그리고 그룹 수의 설정을 잘 조절하여 그룹 수를 바꾸면서 반복 실시해 유의미한 결과를 이끌어내는 작업을 해야 합니다.

    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기
    • 트위터 공유하기