데이터 분석 결과 도입 단계의 위험성

    데이터 분석의 토대가 갖춰져 있어도 도착점이 명확하게 보이지 않으면 시작하면 안됩니다. 도착점을 모르는 상태에서 데이터 분석에 들어가는 것은 달에 갈지 화성에 갈지 모르면서 우주선을 발사하는 것과 비슷합니다. 무엇을 위한 데이터 분석인지 알 수 없습니다. 데이터 분석을 하는 의미는 데이터에서 기업 전체의 성과를 높일 방법을 이끌어내는데 있습니다. 프로젝트의 제 1단계는 전체 최적화를 잘 이루어내야 합니다. 부분 최적의 위험은 같은 회사의 부서들이 각각 분석팀을 보유하고 처리 기반의 수평적인 연계 없이 분석을 실시하거나 사업부별로 각각 법인 영업을 한 결과 동일 고객에게 여러 사업부가 중구난방으로 영업을 해서 고객의 클레임을 받는 등 일일이 나열할 수 없을 정도입니다. 어떤 데이터 분석 프로젝트의 경우엔 영업 지구를 5개 미만으로 좁혀서 고객을 타겟하는 모델을 구축하면 전체 매출의 70퍼센트 이상을 커버할 수 있었습니다. 막대한 비용을 들여 15개 영업 지구를 모두 개혁하려다 도중에 경비가 바닥난 경우도 있습니다. 그로인해 정작 중요한 5개 미만의 영업 지역을 개혁하지 못했습니다. 부분 최적의 함정에 빠지면 이러한 결과가 나타나기도 합니다. 통계학 분야에서는 부분 최적의 시점에서 집약 처리를 할 경우 심슨의 역설을 일으킬 위험성이 있습니다. A학교와 B학교의 학생 기준 시력 달성률을 생각해 봅시다. 기준 시력 달성률은 유년기의 시력과 학업 성적에 강한 상관관계가 있음이 밝혀졌기에 교장의 평가 지표 중 하나로 사용됩니다. 자세히 조사해보면 A학교의 교장은 1차 검사 때 학생들에게 검사 소식을 제대로 알리지 못해 실제로 검사를 받은 학생은 10명 뿐이었습니다. 나머지 190명은 2차에 검사를 받았습니다. 한편 B학교는 모든 학생에게 제대로 공지를 해서 1차 검사에 190명이 검사를 받았습니다. 사정상 검사를 받지 못한 10명은 2차에 검사를 받았습니다. 이처럼 모수가 다른 두 그룹의 평균값을 정확히 보고 싶을 때는 가중 평균을 사용해야 합니다. 가중 평균을 계산하면 A학교와 B학교의 평균은 각각 70퍼센트가 79퍼센트가 됩니다. 차이는 9퍼센트가 벌어지게 되는 것입니다. 이를 토대로 A학교의 교장에게는 개선 지도가 필요하게 됩니다. 모집단의 상관관계와 모집단을 분할한 집단의 상관관계가 크게 다른 경우에 심슨의 역설이라고 합니다. 이는 통계에서 부분 최적의 리스크라고 합니다. 통계는 집약값입니다. 근사값을 내는 것의 위험성이 자주 나타납니다. 교장의 평가를 최종 목적으로 삼으면 근사의 트릭에 걸립니다. 근사의 트릭은 복잡한 대상의 해석을 쉽게 하고 싶은 나머지 세세한 부분을 무시하고 해석의 유효성을 잃을 수준가지 단순화해 버리는 것입니다. 이로 인해 부분 최적의 리스크에 이르게 됩니다. 진짜 목적은 교장의 평가가 아니라 시력이 아이들에게 끼치는 영향임을 인식해야 전체 최적의 시점을 유지할 수 있습니다. 의료 정책 분야에서는 환자 한 사람 한사람, 비즈니스의 분야라면 고객 한사람 한사람을 생각하는 것이 통계의 함정에 빠지는 위험을 막아줍니다. 사람은 데이터가 올바르닫고 해서 반드시 행동하지는 않습니다. 데이터 분석 프로젝트를 성공시킬 때 중요한 것은 분석 자체가 아니라 분석을 통해 얻은 결과를 현장의 프로세스에 반영하는 것입니다. 그렇지만 분석 결과를 과신하다가 현장에 예측 모델을 도입하는 단계에서 실패하는 경우도 있습니다. 최종적으로 데이터를 활용하는 주체가 기계가 아닌 사람이라는 사실을 잊으면 이런 상황을 맞이하게 됩니다. 올바른 프로세스를 통해 분석한 결과는 높은 정확도로 현실을 말해줍니다. 단순히 결과를 보여주기만 해서는 회사 내부는 움직이지 않습니다. 데이터 분석 결과를 들이대면서 내가 시키는 대로 하라는 명령을 하면 일이 제대로 되지 않을 가능성이 큽니다. 그 뒤로는 기업 내부는 전혀 이야기를 들으려 하지 않을 수도 있습니다. 사람을 움직이려면 다음 세 가지가 필요합니다. 경영층이 현장에 프로젝트의 우선도를 알려야 합니다. 그리고 철저하고 공정한 인사 평가 시스템을 정비해야 합니다. 성공했을 때 가장 강렬한 인상을 줄 수 있는 영역부터 착수해야 합니다. 데이터가 암시하는 가설을 구체적인 시책에 반영하기 전에 현장 담당자를 만나 이해하고 수긍할 때까지 설명해야 합니다. 만약 이런 단계를 거치치 않은 채 결정 사항이니 따르고 강요하면 무조건 반발이 일어날겁니다. 본인의 업무 자부심에 상처를 입히면 업무 프로세스의 개혁은 불가능합니다. 따라서 분석 결과를 활용하기 위한 중요한 과제는 하향식으로 메시지를 발신하면서 현장을 활용하는 커뮤니케이션 접근법입니다. 데이터 분석팀은 프로젝트의 최종 단계뿐만 아니라 중간 단계에서도 수시로 현장과 대화를 해야 합니다. 분석을 통해 밝혀낸 상관관계를 뒷받침하기 위해서 업무를 잘 알고 있는 현장의 의견을 청취해야 합니다. 정확도 높은 예측 모델을 만들기 위해 컴퓨터에 입력할 대량의 데이터를 현장에 의뢰하기도 해야합니다. 이런 번거로운 작업을 부탁하려면 중간 관리직의 리더십과 응원이 필요합니다.

    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기
    • 트위터 공유하기