모델링하기
모델링이란 가설을 바탕으로 검증과 모델을 구축하고 머신 러닝의 기초를 형성해서 이론과 운용을 연결하는 것입니다. 매출이 호조인 지역의 경우 1회당 발주량이 다른 지역의 평균을 2배 정도 웃돌았습니다. 이 결과를 들은 프로젝트 멤버들은 과제 해결에 중요한 열쇠를 얻은 듯했습니다. 데이터 분석 결과는 모델링을 통해 근사화되어 있기 때문에 고객의 시점에서도 확인해 보지 않고서는 구체적으로 어떤 방책을 세울 수 있을지 판단하기 어렵습니다. 데이터 분석만으로는 가설을 만들 수 없습니다. 데이터 분석 경험을 쌓으면 언뜻 아무런 연관도 없는 것 같은 데이터들의 상관관계나 인과관계가 보이게 됩니다. 가설이 생기고 결국은 예측 모델로 확립될 수 있습니다. 데이터에서 발견한 현상 자체에는 방법으로 연결시킬 만한 설득력이 없습니다. 분포 데이터에 유의미하게 영향을 주는 것은 매우 복잡합니다. 집약된 통계 값이 명백한 경향성이 있을 때는 새로운 시책으로 연결되지 않을 때가 대부분입니다. 금융 상품을 다루는 기업의 예를 들겠습니다. 기업에서는 금융 상품의 해약률 억제를 경영 과제로 삼고 있습니다. 고객이 상품 해약에 관한 데이터를 분석한 결과 특정 연령대의 특정 시기에 집중적으로 발생하는 것을 발견했습니다. 이런 상황에서는 데이터 분석팀이 현장에 가서 담당자의 이야기를 들어봐야 합니다. 현장에는 경험이 뒷받침된 정확도 높은 감이 있기 때문입니다. 분석 담당자가 영업 담당자를 찾아가서 해약 정보에서 얻은 상관관계를 설명하고 질문해야 합니다. 그러니깐 대기업에서 일하는 비교적 똑똑해 보이는 젊은 사람의 경우 계약을 실행한 후에 특정한 시기를 경계로 해약하는 사람이 많다는 느낌을 받았다고 했습니다. 이를 바탕으로 거래 데이터 중에서 계약 실행일로부터 24개월이 경과한 20대 전반의 계약자를 분석했습니다. 영향력이 큰 해약 경향을 발견해서 정확도 높은 해약 이탈 모델을 구축했습니다. 데이터에서 도출된 상관관계와 현장에서 축적된 경험을 합쳐서 더욱 정확도 높은 가설을 만들어갈 때 데이터 분석의 진짜 가치를 찾을 수 있습니다. 현장 담당자의 식견을 통해 바로 모델링을 재구축하는 것입니다. 데이터 분석이라고 하면 사무실에 앉아 컴퓨터로 데이터를 만지는 일이라고 생각하는 사람도 있습니다. 그런 작업은 일부에 불과합니다. 실제로는 현장과 꾸준히 커뮤니케이션을 해야 합니다. 현장 담당자에게 듣고 싶은 얘기만 듣고 돌아온다면 질문자와 답변자 그 이상의 관계로 갈 수가 없습니다. 그런 관계밖에 구축되지 않으면 물어보지 않은 것은 말해주지 않는 상황도 자주 발생하게 됩니다. 현장의 귀중한 식견을 들을 수 없는 것입니다. 이 단계에서 가장 중요한 일은 프로젝트의 도착점과 목표, 그리고 프로젝트가 어떤 이점을 가져다주는지 알기 쉽게 설명하고 이해를 구해야 하는 것입니다. 데이터 분석팀이 하려는 일이 회사 전체에 이익이 되고 현장에도 이익이 되는 일임을 이해시켜야 합니다. 그래야만 자발적인 협력을 이끌어낼 수가 있습니다. 이런 프로세스에 얼마나 시간을 투자하느냐에 따라서 데이터 사이언티스트와 단순한 애널리스트의 차이를 만들어냅니다. 분석 결과를 현장에 반영해 기업의 전체 최적화를 이루어내는 것이 데이터 사이언티스트의 업무라고 할 수 있습니다. 해결의 실마리는 항상 현장에 있습니다. 데이터 과학자는 전체상에서 이끌어낸 가설과 모델을 구축하기 전의 가공되지 않은 데이터나 자료 분석의 결과를 오가야 합니다. 그러면서 가설이나 예측 모델의 정확도를 높여 나가야 합니다. 데이터 과학자라고 하는 사람 중에 이런 커뮤니케이션을 하지 않고 사무실에만 틀어박혀 일하는 사람도 있습니다. 이러면 원래 데이터 과학자에게 요구되는 과제 해결의 반도 못하는 경우가 허다합니다. 매일 마주하는 것은 데이터가 아니라고 할 수 있습니다. 정작 중요한 것은 데이터 뒤에 있는 사람들의 행동입니다. 해결 결과를 인간의 행위에 가까운 행동 가능한 형태로 구체화해야 합니다. 어떤 서비스의 성공률과 고객 정보의 상관관계를 해석한 결과 유의미한 들쭉함이 발견되었다고 해봅시다. 들쭉날쭉한 분포의 상한 부분에는 매출을 최대로 하는 경향이 숨겨져 있습니다. 그 경향과 관련이 있는 비즈니스상의 전술이나 인과관계를 분석해서 중점 고객의 목록을 작성했습니다. 데이터라는 것은 어떤 순간의 단면을 정확히 파악했을 때 매우 편리합니다. 그러나 보이지 않은 단면도 있습니다. 가장 중요한 것은 시간 축인데 편차에도 두 계통이 있습니다. 단시간에 발생한 급격한 반응과 장기간에 걸쳐 조금씩 축적된 반응이 있습니다. 후자를 많은 기업에서는 긴급성이 낮다고 간과하는 경향이 있습니다. 인터넷에 올라온 사용자의 목소리를 장기간 방치하다가 기업의 신뢰를 실추시키는 문제로 발전한 사례도 많습니다. 대부분의 회사는 사용자의 목소리가 부족해 보일 때 그냥 무시하는 경향이 있습니다. 우리나라의 거의 모든 대기업에서 그런 경우가 많습니다. 급격히 약진하고 있는 신흥국의 기업에 비해서 고객의 불만을 받아 주는 역할을 하는 고객 지원 부서의 기능과 역할을 경시해 왔기 때문입니다. 한편 최근 부상하고 있는 기업은 제품 판매 후 고객의 만족도나 판매 추이를 주의 깊게 살피고 소셜 미디어에서 인플루언서로 활동하기도 하고 철저하게 조사합니다. 데이터로 어떤 단편을 파악했다고 해도 전체를 파악했다고 말할 수 없습니다. 통계의 힘을 이용해서 개념화된 모델로 전체적인 경향을 알았다고 해서 그것을 비즈니스의 개별적 사건을 예측할 수는 없습니다. 창조성을 유지하려면 눈앞의 사건과 현상을 철저히 파고들어야 합니다. 간단한 문제는 없습니다. 간단한 것을 당연하게 받아들이면 창조성을 잃게 됩니다. 데이터 분석을 통해 해결해야 하는 경영 과제의 실마리가 익숙한 현장에 있을 경우가 많습니다. 데이터 분석자는 올바른 분석과 가설 세우기의 힌트를 얻기 위해서 현장과 커뮤니케이션을 하고 탐색적 자료 분석으로 데이터를 냉정하게 봐야 합니다.