데이터는 많을수록 좋은가?

    어떤 기업은 매출 성장률이 매년 둔화되고 있는 상황을 타개하기 위해 팀에 협력을 요청했습니다. 취급하는 주요 상품이 100가지가 넘기 때문에 유의성 검정을 해서 어떤 상품을 중점적으로 홍보할지 결정하고 데이터를 분석해서 매출 예측 모델을 만들고 싶어 했습니다. 100개 상품을 전부 검정하려면 시간과 비용이 많이 들어가서 모든 상품에 대해 유의성 검정을 해야 할 필요가 있는지 체크해봤습니다. 의뢰 내용을 효율화할 수 있으면 꼭 생각해봐야 합니다. 합리적인 판단 기준을 얻기 위해서 고객사에게 모든 상품의 매출과 구성비를 보여 달라고 했습니다. 100개가 넘는 상품 중에 상위 5퍼센트도 되지 않는 상품이 전체 매출의 약 80퍼센트를 차지하고 있었습니다. 상위 5퍼센트의 상품에 분석 예산을 들이고 나머지 비용은 운용 최적화에 사용했습니다. 이로 인해 실제 업무를 고려한 정확도 높은 매출 예측 모델을 제안할 수 있습니다. 분석 작업에 모든 비용을 들이면 후에 문제가 일어났을 때 대처할 수 없게 됩니다. 분석 결과를 현장에 반영하는 데도 비용과 시간이 들어갑니다. 성장할 가능성이 낮은 상품군에 예산을 낭비하지 않고 효과를 기대할 수 있는 상품을 계획적으로 지원하는 것이 중요합니다. 아마존의 추천 시스템 등 소비자로부터 확실한 피드백을 얻을 수 있는 협업 필터링의 경우엔 데이터가 많은 편이 높은 정확도를 얻을 수 있습니다. 모든 데이터 분석이 다 그런 것은 아닙니다. 정적인 예측 모델을 구축하거나 방대한 양의 데이터를 분석하려면 데이터의 사전 처리에만도 많은 시간과 비용이 들어가게 마련입니다. 사전에 설정한 도착점과 데이터를 검증해 분석 프로세스가 정말 필요한 것인지 판단해야 합니다. 데이터를 탐색하는 과정에서 분석가의 내면을 자극하는 흥미로운 발견을 할 때도 있습니다. 그럼에도 기업에 투자액을 넘는 이익을 주지 못하면 비즈니스적으로는 손실로 치부될 뿐입니다. 매출 1000억 규모의 기업이 5억을 투자해서 10억의 이익밖에 얻지 못하면 투자에 대한 효과가 매우 작다고 말할 수 있습니다. 오더 오브 매그니튜드의 관점에서 효과적인 투자가 아닙니다. 데이터 분석의 지향점은 투자를 최대화하기 위한 방법을 높은 정확도로 찾는 데 있다고 합니다. 우선순위가 제일 높고 똑같은 금액을 투자했을 때 효과를 내기가 가장 좋은 장소를 노리는 것입니다. 방향성이 정해지지 않은 분석을 한다면 분석 자체는 옳더라도 별다른 효과를 얻지 못해서 별 도움이 안 된다는 결론에 빠질 수 있습니다. 매출 점유율이 2퍼센트도 채 되지 않는 고객층에 분석 프로젝트 예산의 90퍼센트 정도를 투입해 유의성 검정을 실시한 회사가 있었습니다. 귀중한 예산과 시간을 들여서 결과는 무의미하고 통계 자체의 회의론이 일수밖에 없습니다. 우선순위에 따라 타깃으로 삼기 좋고 쉽게 효과를 얻을 수 있는 목표부터 시작해서 큰 목표에 안착시키면서 앞으로 나가는 것이 중요합니다. 단계를 밟아 나가다 보면 공감하는 사람이나 협력하고자 하는 사람도 자연히 늘어납니다. 이로 인해 이후의 데이터 분석 프로젝트에도 좋은 영향을 끼치게 될 것입니다. 프로젝트의 계속성이란 계속 진행될 때 비로소 커다란 이익을 가져오지만 협력해 주는 사람이 필요합니다. 협력자를 얻기 위해 그 시점에 가장 효과가 기대되는 영역을 타깃으로 삼는 것이 필요합니다. 데이터는 목적과 의도에 따라서 중요도를 파악해야 합니다. 쓸데없는 데이터를 분석을 함으로써 회사가 입을 손실도 고려해야 합니다. 회사 입장에서는 시간과 비용이 이중으로 아무런 소득 없이 지출될 것이 자명하기 때문입니다. 오더 오브 매그니튜드가 중요한 것이 데이터의 중요도를 산출할 좋은 도구가 돼주기 때문입니다. 어떤 팀에서든지 데이터가 각자 가진 중요도를 올바르게 파악하고 제대로 된 주문을 하는 것 역시 성공적인 프로젝트가 되기 위한 큰 조건입니다. 데이터가 무조건 많다고 좋아할 필요는 없습니다. 실제 결과에 반영되어도 회사 운영에 큰 영향을 주지 않는 데이터를 열심히 분석해봐야 회사가 발전되길 기대하는 것은 무리입니다. 데이터를 선별할 때 어떤 데이터가 실제로 회사 매출이나 실적에 영향을 줄 수 있을지 꼭 파악해야 하는 이유가 이것입니다. 전체 매출액에서 크게 비중을 차지하지 않는 상품은 과감하게 제외하는 것이 중요합니다. 그리고 매출액에서 크게 자리하고 있는 상품에 대한 데이터를 더욱 정교하게 분석하고 적용하는 것이 필요합니다. 이로 인해 데이터를 현장에서 받아들일 때 효과가 더 빠르게 나타날 수도 있는 겁니다. 의미 없는 데이터를 가지고 변화를 바라면 현장에서는 노력을 해도 변화 없는 모습이 나타날 확률이 큽니다. 그렇게 되면 데이터 분석에 대한 불신이나 회의감이 조금씩 자라나게 될 것입니다. 결론적으로 데이터 분석팀의 존재 자체가 위태로워질 수도 있는 상황이 발생할 가능성이 높은 것입니다. 그렇기 때문에 데이터는 많을수록 좋다고 말할 수는 없는 것입니다. 꼭 필요한 데이터로 제대로 가공해서 분석하고 올바른 상황에 맞게 제시되어야 데이터의 가치도 상승하고 회사가 올바른 방향으로 갈 수 있게 해주는 역할을 할 것입니다. 이를 절대 잊지 말고 적은 데이터라도 충분히 가치가 있을 수 있음을 기억하십시오. 앞으로 더 많은 회사에서 이 점을 기억하고 데이터 분석 프로젝트에 임했으면 하는 마음입니다. 그로 인해 매출 성장률이 더 성장하고 데이터 사이언티스트들도 더 많아져서 기업은 물론 국가의 경쟁력도 제고할 수 있었으면 좋겠습니다.

    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기
    • 트위터 공유하기