데이터 분석 시 조심해야 할 행동

    데이터에는 사람을 무릎 꿇게 하는 힘이 있습니다. 데이터 분석 결과 이것이 정답일 확률이 99프로 이상이다라는 말을 들으면 대부분의 사람은 그 말을 거의 100프로라고 받아들입니다. 1퍼센트에 불과한 확률은 무시해도 상관없겠지라고 생각합니다. 그러나 불과 1프로라고 해도 분석 대상이 인생이나 회사의 운명을 좌우하는 것이라면 무시할 수 없을 것이라고 봅니다. 데이터 분석의 대상은 매출 같은 비즈니스와 직결된 것만이 아닙니다. 예을 들면 올림픽 선수의 도핑 판정이나 식중독 발생원인의 특정, 의약품의 심각한 부작용, 범죄 조사의 프로파일링 등 데이터를 섬세하게 다뤄야 하는 경우도 있습니다. 아무리 높은 정확도로 분석을 해도 오차는 반드시 발생합니다. 결코 100프로의 정확도를 보증할 수 없는 것입니다. 데이터의 정확도와 함께 결과를 보고하면 정확도는 뒤로 물러나고 결과만 부각되는 경우도 있습니다. 데이터 분석뿐만 아니라 어떤 영역에서든 아주 높은 정확도의 결과이니 절대 틀리지 않는다는 생각은 좋지 않습니다. 분석 결과 잘못된 판정을 내리는 것을 거짓 양성이라고 합니다. 기업이 신용 카드의 부정 사용 적발률을 높이는데 열중하면 아무런 죄 없는 고객을 의심하는 사례가 나올 수 있습니다. 카드 회사 분석 담당자가 부정 사용을 하는 고객을 놓치지 않도록 예측률의 문턱 값을 낮춰 저인망식으로 분석을 실시하면 100명의 부정 사용자 중 99명을 적발할 수 있었습니다. 그래서 실제로 운용을 시작했을 때 실제 대상 모수는 약 천만명 정도 된다고 가정해봅시다. 오차율 1퍼센트를 100명에서 천만명으로 확대하면 이 잘못 분류된 거짓 양성 고객 수는 10만 배인 10만 명에 이르게 됩니다. 매우 치명적인 문제라고 할 수 있습니다. 이렇게 저인망식으로 범위를 넓히면 아무런 상관도 없는 무고한 사람에게 피해가 갈 것은 직감적으로 예상할 수 있습니다. 저인망으로 다랑어를 잡을 때 문어나 도미, 쓰레기까지 잡히는 것과 마찬가지입니다. 매년 값비싼 연회비를 내는 우수 고객이 이런 의심을 받았다면 그 고객은 어떻게 할까요. 이런 문제점을 느끼는 데이터 사이언티스트는 데이터의 사전처리와 분석 수법 선정, 유의성 검정 등 화려하지 않은 작업의 중요성을 잘 알아야 합니다. 그러나 경험이 없는 분석자 중에는 분석 대상에 관심을 보이기보다 최신 분석 수법이나 도구에 정신이 팔려 이런 과정을 생략하고 숫자와 싸움하는 데만 열중하는 사람도 많습니다. 이런 편견을 가진 분석자와 함께 프로젝트를 진행하면 굉장히 위험합니다. 데이터 분석은 그 성질상 꽤나 많은 오류를 동반함을 인식해야 합니다. 오차를 최소한으로 억제하고자 노력하는 분석자가 신뢰할 수 있는 데이터 분석가라고 할 수 있습니다. 예측 모델의 대표인 일반 선형 모델을 보면 알 수 있습니다. 회귀식에는 오 차 항이 있습니다. 이론값과 실측값 사이에는 오차가 있다는 말입니다.

    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기
    • 트위터 공유하기