데이터 사이언티스트에게 필요한 필수 덕목 2가지
데이터를 분석하고 가공해서 연구하는 직업인 데이터 사이언티스트에 대해 얘기해보겠습니다. 통계학이나 수학에 뛰어난 인재가 데이터 분석 영역에서 일을 할 기회가 많습니다. 대학이나 대학원 등에서 전문 교육을 받은 인재는 수가 많지 않습니다. 그렇기 때문에 제시하는 연봉도 많은 상황입니다. 일부 기업에서는 이과계열 대학을 뛰어난 성적으로 졸업한 직원을 외국 대학원에 유학을 보내기도 합니다. 회사에서 활약할 잠재력을 보이는 사람을 육성하려는 노력이기도 합니다. 수학자나 단순 분석가를 키울 목적이면 이 방식도 그리 큰 문제가 없습니다. 경영상의 문제 해결을 목적으로 하는 데이터 사이언티스트는 경영 간부와 커뮤니케이션뿐만 아니라 현장에서 일하는 직원들과의 커뮤니케이션을 얼마나 잘할 수 있냐에 따라 실행력과 영향도에서 크게 차이가 납니다. 특히 현장과의 대화는 생각보다 녹록지 않을 일입니다. 데이터에 근거한 치밀한 논리가 장애물에 부딪혀도 포기하지 않고 문제 해결을 위해 노력하는 강한 멘털이 필요합니다. 데이터 사이언티스트가 통계 전문가라는 인식이 완전히 틀렸다고 할 수는 없습니다. 그러나 수학이나 통계에서밖에 전문성을 발휘하지 못하는 사람에게 데이터 분석 전체의 책임을 전가하는 것은 굉장한 위험이 따르게 됩니다. 운용이라는 마지막 단계를 극복하는 것이 가장 중요하고 어려운 일이기 때문입니다. 프로젝트를 진행하는 과정에서 수학이나 통계에 관한 전문성만 가지고 할 수 있는 것은 행렬 밀도나 분포를 예측 모델이나 기계 학습의 분류기를 유의미하게 구축하는 공정 정도밖에 없습니다. 데이터 분석 전체에서 이 작업이 차지하는 시간과 노력의 비율은 많아야 10퍼센트 정도밖에 되질 않습니다. 그 외는 대부분 경영진이나 현장 직원들과 가까이에서 커뮤니케이션하는 작업이 대부분입니다. 경영이나 정책을 진행할 때 어느 지점을 공략해야 개혁적인 영향을 줄 수 있느냐는 가설을 세우고 과제의 우선순위를 정하고 데이터를 분석하는 작업은 현장과 함께해야 가능한 작업들입니다. 데이터의 비정규화나 구조화 데이터로 변환하는 작업에도 상당한 시간이 들어갑니다. 로그 변환 등의 분포를 보정하거나 관측값과 예측값이 차이를 분석함으로 분포가 전제를 충족하는지 확인하는 등의 긴 통계 전처리 과정도 상당한 공수와 현장의 확인 절차가 필요합니다. 평균적으로는 이런 일들이 전체의 8-90퍼센트를 차지한다고 말해도 모자람이 없습니다. 단 한 번의 분석으로 작업이 끝나지도 않습니다. 단계를 나눠서 분석 대상을 바꾸기도 하고 결과가 맘에 들지 않으면 수 없이 많은 시행착오를 거듭하기도 합니다. 데이터 사이언티스트가 하는 일에는 분석 전의 데이터 전처리 같은 지루한 일도 있고 예측 모델의 생성과 운용 설계를 위한 현장의 의견을 듣거나 프레젠테이션을 하는 등 사람을 상대해야 하는 실무가 상당히 많습니다. 단순히 계산만 잘하면 된다고 착각하고 이런 현장의 현실 앞에서 포기하는 통계학이나 수학 전공자들이 꽤나 많습니다. 어떤 모델을 직원들에게 제시하며 굉장히 오만하게 말하는 사람들도 있습니다. 실무에서 일하는 직원들에게 통계학은 대부분 인연이 없는 경우가 많습니다. 다른 직종의 직원들과 얘기할 때는 전문 용어를 그대로 사용해서는 안됩니다. 알기 쉽게 단어를 풀어서 말하고 복잡한 이론은 다른 표현으로 바꾸거나 차트를 활용해서 이해가 편하게 해야 합니다. 데이터 분석은 도구일 뿐이지 그 자체가 목적이 되어서는 안 됩니다. 비즈니스에 활용하는 데이터 사이언스는 전문가가 아닌 사람과 의사소통을 할 수 있는 대화 능력과 행동의 자율성이 필수로 요구됩니다. 데이터 사이언티스트는 데이터 분석가와 엔지니어의 중간 어느 지점에 서있는 사람이라고 할 수 있습니다. 데이터가 흐르는 파이프라인을 만들어야 합니다. 데이터를 통해서 모델을 만들고 원하는 값을 적절히 생성해서 흐름을 만들어야 합니다. 회사 내에서 데이터의 결괏값이 현장에서 일하는 직원들에게 잘 이식돼서 적용될 수 있도록 하는 흐름 역시 잘 이행해야 합니다. 데이터 단순 값 자체는 아무것도 하지 않을 때는 그저 숫자일 뿐입니다. 데이터가 직장 내 행동이나 결과를 바꾸는 긍정적인 작용을 할 때 비로소 데이터가 그 가치를 가지게 되는 것입니다. 데이터 사이언티스트를 꿈꾸는 사람들은 이 점을 잊지 않아야 할 것입니다.