귀퉁이 서재

[Micro Software] Data Adventure 본문

책과 사유

[Micro Software] Data Adventure

Baek Kyun Shin 2019. 4. 5. 23:52

마이크로 소프트웨어 잡지의 2019년 1분기판이다. 현업에서 데이터 엔지니어, 데이터 분석가로 일하고 있는 사람들의 생생한 데이터 이야기가 담겨 있다. 이 잡지를 읽고 아래 세가지 사안에 대해 생각해보게 됐다.

  1. 데이터의 가치는 무궁무진하고, 앞으로 그 가치는 더 커질 것이다.

  2. 데이터를 바라보는 것, 정제하는 것은 땀내나는 일이다.

  3. 그럼에도 데이터를 만지는 건 재미있을 것이다.

모래사장 곳곳에 보석이 몇 개 숨어있다고 하자. 이 때 모래사장이 데이터이고, 모래사장을 샅샅이 뒤져 보석을 발견하는 일이 데이터를 정제하고 분석하는 일이다. 모래사장을 샅샅이 뒤지면 뒤질수록 보석을 많이 발견할 수 있다. 모래사장의 가치는 무궁무진할 수 밖에 없다. Numpy는 2006년에, pandas는 2008년에 release 되었다. Numpy와 pandas는 데이터 분석을 위한 대표적인 파이썬 라이브러리이다. 모래사장을 뒤지는 기술이라는 뜻이다. 둘 다 릴리즈된지 10년 조금 넘은 정도이다. 10년 동안 모래사장을 뒤지는 기술은 점점 발전했고, 앞으로도 새로운 기술도 더 나오고, 더 발전할 것이다. 고로, 데이터의 가치는 무궁무진하고, 앞으로 그 가치는 더 커질 것이다.

하지만 모래사장을 뒤지는 일이 쉬운 일은 아니다. 아니 어려운 일이다. 이곳을 파면 보석이 나올지 안 나올지 확실하지 않다. 이곳에 보석이 있다는 게 확실해도 깊이 박혀 있으면 땅을 파는 게 땀나고 고된 일이다. 땅을 파는 과정에서 모래만 있으면 괜찮은데 돌덩이도 있고, 조개껍데기도 있고, 이상한 생물체들도 있다면 (정제되지 않은 데이터, 비정형화된 데이터가 있다면)? 그리고 그런 물체들이 보석과 비슷하게 생겨 나를 헷갈리게 한다면 (직관과 분석의 결과가 다르다면, ex. 심슨의 역설)? 음. 쉽지 않은 일이다. 데이터 분석이 고상하게 컴퓨터 앞에서 코딩 좀 하고 통계 좀 해서 마법처럼 결과가 짠!하고 나타나는 일이 아닌 것이다. 고로, 데이터를 바라보는 것, 정제하는 것은 땀내나는 일일 것이다.

그런 땀내나는 일임에도 불구하고 내가 원하는 분석을 위해서는 어떤 데이터를 봐야 할지 스스로 질문하고, 이 데이터를 통해 어떤 결과를 도출할 수 있는지 고민해보고, 분석을 위해 모델링을 해보는 일은 참 재미있을 것 같다. 아직 제대로 해보지 않아 사실 잘 모르고 하는 말이지만. 어느 분야에 있든 데이터를 가지고 놀 줄 아는 능력은 큰 자산일 것 같다.

2019. 3. 23.

Comments