귀퉁이 서재

[장석권] 데이터를 철학하다 본문

책과 사유

[장석권] 데이터를 철학하다

Baek Kyun Shin 2019. 10. 5. 12:01

많은 사람들이 데이터를 신뢰하고 있다. '감'이 아니라 '숫자'로 현상을 표현하는 것이 객관성의 발로라 생각하기 때문이다. 데이터를 기반으로 경영하는 기업들이 많아지고 있다. 더 이상 고위직의 '직감'으로 기업을 경영하는 시대는 끝이 났다. 데이터가 모든 걸 말해주고, 의사결정까지 도와준다. 이렇듯 우리는 데이터를 믿는다. 하지만, 이 책은 데이터의 객관성에 대해 생각해보게 한다. 과연 데이터가 정말로 객관적일까? 데이터에 주관성이 묻어나진 않을까? 모든 걸 데이터에 맡길 만큼 데이터는 거짓말을 하지 않을까?

조작하지 않는 한, 데이터는 거짓말을 하지 않는다. 그러나 우리는 우리가 보고 싶어 하는 데이터를 통해 현상을 보려 하기에 그 선택과정에서 커다란 왜곡이 발생한다. 인간은 수억 년의 진화 과정에서 공정성, 형평성, 불편부당성과 같은 형이상학적 가치 이전에 생존에 유리하게 현상을 바라보는 기회주의적 기질을 체화했다. 어찌 보면 데이터를 올곧게 바라보는 것은 인간의 본성이 아닐지도 모른다. 그것은 인간 본성의 한계를 극복하려는 인간 의지의 문제다.

데이터를 다루는 사람, 즉 데이터 과학자, 데이터 분석가의 역할이 얼마나 중요한지 말해주고 있는 대목이다. 원하는 방향으로 가설을 검정 하려고 p-value를 작게 만들 수도 있다. 자신이 원하는 결과를 보고 싶어 분석 과정에 커다란 왜곡이 생길 수 있다. 자신이 원하는 결과를 보고 싶은 유혹을 이기고 공정성, 형평성을 지키려는 태도. 이것이 데이터의 객관성을 추구하는 데이터 분석가로서의 자세인 것이다. 판사와 같이 중립을 지켜야 한다. 물론 주관성을 개입하는 것과 도메인에 대한 지식을 활용하는 것은 다른 개념이다. 도메인에 대한 지식을 활용하는 것은 객관적인 결과를 도출하기 위한 디딤돌이지만 편견과 주관의 개입은 방해물이 된다고 생각한다. 

또한, 이책은 데이터를 어떻게 활용할 수 있을지 생각해보게 한다. 요즘 누구나 스마트폰을 들고 다닌다. 스마트폰에 내장된 GPS만 활용해도 어마어마한 데이터가 나온다. 밤새도록 한 장소에 머문다면 그곳이 내 집일 것이다. 매일 아침 8시 무슨 역에서 지하철을 타고, 무슨 역에서 내린다면 그 경로가 출근길일 가능성이 높다. 9시부터 6시까지 한 장소에 머문다면 그곳이 직장일 수 있다. 자동차로 빠르게 달리다가 어느 한 지점에 멈추어 걷는 속도로 바뀐 다면 그 지점은 주차장일 것이다. 어떤 사람이 자주 가는 곳이 백화점이나 쇼핑센터라면 여자일 가능성이 높다. 

이렇듯 디테일한 GPS만 잘 활용해도 어마어마한 데이터가 나오고, 나의 직장, 생활패턴, 성별 등을 파악할 수 있다. 나에 대한 정보를 리테일 회사에 오픈하면 나에게 적합한 상품을 추천해줄 수 있을 것이다. 이는 결국 개인정보 보호의 문제와 직결되지만 이를 차치한다면 무궁무진한 기회가 있다.

과거부터 많은 사람들이 데이터의 힘에 대해 언급하고 있다. 이제는 누구나 알고 있다. 지금도 많은 기업에서는 데이터 분석을 통해 적절한 의사결정을 하고 있다. 앞으로 더 많은 기업에서 그럴 것이고, 데이터를 활용하지 않는 기업은 도태될 거라 생각한다. 도메인에 대한 지식은 활용하되 분석가의 편견은 최대한 배제해 데이터를 객관적으로 바라보고, 올바르게 활용한다면 미래가 어떻게 바뀔지 궁금하다. 10년 후, 20년 후가 궁금하다.

Comments