데이터 분석가의 숫자유감

2024. 1. 8. 21:13주빵쓰의 데이터 이야기

반응형

데이터를 직장 생활에 적용하고 활용하는 사례를 만화와 글로 잘 설명한 책이었다.

책을 읽으면서 가장 인상깊은 내용 한 쪽을 가져왔다.


숫자의 차이는 절대적인 것 처럼 보이는데, 이를 왜 여러 면으로 고민해야할까?

숫자는 한 번도 절대적인 적이 없다. '사과 1개'라는 명확하다고 생각하는 숫자의 절대성도 사실은 절대적이지 않다. 작은 사과 1개든, 썩은 사과 1개든, 한 덩어리여서 '한 개'라고 센다. 사과를 봉지에 넣었다면 봉지 안에 몇 개의 사과가 있는지 신경 쓰지 않고 '사과 한 봉지' 라고 한다. 이런 간단한 숫자에도 이미 전제가 적용된다.

특정 시간에 남겨진 기록인 데이터는 더욱 고려할 사항이 많다. 데이터에는 기록 전에 형태를 잡는 과정부터 특정 정의와 합의를 포함한 많은 전제가 들어가 있다. 그렇게 쌓은 초기 데이터는 많은 가정과 합의에 의해 가지치기되고, 단순화되어 요약되고 정리된다. 대게는 이런 과정을 거쳐 나온 단순한 숫자를 사용한다. 이 숫자를 제대로 사용하려면 당연히 그 아래 켜켜이 쌓아둔 많은 가정과 합의를 탐색하고 이해해야한다. 가지치기 된 내용을 풀어내는 데 여러 추론 방법과 가정을 사용해야 할 수도 있고, 이 과정에서 내용이 다소 유실되거나 의도와는 다른 상황이 들어갈 수 있음도 이해해야한다.

숫자는 눈에 보이고 뺄셈은 단순하다. 하지만 다양한 상황에서 발생하는 다양한 숫자를 비교해야한다. 숫자를 비교하려면 정의, 실험, 실제 수치, 상황 등 고려해야하는 전제가 생각보다 많다. 무조건 숫자가 크고, 그래프가 잘 나오는 값을 고를 수는 없다.

반응형