빅데이터 관점에서 보는 통계와 샘플링

2014. 4. 28. 08:03미분류


통계와 샘플링

미국 헌법에는 10년에 한번씩 반드시 인구조사를 하도록 되어있다고 하는데요. 1880년에는 미국의 전체 인구를 조사하는데 8년이라는 시간이 걸렸습니다. 그리고 1890년에 인구조사를 하려고 보니 13년의 시간이 걸릴 것으로 예상이 되었습니다. 이대로 진행을 하면 헌법을 위반하게 되는 아이러니한 상황이 된 것입니다.

그래서 전체의 데이터를 모두 사용하는 것이 아니라 전체를 대표할 수 있는 일부를 사용하게 되는데요. 이것이 샘플링입니다. 단 샘플링을 활용했을 때 큰 오류가 발생할 수 있기 때문에 통계학자들은 정확성을 높이기 위해 노력하였습니다. 샘플링의 정확성을 극적으로 향상시키는 방법으로 무작위 샘플링을 하기 시작합니다. 무작위로 추출한 1,000 여명의 사람에게 '예 / 아니오' 식 질문을 할 경우 그 결과가 놀랄 만큼 전체 인구를 대표한다는 것을 알아냈습니다.(20번 중 19번은 오차 범위가 3퍼센트 이내)

샘플링은 매우 높은 효율을 가지고 오기 때문에 기업에서도 많이 활용됩니다. 어떤 제품의 품질을 검사할 때 모든 제품을 검사하지 않고 컨베이어 벨트에서 나오는 묶음당 몇개의 샘플 검사만 해도 충분했던 겁니다.

하지만 무작위 샘플링도 약점이 있습니다. 샘플 데이터를 수집할 때 무작위성을 얼마나 확보할 수 있는지가 중요한데 무작위성을 얻는 것이 쉬운 일이 아닙니다. 또 무작위 샘플을 가지고 나온 결과를 쪼개서 하위 그룹의 결과를 보면 예측이 잘못될 가능성이 높아집니다.

예를 들어 샘플 전체가 1,000개인 상황에서 '특정 지역에 사는 몇 세 이상의 부유한 사람'의 결과를 알고 싶다고 할 때, 100개도 안되는 데이터로부터 결과를 추출해야 할 겁니다. 이렇게 되면 왜곡된 결과가 나올수도 있는 것이죠.

또한 샘플링에는 주의 깊은 계획과 실행이 필요합니다. 샘플은 전체의 데이터가 아닌 일부 데이터이기 때문에 처음 계획한 목적이 아닌 다른 목적의 분석이 필요할 때는 새로운 샘플 데이터가 필요할 것입니다. 이렇듯 샘플링은 결과를 알기 위한 지름길이긴 하지만 지름길이기 때문에 발생하는 한계가 분명 있습니다.

샘플링 기법은 기술적 제약이 있던 시대에 특정 문제를 해결하려고 개발된 것입니다. 빅데이터에 대한 처리가 가능한 지금은 예전 만큼의 제약이 많이 없습니다. 더 이상 샘플링이 큰 데이터를 분석하는데 있어 주된 방법일 필요는 없게 되었습니다.