불확실한 데이터를 바라보는 관점

2014. 4. 29. 08:17미분류

세상은 현재 스몰데이터와 빅데이터 시대의 경계 즈음에 있는 것 같습니다. 두 세계에서는 각각 데이터를 어떻게 이해하면 좋을지 예시를 통해 알아보겠습니다.

도서관의 카테고리 <-> 플리커의 태그


도서관에서는 책의 종류를 정해진 틀에 맞춰서 분류합니다. 불편하지만 스몰 세계에서는 별 문제없이 사용할 수 있을 것 같습니다. 하지만 60억 개의 사진을 가지고 있는 플리커에서 미리 정해진 틀에 맞추어서 분류할 수 있을까요? ('히틀러 닮은 고양이'라는 사진은 인물 카테고리인지 동물 카테고리인지 애매모호 합니다.) 그래서 플리커에서는 태그를 사용합니다. 태그는 사람들이 즉흥적으로 입력해서 붙입니다. 표준화된 카테고리나 분류 체계가 없습니다. 태그 덕분에 웹상에 있는 엄청나게 많은 콘텐츠를 쉽게 검색할 수 있습니다. 특히 이미지, 영상, 음악 같은 자료도 검색이 가능하고 태그를 조합해서 필터링 할 수도 있습니다.


페이스북의 좋아요 표시 / Gmail의 시간 표시


페이스북에서는 좋아요 수가 적을 때는 '63' 같이 정확한 수치를 표현해 주지만 좋아요 수가 많아지면 '4K'와 같이 대략적인 수치만 보여줍니다. Gmail에서도 바로 몇 분전에 받은 이메일은 '11분 전'과 같이 정확한 시간을 알려주지만 몇 시간전에 받은 이메일은 '2시간 전'처럼 대략적인 시간을 알려줍니다.

시스템이 정확한 수치를 몰라서 대략적으로 표시하는 것은 아닙니다. 수가 많을 때는 정확성이 중요하지 않기 때문입니다. 오래된 것은 근사치로 보여주는 것만으로 충분합니다.


2+2=4일까?

빅데이터의 세계에서는 이렇게 이야기 합니다.

"2+2=3.9 여도 괜찮다. 그 정도로도 충분하다."


불확실한 데이터, 오류가 있는 데이터가 섞여 있더라도 전체 데이터의 입장에서 보면 아주 작은 부분이기 때문에 그것을 용인할 수 있습니다. 그 이유는 전체 데이터를 처리함으로써 얻을 수 있는 이점이 
작은 오류들이 일으킬 수 있는 문제들을 상쇄하고도 남기 때문일 것입니다.