빅데이터 한번에 이해하기

2014. 4. 27. 13:32미분류

일화를 통해 빅데이터 한번에 이해하기

일반적으로 항공권을 살 때는 일찍 사는것이 싸게 사는 방법이라고 알려져 있습니다. 저도 그렇게 믿고 태국행 항공권을 무려 두 달전에 예약을 했는데요. 그런데 꼭 그렇지만도 않은가 봅니다.

프로그래머인 '에치오니'는 시애틀에서 LA로 가는 비행기를 일찍 예약했는데 비행기를 타고 가면서 옆 사람이 자신보다 늦은 시기에 더 싼 가격으로 항공권을 구입했다는 사실을 알게 됩니다. 보통 사람 같으면 그냥 넘어갔겠지만 이 사람은 프로그래머로써 자존심이 상했습니다.

그래서 페어캐스트(Farecast)라는 항공권 가격 예측 시스템을 만들게 되는데, 앞으로 항공권 가격이 올라갈지 아니면 내려갈지에 대한 예측을 해 주는 사이트입니다. 이 사이트에서 가격 차이가 발생하는 원인이나 이유는 중요하지 않다고 결론 내렸습니다. 그저 무수히 많은 데이터를 수집하고 분석해서 다음 상황이 어떻게 될지에 대한 예측만 해 주는것입니다.


빅데이터라는 용어가 만들어진 계기

2000년대 천문학, 게놈 연구 분야에서 정보의 폭발을 경험하게 되는데요. 데이터가 너무 많은 나머지 그것을 컴퓨터로 처리하기 힘들 정도였다고 합니다. 엔지니어들이 분석 툴을 개조해야 하는 상황에서 빅데이터에 대한 이야기, 아이디어들이 나오기 시작했습니다. 이 때 출현한 것이 구글의 맵리듀스, 하둡(야후, 맵리듀스의 오픈소스 버전)입니다. 이것들을 이용하면 정렬되지 않았거나 비정형의 데이터를 다룰 수 있습니다.

빅데이터로 인해 작은 규모에서는 불가능했던 통찰이나 새로운 형태의 가치를 추출해 낼 수 있게 되었습니다. 이 과정에서 인과성에 대한 부분을 포기해야 합니다. '이유'는 모른 채 '결론'을 아는것에 만족해야 하는 것이죠.


패러다임의 변화

우리는 지금까지 소규모 정보를 가지고 인과관계를 따지면서 의사결정을 내려 왔습니다. 저도 웹기획을 할 때 몇 가지 정보를 근거로 내세우면서 '이러한 이유 때문에 이렇게 한다.' 라는 식의 기획을 많이 했는데요. 하지만 빅데이터로 인해 상황이 바뀌었습니다. 우리가 가진 데이터는 어마어마한 규모이고 빠르게 처리될 수 있으며 부정확성이 용인이 됩니다. 대신 부정확성이 커버될 만큼의, 올바른 결정을 할 수 있을만큼의 충분한 데이터가 있다는 전제가 있어야 합니다.