본문 바로가기

빅데이터8

빅데이터 관점에서 보는 통계와 샘플링 통계와 샘플링미국 헌법에는 10년에 한번씩 반드시 인구조사를 하도록 되어있다고 하는데요. 1880년에는 미국의 전체 인구를 조사하는데 8년이라는 시간이 걸렸습니다. 그리고 1890년에 인구조사를 하려고 보니 13년의 시간이 걸릴 것으로 예상이 되었습니다. 이대로 진행을 하면 헌법을 위반하게 되는 아이러니한 상황이 된 것입니다.그래서 전체의 데이터를 모두 사용하는 것이 아니라 전체를 대표할 수 있는 일부를 사용하게 되는데요. 이것이 샘플링입니다. 단 샘플링을 활용했을 때 큰 오류가 발생할 수 있기 때문에 통계학자들은 정확성을 높이기 위해 노력하였습니다. 샘플링의 정확성을 극적으로 향상시키는 방법으로 무작위 샘플링을 하기 시작합니다. 무작위로 추출한 1,000 여명의 사람에게 '예 / 아니오' 식 질문을 할.. 2014. 4. 28.
빅데이터 한번에 이해하기 일화를 통해 빅데이터 한번에 이해하기일반적으로 항공권을 살 때는 일찍 사는것이 싸게 사는 방법이라고 알려져 있습니다. 저도 그렇게 믿고 태국행 항공권을 무려 두 달전에 예약을 했는데요. 그런데 꼭 그렇지만도 않은가 봅니다.프로그래머인 '에치오니'는 시애틀에서 LA로 가는 비행기를 일찍 예약했는데 비행기를 타고 가면서 옆 사람이 자신보다 늦은 시기에 더 싼 가격으로 항공권을 구입했다는 사실을 알게 됩니다. 보통 사람 같으면 그냥 넘어갔겠지만 이 사람은 프로그래머로써 자존심이 상했습니다.그래서 페어캐스트(Farecast)라는 항공권 가격 예측 시스템을 만들게 되는데, 앞으로 항공권 가격이 올라갈지 아니면 내려갈지에 대한 예측을 해 주는 사이트입니다. 이 사이트에서 가격 차이가 발생하는 원인이나 이유는 중요하.. 2014. 4. 27.