원인보다 결과가 중요한 빅데이터 세상

2014. 4. 30. 00:54미분류

인과성과 상관성이라는 말이 있습니다. 인과성은 'B라는 결과가 나온 원인은 바로 A이다.' 그렇기 때문에 B의 원인인 A가 무엇인지가 중요하다는 것이구요. 상관성은 'A와 B가 관계가 있다. A가 나오면 B가 나올 확률이 높다.' 라는 식의 원인은 모르지만 상관이 있다는 그 사실에 주목하는 것입니다.


뭐라 케싼노?

아무튼 인과성과 상관성은 저렇고 저렇답니다. 여기서 질문. 우리가 사고하는 습관은 인과성과 상관성 중에 어느쪽에 가까울까요?


'..........'


답은 우리의 사고하는 습관은 인과성에 더 치우쳐져 있습니다. 인간은 일상생활에서 모든 결과에 원인이 있다고 믿고 싶어합니다. 진짜 그런지 확인해보기 위해서 다음 문장을 한번 보겠습니다.


  • 프레드의 부모님이 늦게 도착했다.

  • 출장 뷔페는 곧 도착할 예정이다.

  • 프레드는 화가 났다.


위 문장을 보면 바로 이런 생각이 듭니다.(포스팅의 흐름상 이런 생각이 들어야 됩니다.)

'프레드가 왜 화가 났을까?'

출장 뷔페가 곧 도착한다는데 화가 날 이유는 없으니 부모님이 늦게 도착해서 화가 났구나!!! 라고 그 원인을 분석하게 됩니다. 하지만 진짜 그 이유 때문에 프레드가 화가 났을까요? 사실은 위 3문장을 가지고는 진짜 사실을 알 수는 없습니다. 다른 이유로 프레드가 화가 났을수도 있기 때문이죠.


'프레드가 화난 이유는 프레드 본인만 알 것이야...'

숭구리당당 숭당당


렇게 우리의 사고방식은 어떤 일에 대해서 인과적인 연결성을 항상 보려고 합니다. 그리고 우리가 생각한 것이 진짜인지 아닌지 확인해보기 위해서 이론을 만들고 분석을 합니다. 이렇게 만들어진 이론이 맞는지 증명하기 위해 가설을 세우고 그것을 실험해 보기도 하죠. 지금까지는 이렇게 해왔습니다. 하지만 이러한 방식은 데이터와 연산능력이 부족했을 때의 방식입니다. 시간과 비용을 많이 발생시키기도 합니다.

지금은 빅데이터 시대가 왔고 데이터와 연산능력이 풍부한 상태입니다. 가설을 세우고 샘플을 추출해서 확인하고 이론을 만들려는 노력을 하지 않아도 됩니다. 빅데이터 시대에서는 데이터를 바로 확인할 뿐입니다.


비바 사례를 봅시다아... (졸음이 슬슬 옵니다...)

아비바에서는 보험 가입자를 받을 때 이 사람이 질병에 걸릴 위험이 높은지 안 높은지를 확인하기 위해서 소변, 혈액 샘플 등을 받았습니다. 이 방법은 1인당 $125 라는 꽤 높은 비용이 들었기 때문에 회사에서는 더 싼 방법을 찾아서 고민하기 시작했습니다. 대안으로 나온 방법이 사람들의 라이프스타일을 파악해서 이 사람의 질병 위험도를 확인해 보는 것이었습니다. 라이프스타일이라고 하면 이 사람이 방문하는 웹사이트, 취미, 소득, TV시청시간 등등을 말합니다. 이 데이터들은 얼핏 보기에는 질병 위험도와는 전혀 상관이 없어 보입니다. 그런데 결과는 라이프스타일과 질병 위험도가 상관이 있는것으로 나왔습니다. 데이터가 그 사실을 증명하고 있었던 것입니다. 데이터를 이용한 접근법은 1인당 $5 밖에 들지 않습니다.

사실은 좀 무서운 결과이기도 합니다. 어떤 사람이 있는데 이 사람은 구글을 자주 방문하고 축구를 좋아하고 소득은 평범하다... 그런데 이러한 사람들은 고혈압에 걸릴 확률이 높다. 이런식으로 상관관계를 파악할 수 있다는 것입니다. 저만 무섭나요? (헐랭)


마존 사례를 마저 보겠습니다아... (졸려서 헤드뱅잉 시작합니다...)

 초기 아마존에는 책에 대해 리뷰를 쓰고 도서를 추천하는 도서 비평가와 편집자가 10여 명 일하고 있었습니다. 이 사람들이 추천해 준 책을 미국인들이 많이 구매를 했습니다. 그러다가 아마존의 CEO가 아이디어를 냅니다. 이제는 개인별로 맞춤형 추천을 해 주자..!

린던이라는 개발자는 개인별 맞춤형 추천을 위해 상품들 사이에 존재하는 연관성만 찾기로 했습니다. 특허 출원이 됐다는 이 기술이 '아이템 간 협업 필터링(item-to-item collaborative filtering)' 입니다.

사람들이 도서 비평가가 추천해 주는 책을 많이 살 지, 알고리즘이 추천해 주는 책을 많이 살 지, 아마존에서는 비교해 보기로 했습니다.  그 결과는 알고리즘의 압도적인 승리였습니다. 사람들은 A라는 책을 산 후 전혀 관련이 없어 보이는 B라는 책을 샀는데, 알고리즘은 그 이유에 대해서는 모릅니다. 하지만 굳이 알 필요도 없습니다. 결국 도서 비평가와 편집자들은 회사에서 짤렸고, 현재 아마존 매출의 1/3이 이러한 추천 시스템에서 나온다고 합니다.


론은 인과적인 연결성을 보려고 하는 우리의 기본 사고방식에서 상관성을 보는 사고방식으로 전환을 해야한다, 빅데이터 시대에는 이러한 사고의 전환을 통해 더 큰 통찰과 새로운 비지니스 기회를 얻을 수 있다. 이렇게 급하게 결론을 내리고 싶습니다.