'리캡차'를 통해서 본 데이터 재사용의 가치 (빅데이터의 옵션가치)

2014. 5. 2. 22:08미분류

스몰데이터 세상에서는 데이터로부터 얻을 수 있는 1차적인 가치에만 집중을 했었는데요. 빅데이터에서는 데이터의 2차, 3차 등 잠재적 가치를 봐야합니다.

데이터의 잠재적 가치를 활용한 예로써 '루이스 폰 안'의 캡차와 리캡차를 들 수 있습니다. 캡차는 스팸으로부터 자유롭기 위해 나온것이고, 리캡차는 캡차의 업그레이드 버전입니다.

먼저 캡차를 보겠습니다.

▲캡차

회원가입을 하거나 비로그인 상태에서 댓글을 달 때 위와 같은 화면을 보셨을 겁니다. 스팸방지 문자로써 사람은 읽을 수 있지만 컴퓨터는 인식하기 힘든 문자입니다. 이 문자를 이용하면 봇이 자동으로 사이트에 가입하는것을 막을 수 있습니다.

'캡차' 아이디어를 낸 '루이스 폰 안'은 하루에도 수많은 사람들이 이러한 삐뚤삐뚤한 문자를 입력하는데 시간을 낭비하고 있다는 것에 마음이 편치 않아서 이후 '리캡차'라는 발전된 형태의 아이디어를 내 놓습니다.

▲리캡차

'리캡차'는 삐뚤삐뚤한 두 단어를 입력해야 합니다. 한 단어를 입력하던 캡차에서 두 단어를 입력해야 하기 때문에 실제 이런 절차를 거쳐서 웹서비스에 가입하는 우리는 더 귀찮아졌습니다.

어쨋든 두 단어 중 한 단어는 회원가입을 하려는 대상이 사람인지 스팸봇인지 확인하는데 사용됩니다. 그리고 나머지 한 단어는 컴퓨터가 인식하지 못하는 글자를 사람들로부터 입력받음으로써 불분명한 단어를 디지털화 하는데 사용합니다. 즉, 시스템을 학습시키는데 사람들의 집단지성을 이용한 것이라고 할 수 있습니다.

ADVERT

문자 광학 인식 시스템의 경우 이미지를 스캔한 후 기계가 인식할 수 있는 텍스트로 변환하는데 그 중 일부는 컴퓨터가 제대로 인식할 수 없어 사람이 직접 보정을 해주어야 합니다. 예를 들어 위의 이미지 중에서 'Tubingen'이라는 이미지를 컴퓨터가 문자로 인식할 수 없는 것이라고 할 때 리캡차를 통해 10명 중 9명이 'Tubingen'이라고 입력한다면 컴퓨터는 해당 이미지를 'Tubingen' 이라는 텍스트로 받아들이게(학습) 되는것입니다.

구글은 보안업체인 리캡차(reCAPCHA)를 2009년에 인수하였습니다. 인수의 목적은 도서 디지털화를 하는데 이 기술을 사용하기 위해서였습니다. 구글은 리캡차를 어떤 웹사이트에서든지 공짜로 사용할 수 있게 하였고 페이스북, 트위터 등 20만 개 사이트에서 사용되고 있습니다.

리캡차는 데이터의 재사용이 얼마나 중요한지 잘 보여주고 있습니다. 리캡차는 하루 약 2억번이 실행되고 있는데, 두 단어를 입력하는데 걸리는 시간을 10초라고 가정하면 총 50만 시간이라는 어마어마한 시간이 됩니다. 구글은 자신들의 '도서관 프로젝트'에 사용자들의 시간을 사실상 무료로 사용하고 있는 것이죠. (대박)

'캡차'를 가지고 사용자로부터 입력받은 문자를 스팸방지 용도로만 활용했다면 이것은 데이터의 1차적인 가치만 봤다는 것입니다. 하지만 '루이스 폰 안', 그리고 리캡차를 인수한 구글은 문자 광학 인식 시스템의 인식률을 높이는데 데이터를 재활용 함으로써 데이터의 숨겨진 가치를 제대로 보고 사용했다고 할 수 있습니다.