개인정보 수집과 판매 시장의 규모는 얼마나 될까요? 미국에서만도 약 2000억 달러(240조 원)에 달합니다. 앞으로도 정보 수집과 판매 비즈니스는 계속 성장할 것으로 보입니다.
소비자 마케팅 업체에 개인정보가 어떤 식으로 팔리는지 살펴볼까요? 데이터 판매업자는 할 수 있는 모든 수단을 동원해서 고객 정보를 수집하죠. 포인트 카드, 공개돼 있는 기록, 소셜미디어 포스트를 통해서 하기도 합니다.
가장 일반적인 방법은 다양한 웹사이트에서 고객들의 검색 패턴을 추적해 정보를 수집하는 것입니다. 이 모든 추적된 고객 정보는 머신러닝 알고리즘에 입력되고, 비슷한 '고객그룹' 별 프로필이 만들어집니다. 그리고 나서 이런 디지털 고객 프로필은 ‘마케팅 대상’ 자료로 상품화가 되는데요, 일반적인 마케팅 대상 분류 기준으로는 ‘패션에 관심 있는 사람들’이나 ‘25~54세 남성그룹’과 같은 것들이 있겠죠.
마케팅 업체는 광고 타깃 설정을 위해 데이터 판매업자로부터 이런 규격화된 마케팅 대상 자료를 살 수 있습니다. 예를 들어, 나이키나 아디다스는 잠재적인 스니커즈 구매 고객들에게 다가가기 위해서 ‘패션에 관심 있는’ 사람들의 연락처 자료를 사겠죠.
하지만 문제가 있습니다. 데이터 판매업자가 이런 마케팅 대상 그룹을 분류하는 프로세스는 경쟁을 이유로 비밀에 부치고 있는데요. 안타깝게도 그 말은 마케팅 매니저가 일반적으로 이 자료를 사기 위해 미디어 예산의 상당 부분을 쓰고 있는데도 그것이 믿을 만한 자료인지 알 수 없다는 걸 의미합니다. 마크 톰슨 뉴욕타임스 CEO는 “마케팅 대상이 20~30세 여성 패셔니스타라고 했을 때, 실제로 그럴 가능성이 어느 정도인가?”라는 질문을 던지기도 했습니다.
최근 저희는 다양한 데이터 판매업자가 제공하는 인기 있는 마케팅 대상 분류의 정확도를 테스트해 봤습니다. 연령과 성별뿐만 아니라 스포츠, 여행, 운동 등 고객의 관심 분야도 살펴봤죠. 정확도를 확인하기 위해 사람들이 이런 정보를 자발적으로 공개하게 된 환경까지 점검해봤습니다. 예를 들어, 마케팅 대상별 특징들을 설문 조사에서 파악한 고객 데이터와 비교했고, 또 이 결과를 페이스북이나 금융기관에서 파악한 정보와 상호 비교하고 검증해봤습니다.
여러 번의 테스트 결과, 데이터 판매업자들이 판매하는 고객 정보의 품질은 천차만별이라는 점을 확인했습니다. 그리고 많은 경우, 이 정보는 무작위로 고객 목록을 만들었을 때 얻는 데이터의 품질과 비슷하거나 더 좋지 않았습니다.
인구통계학 데이터는 특히 실망스러웠습니다. 예를 들어, 데이터 판매업자들의 성별 분류에서 남성을 정확하게 맞출 확률은 평균 42.5%에 불과했습니다. 동전을 던져도 50%인데 말이죠. 연령 데이터는 조금 더 나았지만 크게 낫지는 않았습니다. 연령층 구분의 경우도 77%는 부정확했습니다. (이 경우 평균 정확도는 23%로 낮아 보이지만, 최소한 무작위로 메시지를 보냈을 때 연령층을 정확하게 맞출 확률보다는 높았습니다. 무작위로 했을 때 연령층을 정확하게 맞출 확률은 10~18%에 불과합니다.)