2017
9-10월(합본호)

온라인 실험의 놀라운 힘
론 코하비(Ron Kohavi),스테판 톰키(Stefan Thomke)

FEATURE OPERATIONS

온라인 실험의 놀라운 힘

A/B테스트와 그 외 다른 대조실험을 최대한 활용하라

론 코하비, 스테판 톰크

 

IN BRIEF

 

문제점

많은 기업에서 웹사이트와 애플리케이션을 만들 때, 하드데이터hard data[4]가 아니라 주관적인 의견에 근거해 새로운 제품 기능부터 룩앤드필look and feel[5] , 마케팅 캠페인까지 모든 것에 대한 의사결정을 내리고 있다.

 

해결책

아이디어를 평가하려는 기업들은 온라인 대조실험을 실시해야 한다. 잠재적인 개선사항은 엄격한 테스트를 거쳐야 한다. 대규모 투자라도 성과를 내지 못할 수 있고, 작은 변화 중에서도 일부는 커다란 수익을 가져오는 한편 일부는 놀라울 만큼 유해할 수도 있기 때문이다.

 

실행방안

리더들은 어떻게 하면 A/B테스트나 다른 대조실험들을 적절하게 설계하고 실행할 수 있는지 이해해야 한다. 아울러 무결성을 확보하고, 결과를 해석하며, 함정을 피해야 한다.

 

 

910_134_1

 

2012년 검색엔진 빙Bing과 관련된 작업을 하던 마이크로소프트의 한 직원이 검색엔진에서 광고 헤드라인을 보여주는 방식을 변경하자는 아이디어를 냈다. 이 아이디어를 개발에 옮기는 데는 많은 노력이 필요하지 않았다. 엔지니어 한 사람이 며칠만 작업하면 될 정도였다. 하지만 이 아이디어는 수백 건 중 하나의 아이디어에 불과했고, 프로그램 관리자는 우선순위가 낮다고 판단했다. 6개월 넘게 이 아이디어는 진행되지 않았다. 마침내 이 아이디어를 실행하는 코드를 짜는 데 드는 비용이 적다는 사실을 알아차린 한 엔지니어가 그 효과를 평가하기 위해 단순한 온라인 대조실험인 A/B테스트[1]를 실시했다. 불과 몇 시간 만에 헤드라인의 새로운 변화는 비정상적으로 높은 매출을 발생시켰고, ‘사실이라고 보기엔 너무 좋은 상황을 의미하는 경보까지 발동시켰다. 통상적으로 그런 경보는 버그가 있음을 의미했지만 이번 경우는 그렇지 않았다. 분석 결과, 핵심적인 사용자 경험 매트릭스를 손상시키지 않고도 그 변화 덕분에 놀랍게도 매출이 12%나 성장했다. 연간 매출을 기준으로 할 때 미국 시장에서만 1억 달러를 넘는 수준이었다. 빙의 역사상 최고의 매출을 창출하는 아이디어였지만, 테스트할 때까지 그 가치는 저평가됐다.

 

겸허하게 받아들여라! 이 사례는 새로운 아이디어의 잠재력을 평가하기가 얼마나 어려운지를 알려준다. 여러 테스트를 저렴한 비용으로 병행할 수 있는 능력이 주는 혜택 또한 이 사례를 통해 알 수 있다는 점 역시 마찬가지로 중요하다. 점점 더 많은 기업들이 이 사실을 깨닫고 있다.

 

오늘날 마이크로소프트와 아마존, 부킹닷컴, 페이스북, 구글과 같은 일부 선도기업에서는 저마다 매년 1만 건이 넘는 온라인 대조실험을 시행한다. 이 중에는 수백만 명의 사용자들이 참여하는 실험도 많다. 더 작은 규모로 시행되긴 하지만, 스타트업이나 월마트, 허츠Hertz, 싱가포르항공처럼 디지털 뿌리가 없는 기업들도 이런 실험을 정기적으로 시행하고 있다. 이들은모든 것을 실험해 보는접근방식이 놀라울 정도로 큰 성과를 가져올 수 있음을 알게 됐다. 빙의 사례만 봐도 이 접근방식 덕분에 매출과 관련해 적용할 변화를 매달 수십 건씩 찾아낼 수 있었다. 그 결과 전체적으로 검색당 매출액이 매년 10%에서 25%까지 늘어날 정도로 개선됐다. 매달 수백 건에 달하는 변화와 더불어 사용자 만족도 제고를 위한 이 같은 향상enhancements, PC를 통한 검색시장 점유율(미국 기준)에서 빙이 출시된 해인 2009 8%에서 23%까지 늘어나며 수익을 내고 있는 주된 이유다.

 

모든 기업에 웹이 필수가 된 지금, 엄격한 온라인실험은 기업의 표준 운영절차가 돼야 한다. 기업에서 소프트웨어 인프라와 이를 시행할 수 있는 운영기술을 개발한다면, 웹사이트를 위한 아이디어만이 아니라 잠재적인 비즈니스 모델, 전략, 제품, 서비스, 마케팅 캠페인까지 모두를 비교적 저렴한 방법으로 평가할 수 있을 것이다. 대조실험은 의사결정과정을 직관적인 반응이 아닌 과학적이고 증거에 기반하는 과정으로 바꿔 놓을 수 있다. 이들 실험이 아니었다면 수많은 돌파구를 결코 발견할 수 없었을 것이고, 많은 나쁜 아이디어들을 실행에 옮겨 실패를 초래하고 자원을 낭비했을 것이다.

 

하지만 우리는 몇몇 주요 디지털 기업들을 포함해 수많은 기업에서 무계획적으로 실험에 접근하거나, 견고한 과학적 테스트를 시행하는 방법을 모르거나, 혹은 실험을 너무 적게 시행하고 있음을 알게 됐다.

 

필자들이 이런 실험들을 연구하고 시행하거나 다양한 산업에 있는 기업들에 조언을 제공한 기간을 모두 합하면 35년이 넘는다. 우리는 이 글에서 실험을 어떻게 설계하고 시행해야 하며, 어떻게 무결성integrity을 확보하고, 결과를 해석하고, 실험에서 우리가 직면할 도전에 대응해야 할지에 관해 그동안 얻은 교훈들을 공유하고자 한다. 이 글은 가장 단순한 유형의 대조실험인 A/B테스트에 초점을 맞추고 있지만, 우리의 발견과 제안은 더 복잡한 실험 설계에도 동일하게 적용된다.

 

910_134_4

 

A/B테스트에서 실험자는 두 가지 경험을 설정한다. ‘A’는 대조군the control으로 일반적으로 현재의 시스템이며챔피언으로 간주된다. ‘B’는 처치를 받는 실험군the treatment, , 무언가를 개선하려고 시도하는 변형이며도전자로 간주된다. 실험에서는 사용자들을 이 두 경험에 무작위로 배정하며, 핵심 매트릭스를 계산하고 비교한다.(이에 반해 단변수univariable A/B/C테스트와 A/B/C/D테스트[2] , 다변수multivariable테스트[3]에서는 하나 이상의 처치를 평가하거나 서로 다른 변수들의 변형을 동시에 평가한다.) 온라인상에서 변형은 새로운 기능일 수도 있고, 새로운 레이아웃과 같이 사용자 인터페이스에 가하는 변화일 수도 있으며, 아마존에서 책을 추천하는 알고리즘을 개선하는 일처럼 백엔드back-end쪽의 변화가 될 수도 있고, 무료배송 제안처럼 다른 비즈니스 모델일 수도 있다. 기업이 신경을 가장 많이 쓰는 운영상의 측면이라면 무엇이든, , 영업이든, 반복 사용이든repeat usage, 클릭률click-through rates이든, 혹은 한 사이트에서 사용자가 보내는 시간이든, 어떻게 이를 최적화할 수 있을지 알아내기 위해 온라인 A/B테스트를 사용할 수 있다.

 

활동적인 일일 사용자가 최소한 수천 명이라면 어떤 기업이나 이 테스트들을 시행할 수 있다. 게다가 대규모 고객 샘플을 확보할 수 있고, 웹사이트나 앱상에서 사용자의 상호작용에 관한 방대한 양의 데이터를 자동으로 수집할 수 있으며, 동시에 여러 실험을 시행할 수 있는 능력이 있다면, 그 기업은 신속하면서도 매우 정확하게, 그것도 추가 실험당 무시해도 될 만한 비용으로 많은 아이디어를 평가할 수 있는 전례 없는 기회를 확보할 수 있다. 이런 기회 덕분에 기업들은 신속하게 반복하고, 빨리 실패하며, 다른 방향으로 선회할 수 있다.

 

이런 장점을 깨달은 몇몇 앞선 기술기업에서는 전체 그룹 차원에서 많은 제품팀들이 채택할 수 있는 실험 인프라를 구축, 운영 및 개선하는 데 노력해 왔다. 어떻게 활용해야 하는지에 대해 알기만 한다면, 이러한 역량은 중요한 경쟁우위가 될 수 있다. 관리자들은 다음 사항들을 이해할 필요가 있다.

 

미세한 변화가 큰 효과를 가져올 수 있다.사람들은 일반적으로 더 많이 투자할수록 더 큰 성과를 얻을 것으로 생각한다. 하지만 온라인에서는 이런 방식이 잘 통하지 않는다. 온라인에서의 성공은 작고 수많은 변화를 올바르게 실행하는 일과 더 관련이 깊다. 비즈니스 세계에서는 크고 파괴적인 아이디어를 미화하지만, 현실에서 대부분의 진보는 수백, 혹은 수천 개의 작은 개선활동을 통해 이뤄진다.

 

역시 마이크로소프트에서 나온 다음 사례를 살펴보자.(이 글에 등장하는 대부분의 사례는 론이 실험을 이끌었던 마이크로소프트의 사례들이다. 하지만 이 사례들은 수많은 기업에서 얻어진 교훈들을 예시하고 있다.) 2008년 영국에서 근무하던 한 마이크로소프트 직원이 얼핏 보기에는 사소한 제안을 했다. 사용자들이 MSN 홈페이지에서 핫메일Hotmail링크를 클릭할 때마다 같은 탭에서 핫메일을 여는 대신, 새로운 탭(혹은 옛날 브라우저에서는 새로운 창)이 자동으로 열리도록 하자는 것이었다. 90만 명의 영국 사용자들을 대상으로 테스트를 실시했고, 그 결과는 매우 고무적이었다. 핫메일을 열었던 사용자들의 참여도를 그들이 MSN 홈페이지에서 누른 클릭 수로 측정했는데 놀랍게도 8.9%나 증가했다.(참여도와 관련한 대부분의 변화는 1% 미만의 효과를 보인다.) 하지만 그 당시에는 새로운 탭에서 링크를 여는 사이트가 거의 없었기 때문에 그 아이디어는 논란의 대상이 됐고, 결국 영국에서만 이 변화가 적용됐다.

 

이 실험은 2010 6월에 미국에서 270만 명의 사용자들을 대상으로 반복 실시됐다. 결과는 유사했고, 그로 인해 이 변경사항은 전 세계에 확대 적용됐다. 그러자 마이크로소프트는 이 아이디어가 다른 곳에서 어떤 효과를 가져올지 알아보기 위해 MSN에서 검색작업을 하는 사람들이 그 결과를 새로운 탭에서 열어보도록 하는 가능성을 탐색했다. 미국에서 1200만 명 이상을 대상으로 한 실험에서 사용자당 클릭 수는 5% 증가했다. 새로운 탭에서 링크를 여는 것은 사용자 참여도를 늘리기 위해 마이크로소프트가 이제까지 도입한 최고의 방법 중 하나였고, 그렇게 하기 위해서는 코드 몇 줄만 바꾸면 됐다. 오늘날 페이스북과 트위터를 포함해 많은 웹사이트에서 이 기술을 활용하고 있다.

 

이런 경험을 마이크로소프트에서만 겪었다고 보기는 어렵다. 예를 들어 아마존에서는 신용카드와 관련한 혜택을 홈페이지(웹사이트 첫 화면)에서 쇼핑 장바구니 페이지로 옮기는 실험을 했을 뿐인데 매년 이익이 몇 천만 달러나 늘어났다. 작은 투자가 커다란 수익을 가져올 수 있음은 분명하다. 하지만 대규모 투자는 오히려 수익을 거의 혹은 전혀 내지 못할 수도 있다. 마이크로소프트는 빙을 소셜미디어와 결합해 빙의 검색결과 페이지의 세 번째 섹션에 페이스북과 트위터의 내용이 보이도록 하는 개발작업에 2500만 달러 이상의 비용을 지출했다. 하지만 클릭 수와 매출의 증가는 무시해도 될 정도였다.

 

910_134_2

 

[1]서로 다른 두 버전을 만들어 불특정 다수의 사람들에게 보여준 뒤 그 반응에 따라 더 나은 버전을 선택하는 테스트

[2]다른 변수들은 고려하지 않고 하나의 설명 변수와 결과와의 관계를 테스트하는 분석

[3]하나의 변수에 영향을 미치는 여러 요인의 영향을 보정해 하나의 모형으로 설명하는 분석

[4]논쟁의 여지가 없는 분명한 사실이나 수치 등 수집이 용이하고 금전적 가치로 전환하기 쉬운 데이터 유형

[5]사용자 인터페이스에서 색상, 레이아웃, 글꼴, 상자, 메뉴 등 동적 요소를 수반하는 디자인 측면

 

 

실험이 투자 결정을 이끌 수도 있다.

온라인 테스트는 관리자들이 잠재적인 개선작업에 얼마만큼 투자하는 것이 최적인지 파악할 때 도움을 줄 수 있다. 마이크로소프트에서도 빙이 검색 결과를 제시하는 데 드는 시간을 줄이는 방법을 고민하면서 같은 결정에 직면했다. 물론 속도가 빠를수록 더 좋을 것이다. 하지만 개선에서 오는 가치를 어떻게 계량화할 수 있을까? 이런 성과 개선작업에 3명이 참여하면 될까, 아니면 10명에서 50명까지 참여시켜야 할까? 이 질문에 답을 구하던 마이크로소프트는 로딩 속도에서 미세한 차이가 가져오는 효과를 연구할 목적으로 인위적으로 속도를 지연시키는 일련의 A/B테스트를 시행했다. 수행 성과를 살펴보자 매 100밀리세컨드millisecond[6] 차이를 보인 데이터마다 매출에 0.6%의 영향을 미쳤다. 빙의 연간 매출이 30억 달러가 넘는 만큼 100밀리세컨드의 속도 증가는 매년 1800만 달러의 매출 증가 효과를 가져올 수 있었다. 이 정도면 충분한 규모의 팀을 꾸리기 위한 재정 지원을 하기에 충분했다.

 

아울러 이 테스트 결과들은 빙이 중요한 트레이드오프를 결정하는 데 도움이 됐다. 특히 검색 결과의 적절성은 개선하지만 소프트웨어의 응답시간을 느리게 만들 수 있는 기능들이 그랬다. 빙은 수많은 작은 기능이 누적돼 상당한 성과 저하로 이어지는 상황을 피하고자 했다. 따라서 반응시간을 몇 밀리세컨드 이상 지연시킬 수 있는 개별 기능의 출시는 그 팀에서 성과를 개선하거나 다른 구성요소의 성과가 개선될 때까지 미뤄졌다.

 

910_134_5

 

한 세기도 더 전에 백화점을 소유했던 존 워너메이커John Wanamaker는 다음과 같은 마케팅 격언을 남긴 것으로 전해진다. “내가 광고에 쓰는 돈의 반 이상은 낭비된다. 문제는 어느 쪽 반이 낭비인지 알 수 없다는 점이다.” 우리는 새로운 아이디어 관련해서도 비슷한 진실이 적용될 수 있음을 발견했다. 새로운 아이디어의 대부분이 실험에서 실패한다. 심지어 전문가들도 어떤 아이디어가 더 큰 성공을 가져올지 판단하지 못한다. 구글과 빙이 하는 실험 중에 10~ 20%만이 긍정적인 결과를 도출한다. 마이크로소프트에서는 전체적으로 봤을 때, 3분의 1은 효과가 증명됐고, 3분의 1은 중립적이었으며, 나머지 3분의 1은 부정적 결과를 낳았다. 이는 결국 기업들이 왕자를 찾기 위해 수많은 개구리에게 키스를 해야 한다는, 즉 엄청난 수의 실험을 수행해야 한다는 걸 의미한다.

 

모든 안을 실험해보는 작업에서 핵심은 변화가 질적인 저하나 기대하지 않은 효과를 가져오지 않도록 확실히 하는 일이다. 빙에서는 위험이 낮은 버그 수정이나 운영시스템 업그레이드처럼 기계 수준의 변화를 제외하고, 모든 변화 제안의 약 80%를 먼저 대조실험으로 시행해 본다.

 

과학적으로 제안된 아이디어 거의 모두를 테스트하려면 인프라, 즉 클릭 수나 마우스 호버[7] , 이벤트 시간event times[8]등을 기록하기 위한 계측장비나 데이터 파이프라인, 데이터 과학자들이 필요하다. 몇몇 외부 업체의 도구와 서비스가 실험을 용이하게 만들어줄 수도 있지만, 규모를 키우고 싶다면 그 역량을 내부 프로세스로 긴밀히 통합시켜야 한다. 그러면 개별 실험의 비용이 낮아지고 신뢰성이 증가할 것이다. 반대로 인프라가 부족하게 되면 실험의 한계비용이 높게 유지되고 선임 관리자들이 더 이상의 실험을 요구하기를 망설이게 될 수도 있다.

 

마이크로소프트는 대규모 테스팅 인프라의 좋은 사례를 제공한다. 규모가 작은 기업이나 실험에 그리 의존하지 않는 사업을 영위하는 기업이라면 당연히 훨씬 적은 인프라로도 충분하겠지만, 마이크로소프트의 분석 실험 팀에는 80명 이상이 소속돼 있으며, , 코타나Cortana[9]익스체인지Exchange, MSN, 오피스, 스카이프, 윈도, 엑스박스 등 다양한 제품과 관련한 수백 건의 온라인 대조실험 시행을 언제라도 지원할 준비가 돼있다. 각 실험에서는 수십만 명에서 심지어 수천만 명의 사용자를 새로운 기능이나 변화에 노출시킨다. 이 팀은 이런 모든 테스트를 대상으로 엄격한 통계 분석을 시행하는데 여기서 수백, 수천 건의 매트릭스를 자동으로 체크해 중요한 변화가 있을 경우 알려주는 스코어카드가 자동으로 출력된다.

 

기업의 실험인력은 다음 세 가지 방식으로 구성될 수 있다.

 

중앙집중형 모델.이 모델에서는 한 팀의 데이터 과학자들이 회사 전체를 위해 일한다. 장점은 더 나은 실험도구들을 만들고 더 진보된 통계 알고리즘을 개발하는 일과 같은 장기 프로젝트에 집중할 수 있다는 점이다. 한 가지 주요한 단점은 이 그룹을 활용하는 사업부들의 우선순위가 서로 다를 수 있기 때문에 자원과 비용의 배분을 두고 갈등이 일어날 수 있다는 점이다. 또다른 단점은 데이터 과학자들이 사업부를 대할 때 스스로를 외부인처럼 느낄 수도 있어서 그 사업부의 목표나 해당 영역의 지식에 관심을 덜 기울일 수도 있다는 점이다. 그러다 보면, 데이터 과학자들이 정보를 연결해 추론하거나 적절한 통찰을 공유하기가 더 어려워질 수 있다. 게다가, 필요한 도구를 구축하는 데 투자하거나 전사 및 사업부 관리자들이 실험 결과를 신뢰하도록 선임 경영진을 설득할 수 있는 영향력이 데이터 과학자들에게 부족할 수도 있다.

 

분산형 모델. 또 다른 접근방법은 데이터 과학자들을 서로 다른 사업부들에 분산해 배치하는 방법이다. 이 모델은 데이터 과학자들이 각 사업 영역에서 전문가가 될 수 있다는 점이 장점이다. 주된 단점은 이들 전문가들을 위한 명확한 커리어 경로가 부족하고, 그들의 발전을 도와줄 수 있는 동료 피드백이나 멘토링을 받을 수 없다는 점이다. 아울러 실험이 개별 사업부에서 이루어지다 보면 필요한 도구를 구축하는 일을 정당화할 만한 임계치에 도달하지 못할 수도 있다.

 

선도센터Center-of-excellence모델. 세 번째 옵션으로 데이터 과학자들 일부는 중앙집중형 기능에 배치하고, 다른 일부는 각 사업부에 배치하는 방법이 있다.(마이크로소프트에서 이 방식을 활용한다.) 선도센터에서는 주로 대조실험의 설계, 집행, 분석에 집중한다. 선도센터는 전사 차원의 실험 플랫폼과 관련 도구를 구축해 이런 과제에 요구되는 시간과 자원을 줄일 수 있다. 아울러 클래스나 연구모임, 콘퍼런스를 개최해 조직 전체에 최고의 실험 관행best testing practices을 전파할 수도 있다. 주된 단점은 선도센터와 제품 팀들이 각각 무엇을 보유하고 있는지, 다양한 사업부에서 실험을 늘리는 바람에 데이터 과학자를 추가로 채용하게 되면 누가 그 비용을 지불해야 하는지, 또 결과에 신뢰성이 부족할 때 이를 체크하고 경고를 보내는 일에 대한 투자를 누가 책임져야 하는지 등의 질문에 대한 명확성이 부족하다는 점이다

 

옳거나 틀린 모델은 없다. 통상적으로 작은 기업들은 중앙집중형 모델로 시작하거나 외부업체의 도구를 활용한다. 그런 다음 기업이 성장하면 다른 모델들 중 하나로 변경한다. 복수의 사업부를 가진 기업에서 테스팅에 우선순위를 두는 관리자들은 전사 리더가 조율된 조직적 접근방식을 개발할 때까지 기다리고 싶어 하지 않을 수도 있다. 그런 경우, 적어도 초기에는 분산형 모델이 더 적절할 수도 있다. 하지만 온라인 실험에 우선순위를 부여하는 기업이라면 각 사업부로 이를 확대 실시하기 전에 중앙 부서에서 전문성을 구축하고 기준을 개발하기를 원할 수도 있다.

 

910_134_6

 

모든 비즈니스 그룹에서는 그 그룹의 전략적 목적과 일치하는 실험들을 평가하기 위한 (일반적으로는 복합적인) 매트릭스를 규정해야 한다. 듣기에는 단순하지만, 어떤 단기 매트릭스가 장기 성과를 가장 잘 예측할지를 결정하기란 쉽지 않다. 많은 기업들이 이를 잘못 이해하고 있다. 전반적인 평가기준overall evaluation criterion·OEC을 제대로 수립하려면 신중하게 고민해야 할 뿐 아니라 폭넓은 내부 토론도 자주 해야 한다. 매트릭스 및 트레이드오프를 이해하는 데이터 분석가들과, 이 전략을 이해하는 선임 임원들 사이의 긴밀한 협조도 필요하다. 이 일은 일회성 작업이 아니기 때문이다. 우리는 매년 OEC를 조정할 것을 권장한다.

 

빙의 경험에서 볼 수 있듯, OEC에 도달하는 길은 간단하지 않다. 빙의 핵심 장기목표는 검색엔진 질의queries에서 차지하는 점유율과 광고 매출을 늘리는 일이었다. 흥미롭게도, 검색 결과의 관련성이 하락하면 사용자들은 질의를 더 많이 하고(따라서 질의 점유율이 늘어나고), 광고를 더 많이 클릭하게 된다(따라서 광고 매출이 늘어난다). 하지만 이런 이득은 분명히 단기에 그칠 수밖에 없다. 사람들이 결국은 다른 검색엔진으로 갈아탈 것이기 때문이다. 그렇다면 질의 점유율과 매출에 대한 장기적인 개선은 어떤 단기 매트릭스로 예측할 수 있을까? OEC를 논의하는 과정에서 빙의 임원들과 데이터 분석가들은 각각의 과제나 세션에서 발생하는 사용자 질의 개수는 최소화하면서, 사용자가 수행하는 과제나 세션의 수는 최대화하기를 원한다는 결론을 내렸다.

 

아울러 OEC의 구성요소들을 세분화하고 이를 추적하는 일도 중요하다. 이 작업을 통해 어떤 아이디어가 성공적이었던 이유는 무엇인지에 대한 통찰을 얻을 수 있기 때문이다. 예를 들어 클릭 횟수가 해당 OEC에 핵심적이라면, 특정 페이지에서 어떤 부분을 클릭했는지를 측정하는 일도 중요하다. 다양한 매트릭스를 살펴보는 일은 각 팀에서 어떤 실험이 다른 영역에 미친 예상치 못한 영향을 발견하는 데 도움이 되기 때문에 중요하다. 한 팀에서는 검색 시 제시되는 관련 검색 질의와 관련해 변화를 시도했는데, (예를 들어해리 포터를 검색하면 해리 포터 책, 해리 포터 영화, 그 영화의 배역 등에 대한 질의를 보여준다) 이들은 그 변화가 관련 질의에 대한 검색을 증가시킴으로써 질의 배분을 바꿔 놓고 있음을 알아채지 못할 수도 있다. 이런 변화는 매출에 긍정적인 영향을 미칠 수도 있고 부정적인 영향을 미칠 수도 있다.

 

시간이 지나면서, OEC를 수립하고 조정하고, 원인과 영향을 이해하는 과정은 점점 더 쉬워질 것이다. 실험을 시행하고, 결과를 디버깅debugging하고(여기에 대해서는 조금 더 논의할 예정이다), 결과를 해석함으로써, 기업들은 어떤 매트릭스가 어떤 유형의 테스트에 최선인지에 대해 귀중한 경험을 할 수 있을 뿐만 아니라 새로운 매트릭스도 개발할 수 있게 될 것이다. 수년간 빙은 실험자들이 사용할 수 있는 매트릭스를 6000개 이상 고안해 냈고, 이를 웹 검색, 이미지 검색, 비디오 검색, 광고와 관련된 변화 등 테스트가 다루는 영역에 따라 그룹화해 템플릿을 만들었다.

 

910_134_7

 

평가 기준이 아무리 훌륭해도 실험 결과를 신뢰할 수 없다면 아무런 의미가 없다. 숫자를 얻기는 쉽다. 하지만 신뢰할 수 있는 숫자를 얻어내기는 어렵다! 우리는 실험 시스템을 검증하고 자동 점검 및 보호장치를 설치하는 데 시간과 자원을 배분할 필요가 있다. 한 가지 방법은 엄격한 A/A테스트를 시행하는 일이다. , 어떤 것을 그 자체에 견주어 테스트했을 때, 전체 시간 중 95%에 해당하는 기간 동안 시스템에서 정확하게 통계적으로 유의미한 어떠한 차이도 찾아낼 수 없음을 확실하게 확인하는 방법이다. 단순한 방법이지만 마이크로소프트는 이 방법을 통해 수백 건의 실험이 유효하지 않을 뿐 아니라 공식이 부적절하게 적용됐음(: 모든 측정치가 실제 독립적이지 않은데도 독립적이라고 가정)을 밝혀낼 수 있었다.

 

우리는 최고의 데이터과학자들이 회의적일 뿐 아니라 트위먼의 법칙Twyman’s Law을 따른다는 사실을 배웠다. 흥미로워 보이거나 달라 보이는 숫자들은 대부분 잘못된 숫자라는 법칙이다. 놀라운 결과가 나왔다면 실험을 반복해 봐야 한다. 실험 결과의 유효성을 확인하면서 동시에 사람들의 의심도 가라앉혀야 하기 때문이다. 예를 들어 2013년에 빙은 제목, 링크, 캡션 등을 포함해 검색 결과 페이지에 나타나는 다양한 텍스트의 색상과 관련해 일련의 실험을 시행했다. 색상 변화는 감지하기 힘든 정도였지만 결과는 예상외로 긍정적이었다. 실험 결과에 따르면 약간 더 어두운 파란색과 녹색으로 쓰인 제목과 약간 더 밝은 검은색으로 쓰인 캡션을 본 사용자들이 검색에 성공할 확률이 더 높았고, 원하는 내용을 발견하는 데 걸리는 시간도 훨씬 짧았다.

 

색상들 간 차이를 식별하기가 거의 어려웠기 때문에 디자인 전문가 등 다양한 분야의 전문가들이 그 결과에 회의적인 시각을 가졌음은 이해할 만했다.(많은 다른 기업들처럼 마이크로소프트에서도 수년 동안 기업 스타일 가이드와 색상을 정할 때 실제 사용자의 행태가 아닌 전문 디자이너에게 의존해 왔다.) 따라서 그 실험은 3200만 사용자라는 훨씬 큰 표본을 대상으로 다시 시행됐다. 결과는 유사했다. 그리고 이런 색상 변화가 모든 사용자들에게 확대 실시될 경우 연간 매출이 1000만 달러 이상 늘어날 것으로 분석됐다.

 

믿을 만한 결과를 원한다면, 반드시 고품질의 데이터를 사용해야 한다. 이상치outliers를 제외해야 할 수도 있고, 데이터 수집 오류도 가려야 한다. 온라인 세상에서 이는 몇 가지 이유에서 특히 중요하다. 인터넷 봇bots을 예로 들어보자. 빙에서 50% 이상의 요청은 봇에서 나온다. 이 데이터들은 결과를 왜곡하거나잡음을 추가할 수 있으며, 통계적 중요성을 파악하기 더 어렵게 만든다. 또 다른 문제는 이상치 데이터 포인트의 출현율이다. 예를 들어 아마존에서는 특정 사용자들이 전체 A/B테스트를 왜곡시킬 수 있는 방대한 책 주문을 넣은 사실을 발견했다. 이는 나중에 도서관 계좌로 밝혀졌다.

 

[6]1000분의 1

[7]마우스를 웹사이트나 앱상의 대상 위에 올려놓고 머무르는 행위.  마우스 포인터가 위치한 부분에서 팝업창 등 옵션이 제시되기도 한다.

[8]어떤 행위가 완료되거나 발생할 때까지 지속되는 시간

[9]지능형 개인 비서 소프트웨어

 

 

 

또한, 일부 세부시장에서 다른 세부시장보다 훨씬 크거나 작은 효과가 나타날 때도 관리자들은 주의해야 한다.(통계학자들은 이를이질적인 처치 효과heterogeneous treatment effects’라고 부른다.) 좋거나 나쁜 하나의 세부시장이 전체 결과를 무효화할 만큼 평균을 왜곡하는 경우도 있다. 마이크로소프트에서 이런 현상이 발생했는데, 하나의 세부시장인 인터넷 익스플로러7 사용자들은 자바스크립트의 버그 때문에 빙에서 검색한 결과를 클릭할 수 없었던 적이 있었다. 이때 그런 문제가 없었다면 긍정적이었을 전체 결과가 부정적으로 나타났다. 실험 플랫폼은 이처럼 비정상적인 세부시장을 포착할 수 있어야 한다. 그렇지 못할 경우, 평균 효과에 주목하는 실험에서는 좋은 아이디어임에도 나쁜 아이디어로 간주돼 거부될 수도 있다.

 

910_134_3

 

또한 만약 기업들이 한 가지 실험에서 사용한 대조 모집단과 처치 모집단을 다른 실험에서 재사용할 경우 결과가 왜곡될 수도 있다. 이러한 관행은이월효과carryover effect’로 이어진다. 한 가지 실험에서 사람들이 했던 경험이 그들의 미래 행동을 바꿔 놓는 경우다. 이런 현상을 피하기 위해 기업들은 각 실험 사이에 사용자들을골고루 섞어야한다.

 

마이크로소프트의 실험 플랫폼이 수행하는 또다른 흔한 견제장치는 실제 실험상의 대조그룹과 처치그룹의 사용자 비율이 실험 설계와 일치하는지 검증하는 일이다. 만약 다르다면, ‘표본 비율 불일치sample ratio mismatch’가 발생하는데 이 경우 종종 실험이 무효가 된다. 예를 들어, 50.2 49.8의 비율(821588명의 사용자 대 815482명의 사용자)은 예상했던 50 50의 비율에서 충분히 벗어난다고 볼 수 있는데 이런 일이 우연히 일어날 가능성은 50만 분의 1보다 작다. 이러한 불일치는 규칙적으로(통상 매주) 발생하며, 각 팀에서는 어떻게 이런 현상이 발생했는지 성실히 이해하고 해결해야 한다.

 

910_134_8

 

빅 데이터에 대한 과장된 광고 때문에 인과관계가 중요하지 않다는 잘못된 믿음을 가지고 있는 임원들도 종종 있다. 그들은 상관관계만 정립하면 필요한 모든 일은 끝났고, 인과관계는 유추할 수 있다고 생각한다. 물론 잘못된 생각이다!

 

다음 두 가지 사례는 그 이유를 보여줄 뿐 아니라 실험에서 대조그룹이 부족할 경우의 단점을 조명한다. 첫 번째는 마이크로소프트 오피스에서 개선된 기능 두 가지를 대상으로 별도로 관찰연구를 수행한 두 팀의 사례다. 각 팀에서는 자신들이 평가한 새 기능이 사용자 감소attrition를 줄였다는 결론을 내렸다. 하지만 사실 진보된 기능은 거의 어떤 것이건 그러한 상관관계를 나타내게 된다. 진보된 기능을 시도해 보는 이들은 대부분 사용량이 많은 사용자들이고, 그들은 낮은 감소율을 보이는 경향이 있기 때문이다. 따라서 새롭게 개선된 기능이 낮은 감소율과 상관관계가 있을 수는 있지만, 이를 촉발시키는 요인은 아닐 수도 있다. 오류 메시지를 받은 오피스 사용자들도 낮은 감소율을 보였는데 이들 역시 사용량이 많은 사용자들이기 때문이다. 하지만 그렇다고 해서 사용자들에게 오류 메시지를 더 많이 보여준다면 감소율이 줄어든다고 볼 수 있을까? 그럴 가능성은 거의 없다.

 

두 번째는 야후가 자신들의 웹사이트에서 어떤 브랜드에 대한 광고를 보여주면 해당 브랜드 이름이나 관련 키워드에 대한 검색이 늘어나는지 측정해 본 사례다. 관찰을 통한 연구에서는 광고가 검색 횟수를 871%에서 1198%까지 증가시킬 것으로 추정됐다. 하지만 야후에서 대조실험을 시행했더니 그 증가 폭은 5.4%밖에 되지 않았다. 대조실험이 아니었다면, 회사는 그 광고들에 엄청난 효과가 있다는 결론을 내렸을 것이며, 관찰 기간 동안 변화한 다른 변수들 때문에 검색 횟수가 증가했음을 깨닫지 못했을 것이다.

 

관찰연구가 인과관계를 확립할 수 없음은 분명하다. 의학 분야에는 잘 알려진 사실이며, 미국 식품의약국FDA에서 기업이 만든 의약품을 대상으로 안전성과 효과를 증명하기 위해 무작위 임상실험을 의무적으로 시행하라고 요구하는 이유이기도 하다.

 

테스트에 너무 많은 변수를 포함하는 경우도 인과관계를 밝히기 어렵게 만든다. 그런 테스트에서는 결과를 따로 분리하고 해석하기가 어렵다. 실험은 인과관계가 쉽게 이해될 수 있을 정도로 단순한 게 이상적이다. 복잡한 설계의 또 다른 단점은 실험이 버그에 훨씬 더 취약해진다는 점이다. 만약 한 가지 새로운 기능 때문에 테스트를 중단해야 할 정도로 심각한 문제가 발생한다면 일곱 가지 새로운 기능을 포함하는 변화가 치명적인 버그를 가질 확률은 50%가 넘는다.

 

만약 한 가지가 다른 것의 원인이라는 결론은 내릴 수 있지만, 그 이유는 모른다면 어떻게 해야 할까? 인과관계의 메커니즘을 이해하기 위해 노력해야 할까? 간단히 답하자면 그렇다고 할 수 있다.

 

1500년에서 1800년 사이에 200만 명이 넘는 선원들이 괴혈병으로 사망했다. 지금은 괴혈병이 비타민C 결핍으로 발병한다는 사실을 안다. 실제로 당시 선원들은 오랜 항해 동안 과일을 충분히 섭취하지 못해 비타민C 결핍을 경험했다. 1747년 영국 왕립 해군의 외과의사였던 제임스 린드James Lind는 여섯 종류의 치료약을 두고 실험을 실시했다. 그는 항해길에 오른 배의 일부 선원들에게는 오렌지와 레몬을 제공했고, 다른 선원들에게는 식초와 같은 대안치료제를 제공했다. 이 실험에서 감귤류의 과일은 괴혈병을 예방할 수 있음이 확인됐지만 누구도 왜 그런지는 몰랐다. 린드는 과일의 산성분이 치료약이라고 잘못 믿었고, 감귤류 주스를 덜 상하게 하기 위해 끓여서 농축액을 만드는 방법으로 치료제를 만들려고 노력했다. 하지만 끓이는 과정은 비타민C를 파괴했다. 영국 왕립 해군은 열을 가하지 않은 레몬주스를 선원들의 일상 식단에 추가한 50년 후에야 비로소 선원들에게서 괴혈병을 없앨 수 있었다. 만약 린드가 가열한 레몬주스와 가열하지 않은 레몬주스를 가지고 대조실험을 실시했다면 아마도 훨씬 빨리 해결책을 도출해 많은 생명을 구할 수 있었을지도 모른다.

 

그렇긴 하지만, 우리가무엇에 대한 지식에서 혜택을 얻기 위해어떻게를 항상 알아야 할 필요는 없다. 사용자들의 행동 같은 경우가 특히 그렇다. 사용자들의 동기는 결정하기 어려울 때도 있기 때문이다. 빙이 발견한 가장 큰 돌파구 중 일부는 바탕이 되는 이론이 없는 상태에서 이뤄졌다. 예를 들어, 빙에서 글자 색깔을 미세하게 바꾸는 방법으로 사용자 경험을 개선할 수 있었지만, 빙이 그 이유를 이해하는 데 도움이 될 만큼 잘 정립된 색상 관련 이론은 없었다. 여기서는 증거가 이론의 자리를 차지했다.

 

온라인 세상은 종종 격변이 심하고 위험이 가득한 장소처럼 보인다. 하지만 대조실험은 우리가 온라인 세상을 항해할 때 도움을 줄 수 있다. 답이 명확하지 않거나, 사람들의 의견이 충돌할 때, 혹은 아이디어의 가치가 확실하지 않을 때 올바른 방향을 알려준다.

 

수년 전 빙에서는 광고를 더 크게 만들어 광고주들이 거기에 특정한 랜딩 페이지landing page로 연결되는 링크를 포함할 수 있게 해야 할지에 대한 논쟁이 벌어졌다.(예를 들어 대부업체에서는 홈페이지로 연결하는 링크 대신, ‘이율을 비교해 보세요혹은회사 소개와 같은 링크를 제공할 수도 있다.) 광고가 더 커지다 보면 스크린에서 더 많은 공간을 차지하게 되는데 이는 사용자의 불만족과 이탈을 키운다고 알려져 있다. 이 아이디어를 고려하던 사람들의 의견도 나뉘었다. 결국 빙팀에서는 광고의 크기를 키우는 실험을 하면서 광고에 할당한 전체 스크린 공간은 유지했는데, 그럴 경우 보여줄 수 있는 광고 개수는 더 적어질 수밖에 없다. 하지만 결과적으로 개수는 줄어들고 크기는 더 커진 광고가 엄청난 진전으로 이어졌다. 사용자 경험의 핵심적인 측면을 손상시키지 않으면서도 이 아이디어 덕분에 매년 5000만 달러 이상의 매출이 증가한 것이다.

 

실험의 가치를 정말로 이해하고 싶다면, 예상한 결과와 실제 결과 사이의 차이에 주목하라. 만약 어떤 일이 일어날 거라고 생각했는데 실제로 일어났다면, 배운 점이 많이 없게 된다. 하지만 어떤 일이 일어날 거라고 생각했는데 일어나지 않았다면, 뭔가 중요한 것을 배운 셈이다. 사소한 일이 일어날 거라고 생각했는데 놀라운 결과와 돌파구로 이어졌다면 매우 가치 있는 무언가를 배운 셈이다.

 

소프트웨어의 힘이 대조실험의 과학적 엄격함과 결합될 때 회사는 학습하는 연구소를 만들어낼 수 있다. 비용 절감이나 신규 매출, 개선된 사용자 경험에서 매우 큰 수익을 얻을 수도 있다. 경쟁우위를 확보하고 싶다면 실험역량을 구축해야 하며, 온라인 테스트를 수행하는 데 필요한 과학을 마스터해야 한다.

 

번역: 이희령 / 에디팅: 이방실

론 코하비(Ron Kohavi)는 마이크로소프트의 분석/실험 팀의 특훈 (distinguished) 엔지니어이자 제너럴 매니저다. 과거 아마존에서 데이터 마이닝과 개인화(personalization) 부문 이사를 지냈으며, 아마존의 실험 시스템인 웹랩(Weblab)을 총괄했다.

스테판 톰크(Stefan Thomke)는 하버드경영대학원의 경영관리 부문 윌리엄 바클레이 하딩(William Barclay Harding) 교수다. 그는 기업실험과 혁신관리 분야의 권위자이며, 제품, 공정, 기술개발 분야에서 수많은 글로벌 기업들과 함께 작업했다.

  • 아티클 다운로드
    (PDF)
    5,000원

    담기바로구매

  • 2017년 9-10월(합본호)
    25,000원
    22,500원

    구매하기

  • 디지털서비스
    1년 150,000원

    디지털서비스란

    신청하기

전략 다른 아티클

무료 열람 가능 아티클 수 0/1 회원가입 | 서비스상품안내