2017
9-10월(합본호)

온라인 실험의 놀라운 힘
론 코하비(Ron Kohavi),스테판 톰키(Stefan Thomke)

FEATURE OPERATIONS

온라인 실험의 놀라운 힘

A/B테스트와 그 외 다른 대조실험을 최대한 활용하라

론 코하비, 스테판 톰크

 

IN BRIEF

 

문제점

많은 기업에서 웹사이트와 애플리케이션을 만들 때, 하드데이터hard data[4]가 아니라 주관적인 의견에 근거해 새로운 제품 기능부터 룩앤드필look and feel[5] , 마케팅 캠페인까지 모든 것에 대한 의사결정을 내리고 있다.

 

해결책

아이디어를 평가하려는 기업들은 온라인 대조실험을 실시해야 한다. 잠재적인 개선사항은 엄격한 테스트를 거쳐야 한다. 대규모 투자라도 성과를 내지 못할 수 있고, 작은 변화 중에서도 일부는 커다란 수익을 가져오는 한편 일부는 놀라울 만큼 유해할 수도 있기 때문이다.

 

실행방안

리더들은 어떻게 하면 A/B테스트나 다른 대조실험들을 적절하게 설계하고 실행할 수 있는지 이해해야 한다. 아울러 무결성을 확보하고, 결과를 해석하며, 함정을 피해야 한다.

 

 

[이미지 닫기]

910_134_1

 

2012년 검색엔진 빙Bing과 관련된 작업을 하던 마이크로소프트의 한 직원이 검색엔진에서 광고 헤드라인을 보여주는 방식을 변경하자는 아이디어를 냈다. 이 아이디어를 개발에 옮기는 데는 많은 노력이 필요하지 않았다. 엔지니어 한 사람이 며칠만 작업하면 될 정도였다. 하지만 이 아이디어는 수백 건 중 하나의 아이디어에 불과했고, 프로그램 관리자는 우선순위가 낮다고 판단했다. 6개월 넘게 이 아이디어는 진행되지 않았다. 마침내 이 아이디어를 실행하는 코드를 짜는 데 드는 비용이 적다는 사실을 알아차린 한 엔지니어가 그 효과를 평가하기 위해 단순한 온라인 대조실험인 A/B테스트[1]를 실시했다. 불과 몇 시간 만에 헤드라인의 새로운 변화는 비정상적으로 높은 매출을 발생시켰고, ‘사실이라고 보기엔 너무 좋은 상황을 의미하는 경보까지 발동시켰다. 통상적으로 그런 경보는 버그가 있음을 의미했지만 이번 경우는 그렇지 않았다. 분석 결과, 핵심적인 사용자 경험 매트릭스를 손상시키지 않고도 그 변화 덕분에 놀랍게도 매출이 12%나 성장했다. 연간 매출을 기준으로 할 때 미국 시장에서만 1억 달러를 넘는 수준이었다. 빙의 역사상 최고의 매출을 창출하는 아이디어였지만, 테스트할 때까지 그 가치는 저평가됐다.

 

겸허하게 받아들여라! 이 사례는 새로운 아이디어의 잠재력을 평가하기가 얼마나 어려운지를 알려준다. 여러 테스트를 저렴한 비용으로 병행할 수 있는 능력이 주는 혜택 또한 이 사례를 통해 알 수 있다는 점 역시 마찬가지로 중요하다. 점점 더 많은 기업들이 이 사실을 깨닫고 있다.

 

오늘날 마이크로소프트와 아마존, 부킹닷컴, 페이스북, 구글과 같은 일부 선도기업에서는 저마다 매년 1만 건이 넘는 온라인 대조실험을 시행한다. 이 중에는 수백만 명의 사용자들이 참여하는 실험도 많다. 더 작은 규모로 시행되긴 하지만, 스타트업이나 월마트, 허츠Hertz, 싱가포르항공처럼 디지털 뿌리가 없는 기업들도 이런 실험을 정기적으로 시행하고 있다. 이들은모든 것을 실험해 보는접근방식이 놀라울 정도로 큰 성과를 가져올 수 있음을 알게 됐다. 빙의 사례만 봐도 이 접근방식 덕분에 매출과 관련해 적용할 변화를 매달 수십 건씩 찾아낼 수 있었다. 그 결과 전체적으로 검색당 매출액이 매년 10%에서 25%까지 늘어날 정도로 개선됐다. 매달 수백 건에 달하는 변화와 더불어 사용자 만족도 제고를 위한 이 같은 향상enhancements, PC를 통한 검색시장 점유율(미국 기준)에서 빙이 출시된 해인 2009 8%에서 23%까지 늘어나며 수익을 내고 있는 주된 이유다.

 

모든 기업에 웹이 필수가 된 지금, 엄격한 온라인실험은 기업의 표준 운영절차가 돼야 한다. 기업에서 소프트웨어 인프라와 이를 시행할 수 있는 운영기술을 개발한다면, 웹사이트를 위한 아이디어만이 아니라 잠재적인 비즈니스 모델, 전략, 제품, 서비스, 마케팅 캠페인까지 모두를 비교적 저렴한 방법으로 평가할 수 있을 것이다. 대조실험은 의사결정과정을 직관적인 반응이 아닌 과학적이고 증거에 기반하는 과정으로 바꿔 놓을 수 있다. 이들 실험이 아니었다면 수많은 돌파구를 결코 발견할 수 없었을 것이고, 많은 나쁜 아이디어들을 실행에 옮겨 실패를 초래하고 자원을 낭비했을 것이다.

 

하지만 우리는 몇몇 주요 디지털 기업들을 포함해 수많은 기업에서 무계획적으로 실험에 접근하거나, 견고한 과학적 테스트를 시행하는 방법을 모르거나, 혹은 실험을 너무 적게 시행하고 있음을 알게 됐다.

 

필자들이 이런 실험들을 연구하고 시행하거나 다양한 산업에 있는 기업들에 조언을 제공한 기간을 모두 합하면 35년이 넘는다. 우리는 이 글에서 실험을 어떻게 설계하고 시행해야 하며, 어떻게 무결성integrity을 확보하고, 결과를 해석하고, 실험에서 우리가 직면할 도전에 대응해야 할지에 관해 그동안 얻은 교훈들을 공유하고자 한다. 이 글은 가장 단순한 유형의 대조실험인 A/B테스트에 초점을 맞추고 있지만, 우리의 발견과 제안은 더 복잡한 실험 설계에도 동일하게 적용된다.

 

[이미지 열기]

 

A/B테스트에서 실험자는 두 가지 경험을 설정한다. ‘A’는 대조군the control으로 일반적으로 현재의 시스템이며챔피언으로 간주된다. ‘B’는 처치를 받는 실험군the treatment, , 무언가를 개선하려고 시도하는 변형이며도전자로 간주된다. 실험에서는 사용자들을 이 두 경험에 무작위로 배정하며, 핵심 매트릭스를 계산하고 비교한다.(이에 반해 단변수univariable A/B/C테스트와 A/B/C/D테스트[2] , 다변수multivariable테스트[3]에서는 하나 이상의 처치를 평가하거나 서로 다른 변수들의 변형을 동시에 평가한다.) 온라인상에서 변형은 새로운 기능일 수도 있고, 새로운 레이아웃과 같이 사용자 인터페이스에 가하는 변화일 수도 있으며, 아마존에서 책을 추천하는 알고리즘을 개선하는 일처럼 백엔드back-end쪽의 변화가 될 수도 있고, 무료배송 제안처럼 다른 비즈니스 모델일 수도 있다. 기업이 신경을 가장 많이 쓰는 운영상의 측면이라면 무엇이든, , 영업이든, 반복 사용이든repeat usage, 클릭률click-through rates이든, 혹은 한 사이트에서 사용자가 보내는 시간이든, 어떻게 이를 최적화할 수 있을지 알아내기 위해 온라인 A/B테스트를 사용할 수 있다.

 

활동적인 일일 사용자가 최소한 수천 명이라면 어떤 기업이나 이 테스트들을 시행할 수 있다. 게다가 대규모 고객 샘플을 확보할 수 있고, 웹사이트나 앱상에서 사용자의 상호작용에 관한 방대한 양의 데이터를 자동으로 수집할 수 있으며, 동시에 여러 실험을 시행할 수 있는 능력이 있다면, 그 기업은 신속하면서도 매우 정확하게, 그것도 추가 실험당 무시해도 될 만한 비용으로 많은 아이디어를 평가할 수 있는 전례 없는 기회를 확보할 수 있다. 이런 기회 덕분에 기업들은 신속하게 반복하고, 빨리 실패하며, 다른 방향으로 선회할 수 있다.

 

이런 장점을 깨달은 몇몇 앞선 기술기업에서는 전체 그룹 차원에서 많은 제품팀들이 채택할 수 있는 실험 인프라를 구축, 운영 및 개선하는 데 노력해 왔다. 어떻게 활용해야 하는지에 대해 알기만 한다면, 이러한 역량은 중요한 경쟁우위가 될 수 있다. 관리자들은 다음 사항들을 이해할 필요가 있다.

 

미세한 변화가 큰 효과를 가져올 수 있다.사람들은 일반적으로 더 많이 투자할수록 더 큰 성과를 얻을 것으로 생각한다. 하지만 온라인에서는 이런 방식이 잘 통하지 않는다. 온라인에서의 성공은 작고 수많은 변화를 올바르게 실행하는 일과 더 관련이 깊다. 비즈니스 세계에서는 크고 파괴적인 아이디어를 미화하지만, 현실에서 대부분의 진보는 수백, 혹은 수천 개의 작은 개선활동을 통해 이뤄진다.

 

역시 마이크로소프트에서 나온 다음 사례를 살펴보자.(이 글에 등장하는 대부분의 사례는 론이 실험을 이끌었던 마이크로소프트의 사례들이다. 하지만 이 사례들은 수많은 기업에서 얻어진 교훈들을 예시하고 있다.) 2008년 영국에서 근무하던 한 마이크로소프트 직원이 얼핏 보기에는 사소한 제안을 했다. 사용자들이 MSN 홈페이지에서 핫메일Hotmail링크를 클릭할 때마다 같은 탭에서 핫메일을 여는 대신, 새로운 탭(혹은 옛날 브라우저에서는 새로운 창)이 자동으로 열리도록 하자는 것이었다. 90만 명의 영국 사용자들을 대상으로 테스트를 실시했고, 그 결과는 매우 고무적이었다. 핫메일을 열었던 사용자들의 참여도를 그들이 MSN 홈페이지에서 누른 클릭 수로 측정했는데 놀랍게도 8.9%나 증가했다.(참여도와 관련한 대부분의 변화는 1% 미만의 효과를 보인다.) 하지만 그 당시에는 새로운 탭에서 링크를 여는 사이트가 거의 없었기 때문에 그 아이디어는 논란의 대상이 됐고, 결국 영국에서만 이 변화가 적용됐다.

 

이 실험은 2010 6월에 미국에서 270만 명의 사용자들을 대상으로 반복 실시됐다. 결과는 유사했고, 그로 인해 이 변경사항은 전 세계에 확대 적용됐다. 그러자 마이크로소프트는 이 아이디어가 다른 곳에서 어떤 효과를 가져올지 알아보기 위해 MSN에서 검색작업을 하는 사람들이 그 결과를 새로운 탭에서 열어보도록 하는 가능성을 탐색했다. 미국에서 1200만 명 이상을 대상으로 한 실험에서 사용자당 클릭 수는 5% 증가했다. 새로운 탭에서 링크를 여는 것은 사용자 참여도를 늘리기 위해 마이크로소프트가 이제까지 도입한 최고의 방법 중 하나였고, 그렇게 하기 위해서는 코드 몇 줄만 바꾸면 됐다. 오늘날 페이스북과 트위터를 포함해 많은 웹사이트에서 이 기술을 활용하고 있다.

 

이런 경험을 마이크로소프트에서만 겪었다고 보기는 어렵다. 예를 들어 아마존에서는 신용카드와 관련한 혜택을 홈페이지(웹사이트 첫 화면)에서 쇼핑 장바구니 페이지로 옮기는 실험을 했을 뿐인데 매년 이익이 몇 천만 달러나 늘어났다. 작은 투자가 커다란 수익을 가져올 수 있음은 분명하다. 하지만 대규모 투자는 오히려 수익을 거의 혹은 전혀 내지 못할 수도 있다. 마이크로소프트는 빙을 소셜미디어와 결합해 빙의 검색결과 페이지의 세 번째 섹션에 페이스북과 트위터의 내용이 보이도록 하는 개발작업에 2500만 달러 이상의 비용을 지출했다. 하지만 클릭 수와 매출의 증가는 무시해도 될 정도였다.

 

[이미지 열기]

 

[1]서로 다른 두 버전을 만들어 불특정 다수의 사람들에게 보여준 뒤 그 반응에 따라 더 나은 버전을 선택하는 테스트

[2]다른 변수들은 고려하지 않고 하나의 설명 변수와 결과와의 관계를 테스트하는 분석

[3]하나의 변수에 영향을 미치는 여러 요인의 영향을 보정해 하나의 모형으로 설명하는 분석

[4]논쟁의 여지가 없는 분명한 사실이나 수치 등 수집이 용이하고 금전적 가치로 전환하기 쉬운 데이터 유형

[5]사용자 인터페이스에서 색상, 레이아웃, 글꼴, 상자, 메뉴 등 동적 요소를 수반하는 디자인 측면

 

기사 전문보기

전문보기는 유료 서비스입니다.
Harvard Business Review Korea 디지털 서비스를 구매하시면 모든 콘텐츠를 자유롭게 이용 가능합니다.
디지털 서비스 신청

  • 아티클 다운로드
    (PDF)
    5,000원

    담기바로구매

  • 2017년 9-10월(합본호)
    25,000원
    22,500원

    구매하기

  • 디지털서비스
    1년 150,000원

    디지털서비스란

    신청하기

전략 다른 아티클