헤더 바로가기 메뉴 바로가기 푸터 바로가기
전략

코로나 통계에서 배우는 비즈니스 애널리틱스 101

니코 뉴먼(Nico Neumann)
디지털
2020. 6. 10.
Apr20_23_201616295

단 10분만 트위터에서 코로나19 관련 뉴스를 찾아보세요. 확진자, 사망자 등 최신 수치가 쏟아지는 가운데 이 데이터의 해석을 두고 뜨거운 공방이 오가고 있을 겁니다. 가끔 분노의 설전이 벌어지는 모습도 볼 수 있습니다. 코로나바이러스가 얼마나 잘 전염되는지, 사망률은 얼마나 되는지, 지역별 방역 대책은 얼마나 효과적인지에 대해서 갑론을박이 쏟아집니다. 왜 지역마다 전염, 사망률, 재발률이 다르게 나타나는지에 대해 깔끔한 답을 제시하는 건 그만큼 어려운 일입니다.

왜 어려울까요. 이유는 간단합니다. 코로나19가 신종 바이러스이기 때문이죠. 실시간으로 코로나19에 대해 새로 배워 나갈 수밖에 없습니다. 더구나 진단 역량 및 의료 체계도 지역마다 현저한 차이가 있습니다. 사실 이 차이만으로도 지역별 확진자, 사망자 등이 다르게 나타나는 이유를 충분히 설명할 수 있지요.

이는 전염병학자를 비롯해 많은 전문가가 데이터 분석 문제로 골머리를 앓을 수밖에 없다는 뜻입니다. 까놓고 말하자면 데이터 수집과 분석이 단순한 경우는 없습니다. 우리는 매 단계에 어려운 판단을 내려야만 합니다. 보통 이 결정은 크게 세 단계로 나뉩니다.

1) 데이터 묶음에 무엇을 포함할지,
2) 인과관계를 찾을 때 각 요소에 가중치를 얼마나 줄 것인지,
3) 결과를 어떻게 공개할지

등입니다.

이 세 가지에 따라 데이터의 해석은 크게 달라집니다. 적절한 판단을 내릴 경우 수많은 인명을 살릴 수 있겠죠. 또 이런 접근법은 비즈니스적인 상황에서도 더 나은 성과를 거둘 수 있게 해줍니다.


문제1
누구를 검사해야 하는가?

코로나바이러스처럼 낯선 질병이 발생할 때 가장 손쉬운 대처법은 중증 환자나 사망자만을 대상으로 바이러스 검출 여부를 판정하는 것입니다. 진단키트가 부족한 지역에서는 이조차도 불가능하겠지만 말이죠. 이는 가장 편리한 방법이지만 사망률을 실제보다 높이게 됩니다.

가령 중증환자 10명이 있고 이 중 1명이 사망했다고 가정해봅시다. 그럼 사망률은 10%입니다. 하지만 만약 전체 감염자가 100명이고 이 중 90명은 무증상 혹은 경증 환자였다면 실제 사망률은 1%에 불과했을 겁니다.

그러나 대규모 표본을 대상으로 검사하지 않은 이상, 이런 진실은 아무도 모르겠죠.

결론: 가장 눈에 띄는 환자만 검사하면 바이러스가 실제보다 더 나쁘게 보일 수 있습니다. 통계학에서는 이를 표본 추출 과정에서 나타나는 '선택 편향(selection bias)'이라고 말합니다.

회사도 이 같은 오류를 저지르기 쉽습니다. 예를 들어, 매출이 소폭 증가한 이유를 분석하려는 기업이 있다고 합시다. 마케팅 담당자는 새 광고 덕분이라고 가정했습니다. 이 경우 효율성이라는 명목 아래 측정이 쉬운 지표에만 집중하게 되기 쉽습니다. 가령, 온라인 매장이나 오프라인 웹사이트 이용객을 살핀 결과 이 중 절반이 구매 전 광고를 봤다고 합시다. 그럼 광고의 구매전환율(CVR, Conversion Rate)은 50%라고 할 수 있습니다.

하지만 광고를 보고도 오프라인 매장이나 온라인을 애초에 방문조차 하지 않은 그룹은요? 그런 사람들까지 포함하면 구매전환율은 그보다 큰 폭으로 낮아집니다.

애초에 분석 대상에 이들을 포함하지 않은 이유는 무얼까요? 비용도 높아지고 계산도 복잡해지기 때문입니다. 하지만 비용을 아끼자고 부정확하게 구매전환율을 산출하면, 회사의 전략이나 투자수익률에 큰 악영향을 미칠 수 있습니다. 마치 코로나19 감염률과 사망률이 공공 보건 정책의 방향에 큰 영향을 주듯 말이죠.

해결책: 구하기 쉬운 표본을 추출하지 말고, 대표성 있는 집단을 대상으로 연구하세요. 물론 표본의 대표성을 얼마나 확보할 수 있느냐는 사용 가능한 비용과 자원에 달려 있겠지만 말입니다.


문제2
데이터 분석 시 어떻게 요소별 가중치를 매길까?

각 요소가 결과에 상대적으로 얼마나 큰 영향을 미치는지 결정하는 것도 골칫거리입니다. 가령, 공중보건 담당 공무원이 어떤 요소가 코로나19 환자 상태에 가장 큰 영향을 미치는지를 파악 중이라고 합시다. 이를 알아내는 것은 간단하지도, 직관적이지도 않습니다. 환자의 연령대부터 심장질환이나 당뇨 등 기저질환, 면역력, 정부 개입 시점, 의료진 피로도까지 셀 수 없이 많은 요소가 얽혀 있기 때문입니다. 주요 요소가 미치는 영향이나 요소 간 상호작용은 직접 관찰하거나 측정할 수 없기 때문에 이 문제는 해결하기가 매우 까다롭습니다.

기업도 비슷한 문제에 직면합니다. 앞서 거론한 기업의 매출 증가 사례를 재활용해보겠습니다.

마케팅 담당자가 생각하기에 최근 매출 증가는 자신이 밀어붙인 새 광고 덕분입니다. 하지만 웹사이트 리뉴얼이나 제품 단가 조정, 영업 인력 신규 채용, 경쟁 업체의 헛발질 등 다른 것들이 이유일 수도 있습니다. 아니면 이 요소들이 맞물려 작용한 결과일 수도 있고요. 보통은 후자처럼 복합적인 요인이 함께 작용한 경우가 대부분입니다. 결과만 봐서는 아무것도 단정 지을 수 없죠.

해결책: 무작위 대조 실험을 하듯이 과학적 방법을 활용해 개별 요소의 영향을 하나하나 볼 수 있어야 합니다. 평상시라면 회사가 독립적인 요소들의 중요도를 실험할 여력이 있을 겁니다. 다만 팬데믹 상황에서는 여의치 않겠지요. (비록 각 국가의 코로나19 대응 방식이 너무 달라 자연스레 다양한 실험이 전개되고 있기는 하지만요.)

아티클을 끝까지 보시려면
유료 멤버십에 가입하세요.
첫 달은 무료입니다!

(03187) 서울시 종로구 청계천로 1 동아일보사빌딩 9층 (주)동아일보사
대표자: 김재호 | 등록번호: 종로라00434 | 등록일자: 2014.01.16 | 사업자 등록번호: 102-81-03525
(03737) 서울시 서대문구 충정로 29 동아일보사빌딩 8층 (주)디유넷(온라인비즈니스)
대표이사: 김승환, 김평국 | 통신판매신고번호: 제 서대문 1,096호 | 사업자 등록번호: 110-81-47558