2015
6월호

가짜 상관관계를 경계하라

Vision Statement

가짜 상관관계를 경계하라

 

‘상관관계가 인과관계를 의미하지는 않는다는 진리는 누구나 잘 알고 있다. 하지만 기울기나 높이 변화가 비슷한 한 쌍의 꺾은선 그래프나 막대 그래프, 특정 부위에 점들이 몰려 있는 산포도를 볼 때면 그런 데이터는 우리에게 충분히 믿을 만한 인과관계가 있지 않냐고 간청하는 듯하다. 그러면 실제로 데이터 사이에 인과관계가 존재한다고 믿고 싶어진다.

 

하지만 통계적으로 그런 식의 비약은 절대로 성립될 수 없다. 밀접한 상관관계를 주장하는 각종 차트들 역시 얄팍한 눈속임에 불과할 때가 있다. 하버드대 로스쿨의 박사과정 재학생이며 <Spurious Correlations>의 저자이기도 한 타일러 비겐Tyler Vigen은 자신의 웹사이트에서 이런 현상을 꼬집었다. 미국인 1인당 마가린 소비량과 미국 북동쪽에 있는 메인Maine주의 이혼율 사이의 관계 등 터무니없는 상관관계를 표시한 도표들을 소개한 것이다.

 

엄청난 양의 데이터와 다양한 분석 도구가 쏟아져나오는 요즘 같은 시대에는 이런 꼼수를 부리기가 얼마나 쉬워졌는지 모른다. 허황된 상관관계를 억지로 꾸며내려 하는 관리자들의 행태 역시 이런 추세에 한몫하고 있다.

 

조작 방법

변화 추세가 비슷한 데이터 세트 두 가지를 찾아보라. 데이터가 가리키는 내용은 무엇이든 상관없다.

이 두 가지 세트의 데이터를 두 개의 Y축을 지닌 하나의 도표에 동시에 표시해보라. 그리고 그래프가 하나로 수렴되도록 다듬는다. , 이제 HBR 구독률이 높아질수록 전자상거래 업체 위젯코WidgetCo의 수익이 늘어난다는 표가 완성됐다.

 

img_20150528_26_1_grp

 

황당함

비겐은 대량 데이터 세트를 한 쌍씩 엮어서 만든 황당무계한 상관관계를 자신의 웹사이트에 게시했다. 그중 세 가지를 소개한다.

 

img_20150528_26_2_grp

 

심각성

정말 얼토당토않은 상관관계라면 누구나 쉽게 알아채고 반박할 수 있다. 그러나 조작됐더라도 겉보기에 그럴싸한 통계자료라면 얘기가 달라진다. 다음 세 가지 유형은 특히 경계할 필요가 있다.

 

의미 없는 비교 본래 비교 자체가 불가능한 변인들을 억지로 연결시키는 경우

 

Y축 눈금이 가리키는 내용()이 서로 달라 짝을 지을 수 없는 한 쌍의 그래프도 곡선의 형태가 유사하게 나타날 때가 있다. 겉보기와 달리 두 가지 데이터 사이에 실제로 아무 관계가 없다면 매우 유해한 결과를 가져올 수 있다. 이럴 때는 표를 따로 그리는 것이 최선이다.

 

img_20150528_26_3_grp

 

단위 왜곡 범위를 조작해 데이터 배열을 조정하는 경우

 

Y축이 같은 범주의 데이터를 나타낼 때도 단위를 조정하면 두 그래프 사이에 상관관계가 있는 것처럼 보이도록 만들 수 있다. 리테일코RetailCo라는 회사의 월별 매출을 나타낸 다음 표에서는 두 Y축의 범위와 비율을 서로 다르게 표시했다. 두 번째 Y축을 없애면 이 표가 얼마나 왜곡됐는지 알 수 있다.

 

img_20150528_26_4_grp

 

IF-THEN 관계 한 변인이 다른 변인의 원인이라는 분위기를 풍기는 경우

 

서로 관계없는 데이터 세트를 엮어 한 변인의 변화가 다른 변인의 변화를 유도한 것처럼 보이게 할 수 있다. 그러면 사람들은 음악추천 시스템

판도라Pandora의 영업손실이 적어지면 음악 저작권 수가 늘어난다는 식으로, 우연에 불과한 현상에서 그럴듯한 이야기를 꾸며낸다.

 

img_20150528_26_5_grp

 

  • 아티클 다운로드
    (PDF)
    5,000원

    담기바로구매

  • 2015년 6월 (품절)
    17,000원
    15,300원

    구매하기

  • 디지털서비스
    1년 150,000원

    디지털서비스란

    신청하기

재무회계 다른 아티클

무료 열람 가능 아티클 수 0/1 회원가입 | 서비스상품안내