헤더 바로가기 메뉴 바로가기 푸터 바로가기
위기관리 & 운영관리

머신러닝이 선로를 벗어날 때

매거진
2021. 1-2월호
087

머신러닝이 선로를 벗어날 때
리스크 관리 가이드



문제점
머신러닝 기술에 기반한 제품과 서비스가 급증하면서, 이를 개발하는 기업, 사용하는 기업, 관련 데이터를 공급하는 기업 등에 여러 가지 새로운 리스크가 대두되고 있다. 머신러닝 기반 시스템이 내리는 판단이 항상 윤리적이고 정확한 것은 아니기 때문이다.

원인
첫째, 머신러닝 기반 시스템이 판단을 내릴 때, 확률에 기반하는 경우가 많기 때문이다. 둘째, 시스템 작동 환경이 예상치 못한 방향으로 바뀔 수 있기 때문이다. 셋째, 복잡한 시스템 안에서 발생한 오류를 식별하고 원인을 분석하기가 어렵기 때문이다.

해결책
머신러닝 시스템이 지속적으로 진화할 수 있게 할 것인지, 아니면 고정된 버전을 주기적으로 출시할 것인지 경영진 차원의 결정이 필요하다. 또, 서비스 출시 전후로 적합한 검증 과정과 지속적인 모니터링 절차를 마련하고 운영해야 한다.


머신러닝이란 새로운 정보를 흡수해 이를 바탕으로 판단방식을 변화시켜 나가는 컴퓨터 프로그램을 의미한다. 그런데 만약 머신러닝 프로그램의 판단이 투자 손실이나 교통사고를 야기하거나 인재 채용, 대출 심사 등의 절차에서 불공정한 결정을 내릴 경우 어떻게 될까? 또, 머신러닝 기반 제품 및 서비스를 제공하는 기업은 자사의 프로그램이 스스로 진화하도록 내버려두는 것이 좋을까, 아니면 알고리즘을 ‘고정(lock)’한 이후 주기적으로 직접 업데이트하는 것이 좋을까? 알고리즘을 고정하기로 결정했다면, 업데이트 시점과 주기는 어떻게 정해야 할까? 여기서 내리는 결정에 따라 발생하는 리스크를 어떻게 분석하고 관리할 수 있을까?

어느 산업 분야에서든 머신러닝에 기반한 인공지능 기술이 점점 더 많은 서비스와 프로세스에 적용되고 있기 때문에, 기업 경영진과 이사회는 위에서 열거한 질문에 대답할 준비가 돼 있어야 한다. 본 아티클에서는 의료법, 윤리, 규제 및 머신러닝 분야에서 필자들이 진행한 연구를 바탕으로 머신러닝이 초래할 수 있는 리스크를 이해하고, 관리할 수 있는 주요 개념을 소개하고자 한다.

머신러닝에서 리스크가 발생하는 이유

머신러닝이 기존 디지털 기술과 다른 점은 바로 새로 공급되는 데이터에 적응하며, 독립적으로 점점 더 복잡해지는 문제에 대한 결정을 내릴 수 있다는 점이다. 이런 능력 덕분에, 머신러닝 기술은 어떤 금융상품을 사고팔지, 자율주행 자동차가 장애물을 어떻게 피해야 할지, 어떤 사람이 특정 질병에 걸렸는지 등 단순하지 않은 문제를 해결하는 데 사용되고 있다. 하지만 머신러닝의 알고리즘이 항상 아무 문제없이 작동하는 것은 아니다. 때때로 부정확한 판단이나 비윤리적인 결정을 내릴 수도 있다. 여기에는 다음과 같은 세 가지 근본적인 이유가 있다.

첫 번째는 바로 대부분의 알고리즘이 ‘확률’에 기반해 결정을 내린다는 점이다. 확률적 판단을 여러 번 중복해서 내리기 때문에, ‘일부’ 판단은 언제든지 틀릴 위험이 있다. 오류가 발생할 확률은 알고리즘 학습에 이용된 데이터의 질과 양, 사용된 머신러닝 기법 등 여러 요소에 따라 달라질 수 있다. 예를 들어, 복잡한 수리 모델을 활용하는 딥러닝deep learning 기법을 쓰느냐, 아니면 판단 규칙을 세워 결정을 내리는 분류 나무classification tree 기법을 사용하느냐에 따라 달라질 수 있는 것이다. 또, 사용된 알고리즘이 ‘설명 가능’한지도 중요하다. 설명 가능한 알고리즘이란 알고리즘이 판단을 내리는 과정을 기계가 아닌 사람이 이해할 수 있는지를 의미한다. 설명 가능한 알고리즘만을 사용해 머신러닝 시스템을 설계하면 정확도가 떨어질 수도 있다.

둘째로, 머신러닝이 작동하는 환경이 시간이 흐르며 달라지거나, 개발 당시 의도와는 다른 조건에서 적용될 수 있기 때문이다. 여러 이유가 있을 수 있지만, 가장 흔한 경우는 개념 변동concept drift과 공변량 변화covariate shift다.

개념 변동이란 투입된 변수와 결과값 사이의 관계가 시간이 흐르며 달라지거나 애초에 잘못 정의된 경우를 의미한다. 주식 트레이딩 알고리즘의 경우를 예로 들어보자. 만일 이 알고리즘을 훈련하는 데 경제성장률이 높고 시장변동성이 낮은 시기의 데이터만 사용했다면, 최근 코로나19 사태와 같이 경기가 침체되거나 시장에 혼란이 발생했을 때 모델의 성능이 저하될 수 있다. 시장 환경의 변화에 따라 기업의 레버리지 규모와 주식 수익률 등 변수 사이의 관계가 달라질 수 있기 때문이다. 비슷한 이유로, 경기 변동에 따라 신용평가 모델의 성능이 달라지기도 한다.

의료 분야에서도 개념 변동이 발생하는 경우를 찾아볼 수 있다. 피부 영상을 바탕으로 피부암을 진단하는 머신러닝 프로그램을 개발할 때, 피부색과 진단 결과 간 연관성을 제대로 파악하지 못한다면 알고리즘이 오진을 내리게 될 수도 있다. 개인의 피부색은 인종이나 직사광선 노출 정도와 같은 다양한 원인으로 달라질 수 있는데, 모델 개발에 사용되는 의료기록에는 이런 정보가 반영되지 않는 경우가 자주 있기 때문이다.

공변량 변화는 알고리즘이 학습하는 데 쓰인 데이터와 실제 사용 시점에 공급된 데이터가 다른 경우 발생한다. 알고리즘이 학습한 패턴이 안정적이고 개념 변동이 일어나지 않았더라도, 공변량 변화는 발생할 수 있다. 예를 들어, 의료용품 제조사가 도시지역 대형 병원의 데이터를 가지고 의료용 머신러닝 알고리즘을 개발했다고 해보자. 알고리즘을 시장에 출시한 후, 이를 실제로 사용하는 지방 의료시설의 데이터는 학습에 사용된 도시 병원 데이터와 상이할 수 있다. 도시지역 병원에는 지방에서는 보기 힘든 기저 질환을 앓고 있는 특정 사회계층의 환자 비율이 더 높을 수 있기 때문이다. 이런 데이터 괴리는 제품이 시장에 출시된 후에, 사전검증 단계에서보다 더 높은 오류율을 보이고 나서야 발견될 수도 있다. 빠른 속도로 다각화되는 시장에서 시스템의 작동 환경이 어떻게 바뀔지 예측하는 것은 점점 더 어려워지고 있다. 또 아무리 많은 데이터를 활용하더라도 실제 세상에서 발생하는 미묘한 차이를 모두 반영하는 것은 현실적으로 불가능하다.

머신러닝의 판단이 틀릴 수 있는 세 번째 이유는 머신러닝을 포함하는 전체 시스템이 복잡하게 구성돼 있다는 것이다. 의료진이 찍은 검사 영상을 분석해 당뇨망막병증과 황반부종을 진단하는 장비인 IDx-DR의 경우를 생각해보자. 미국의 FDA가 승인한 최초의 머신러닝 기반 자율 의료장비이기도 한데, 시스템에 입력된 영상의 선명도, 사용된 알고리즘의 종류, 알고리즘 학습에 사용된 데이터, 영상을 입력하는 의료진이 적절한 교육을 받았는지 등 다양한 요소에 따라 정확도가 달라질 수 있다. 이토록 많은 변수가 복잡하게 얽혀 있기 때문에, 아무런 오류도 발생하지 않을 거라 기대하는 것은 고사하고, 오류가 발생했는지, 발생했다면 왜 발생했는지를 파악하는 것도 어려운 것이다.

하지만, 꼭 알고리즘이 잘못된 판단을 내리지 않더라도 머신러닝으로 인해 발생하는 리스크가 더 있는데, 바로 제3자 리스크와 도덕적 리스크다.

아티클을 끝까지 보시려면
유료 멤버십에 가입하세요.
첫 달은 무료입니다!

관련 매거진

(03187) 서울시 종로구 청계천로 1 동아일보사빌딩 9층 (주)동아일보사
대표자: 김재호 | 등록번호: 종로라00434 | 등록일자: 2014.01.16 | 사업자 등록번호: 102-81-03525
(03737) 서울시 서대문구 충정로 29 동아일보사빌딩 8층 (주)디유넷(온라인비즈니스)
대표이사: 김승환, 김평국 | 통신판매신고번호: 제 서대문 1,096호 | 사업자 등록번호: 110-81-47558