헤더 바로가기 메뉴 바로가기 푸터 바로가기
데이터 사이언스

비정형 데이터의 품질을 개선하라

디지털
2025. 7. 7.
May25_28_RocioEgio

많은 기업에서 생성형 AI의 최대 가치는 거대언어모델(LLM)의 뛰어난 언어 처리 능력, 추론능력, 범용 지식과 자사의 고유 콘텐츠를 결합하는 데 있다고 결론을 내렸다. 이러한 가치의 결합은 전사 차원의 생성형 AI 애플리케이션, 즉, 고객 서비스, 마케팅, 법무, 소프트웨어 개발 등의 핵심 업무 영역은 물론, 고객용 제품 및 서비스 제공에 필수적이다.

가장 일반적으로 기업 고유의 콘텐츠를 통합하는 접근 방식은 ‘검색 증강 생성retrieval augmented generation, RAG’이다. RAG는 데이터베이스와 같은 전통적인 정보 검색 도구와 LLM이 검색한 정보를 결합하는 것이다. 이유는 명확하다. 프롬프트에 방대한 양의 콘텐츠를 한 번에 삽입하는 것은 기술적으로 어렵거나 비용이 많이 들기 때문이다. 기술적으로 복잡하긴 하지만 RAG 접근 방식은 실행 가능성이 상당히 높다. 특히, RAG에 사용되는 비정형 데이터의 품질이 높다면 사용자가 입력한 프롬프트에 대한 정확한 응답을 출력할 수 있다. 즉, ‘비정형 데이터의 품질’이 바로 핵심이다. 그런데 비정형 데이터는 쓸모없거나, 중복되거나, 부정확하거나, 구조화되지 않은 경우가 많다.

대부분의 기업들은 일상적인 비즈니스 처리와 성과 분석에 활용하는 정형 데이터 품질조차 제대로 관리하지 못하고 있다. 비정형 데이터는 그보다 훨씬 다루기 어렵다. 비정형 데이터를 다루려는 기업들의 진지한 시도는 지식 관리가 유행하던 1990년대와 2000년대까지 거슬러 올라간다. 하지만 대부분의 시도는 실패로 돌아갔다. 설문조사에 따르면 대부분의 리더는 생성형 AI 도입 이전까지는 비정형 데이터에 크게 집중하지 않았고, 저품질 데이터가 생성형 AI 성과에 장애가 된다는 사실을 알고 있다고 응답했다.

물론 데이터 품질 문제를 해결하는 가장 좋은 방법은 문제를 사전에 예방하는 것이다. 장기적으로 AI 도입을 진지하게 고려하는 기업이라면 이를 위한 프로그램을 개발해야 한다. 예를 들어 문서를 작성하는 사람들은 문서의 품질을 평가하고, 주요 항목에 태그를 지정하는 방법을 배워야 한다. 하지만 이는 상당한 노력이 필요한 일이며, 단기적으로는 기업에 큰 도움이 되지 않는다. 기업이 생성형 AI를 통해 가치를 창출하려면 고품질의 비정형 데이터를 활용해서 RAG 애플리케이션을 구축해야 한다. 이 아티클에서는 비정형 데이터를 다룰 때 발생하는 주요 문제점과 이를 해결하기 위한 인간 및 기술 중심 접근 방식을 요약해서 제시하고자 한다.

아티클을 끝까지 보시려면
유료 멤버십에 가입하세요.
첫 달은 무료입니다!

최신 매거진

(03187) 서울시 종로구 청계천로 1 동아일보사빌딩 (주)동아일보사
대표자: 김재호 | 등록번호: 종로라00434 | 등록일자: 2014.01.16 | 사업자 등록번호: 102-81-03525
(03737) 서울시 서대문구 충정로 29 동아일보사빌딩 15층 (주)동아미디어엔(온라인비즈니스)
대표이사: 김승환 | 통신판매신고번호: 제 서대문 1,096호 | 사업자 등록번호: 110-81-47558