이커머스 고객의 이탈을 예측하는 머신러닝 모델을 구축하고, XAI 기법인 SHAP을 활용하여 ‘왜’ 특정 고객이 이탈하는지를 설명함으로써 예측 모델의 신뢰성과 비즈니스 활용성을 높이는 방법을 제시한다.
논문 요약
- 논문 제목: XAI 기법을 활용한 고객 이탈 예측의 영향 요인 분석
- 저자: 김민지
- 게재 학술지: 고려대학교 대학원 (석사학위논문)
- 발행 연도: 2023
- 핵심 요약: XGBoost와 같은 고성능 머신러닝 모델을 사용하여 이커머스 고객의 이탈을 예측하고, 설명가능 AI(XAI) 기법인 SHAP을 적용하여 예측 결과에 영향을 미친 주요 요인(예: 최근 접속일, 구매 빈도)을 개인별로 시각화하고 해석하는 방법론을 제시했다.
연구 배경
기업의 생존에 필수적인 고객 관계 관리(CRM)에서, ‘어떤 고객이 떠날 것인가’를 예측하는 것을 넘어 ‘왜 떠나려 하는가’를 이해하는 것은 비즈니스 전략의 성패를 가르는 핵심 과제가 되었다.
**고객 이탈 예측(Customer Churn Prediction)**은 마케팅 분야의 고전적이면서도 매우 중요한 문제이다. 신규 고객을 유치하는 비용보다 기존 고객을 유지하는 비용이 훨씬 저렴하기 때문에, 기업들은 이탈 가능성이 높은 고객을 미리 식별하여 선제적인 조치를 취하고자 한다. 이를 위해 과거 고객들의 행동 데이터를 바탕으로 미래의 이탈 여부를 예측하는 다양한 머신러닝 모델(예: 로지스틱 회귀, 랜덤 포레스트, XGBoost)이 개발되어 왔다.
그러나 XGBoost나 딥러닝과 같은 최신 모델들은 높은 예측 정확도를 보이는 반면, 그 내부 작동 방식이 매우 복잡하여 **’블랙박스(Black Box)’**라는 한계를 가진다. 즉, 모델이 “A 고객은 이탈할 것이다”라고 예측하더라도, ‘왜’ 그렇게 예측했는지에 대한 구체적인 이유를 설명해주지 못한다. 이러한 설명의 부재는 비즈니스 현업 담당자들이 모델의 예측을 신뢰하고 이를 바탕으로 구체적인 마케팅 액션을 수립하는 데 큰 장벽이 된다.
이러한 문제를 해결하기 위해 등장한 분야가 바로 **설명가능 인공지능(eXplainable AI, XAI)**이다. XAI는 인공지능 모델의 예측 결과를 사람이 이해할 수 있는 방식으로 설명하는 것을 목표로 한다. 본 연구에서 핵심적으로 사용하는 **SHAP(SHapley Additive exPlanations)**은 게임 이론에 기반을 둔 대표적인 XAI 기법으로, 각 변수(Feature)가 특정 예측 결과에 얼마나 긍정적 또는 부정적인 영향을 미쳤는지를 정량적으로 측정하여 명확하게 보여준다.
해결하려는 문제
머신러닝 기반 고객 이탈 예측의 ‘정확도’를 넘어, 예측 결과를 비즈니스 담당자가 신뢰하고 실제 행동으로 옮길 수 있도록 ‘설명가능성’과 ‘해석가능성’을 확보한다.
기존의 고객 이탈 연구들은 주로 예측 모델의 성능, 즉 ‘얼마나 정확하게 이탈 고객을 맞추는가’에 초점을 맞춰왔다. 하지만 마케팅 실무에서는 “이탈 예측 정확도 90%”라는 숫자보다 “A 고객은 최근 방문일이 너무 오래되었기 때문에 이탈 위험이 높습니다”라는 구체적인 설명이 훨씬 더 가치 있다. 구체적인 원인을 알아야 그에 맞는 맞춤형 해결책(예: ‘오랜만이에요’ 할인 쿠폰 발송)을 제시할 수 있기 때문이다.
이 연구는 바로 이 지점에서 출발한다. 단순히 높은 성능의 ‘블랙박스’ 이탈 예측 모델을 만드는 것에 그치지 않고, SHAP이라는 XAI 기법을 적용하여 모델의 예측 근거를 투명하게 밝히는 것을 목표로 한다. 이를 통해 다음과 같은 질문에 답하고자 한다.
- 어떤 요인들이 고객 이탈에 전반적으로 가장 큰 영향을 미치는가?
- 개별 고객 한 명 한 명에 대해, 이탈 예측에 긍정적/부정적으로 작용한 요인은 각각 무엇인가?
궁극적으로 이 연구는 예측 모델의 결과를 단순한 숫자가 아닌, 비즈니스 의사결정에 즉시 활용할 수 있는 ‘실행 가능한 인사이트(Actionable Insight)’로 전환시키는 것을 목표로 한다.
연구 모형
이커머스 고객 데이터를 전처리하여 이탈 예측 모델(XGBoost)을 학습시키고, 학습된 모델에 SHAP 기법을 적용하여 개별 예측과 전체 모델에 대한 주요 영향 요인을 분석 및 시각화한다.
본 연구는 고객 이탈 예측과 그 원인 규명을 위해 다음과 같은 체계적인 분석 프레임워크를 구축했다.
- 데이터 수집 및 특징 공학(Feature Engineering): 이커머스 플랫폼의 온라인 거래 데이터를 수집한다. 고객별로 이탈 여부(Churn Label)를 정의하고, RFM(Recency, Frequency, Monetary) 지표를 포함한 다양한 분석 변수들을 생성한다.
- 이탈 예측 모델링(Churn Prediction Modeling): 전처리된 데이터를 사용하여 여러 머신러닝 분류 모델(로지스틱 회귀, 랜덤 포레스트, XGBoost 등)을 학습시킨다. 교차 검증을 통해 성능을 평가하고, 가장 예측 정확도가 높은 모델을 최종 모델로 선정한다.
- XAI 기반 영향 요인 분석(Factor Analysis using XAI): 최종 선정된 예측 모델(예: XGBoost)에 SHAP 라이브러리를 적용한다.
- 전역적 해석(Global Interpretation): SHAP Summary Plot을 사용하여 모델 전체적으로 어떤 변수가 이탈 예측에 가장 중요한 영향을 미치는지 분석한다. (예: ‘최근성’이 가장 중요한 변수)
- 지역적 해석(Local Interpretation): SHAP Force Plot 등을 사용하여 특정 고객 한 명의 이탈 예측치가 어떤 변수들의 상호작용으로 인해 결정되었는지 시각적으로 분석하고 해석한다.
- 결과 해석 및 전략적 시사점 도출: SHAP 분석 결과를 바탕으로 고객 이탈의 핵심 동인을 파악하고, 이를 방지하기 위한 구체적인 CRM 전략을 제안한다.
데이터 설명
영국의 온라인 리테일 스토어에서 수집된 약 54만 건의 거래 데이터를 활용했으며, 이는 고객의 구매 행동 및 특성을 담은 오프체인(Off-chain) 데이터에 해당한다.
- 출처: 본 연구는 UCI 머신러닝 저장소(UCI Machine Learning Repository)에 공개된 **’Online Retail Data Set’**을 사용했다. 이는 2010년 12월부터 2011년 12월까지 영국 기반의 온라인 소매업체에서 발생한 실제 거래 기록이다. 데이터의 성격은 **오프체인(Off-chain)**에 해당한다.
- 수집 방법: 공개된 표준 데이터셋을 다운로드하여 연구에 활용했다.
- 데이터 변수 설명: 원본 데이터는 개별 거래 기록으로 구성되어 있으며, 연구 목적에 맞게 고객 단위의 분석 변수로 가공(특징 공학)되었다. 변수들은 다음과 같이 구조화할 수 있다.
- 원본 거래 데이터 속성
CustomerID
: 고객 고유 IDInvoiceNo
,StockCode
,Description
: 거래 및 상품 정보Quantity
,UnitPrice
,InvoiceDate
: 수량, 단가, 거래 일시
- 파생된 고객 행동 변수 (RFM 및 기타)
- Recency (최근성): 마지막 구매일로부터 경과 시간. 고객의 현재 활성 상태를 나타내는 핵심 지표이다.
- Frequency (빈도): 특정 기간 동안의 총 구매 횟수. 고객의 충성도를 나타낸다.
- Monetary (금액): 특정 기간 동안의 총 구매 금액. 고객의 구매력을 나타낸다.
AvgOrderValue
: 평균 주문 금액.VisitFrequency
: 총 방문(거래) 횟수.Churn
: 특정 기간(예: 6개월) 동안 구매가 없어 이탈했다고 정의된 이진 변수 (0 또는 1).
- 원본 거래 데이터 속성
데이터 분석
다양한 머신러닝 모델의 이탈 예측 성능을 비교하여 최적 모델로 XGBoost를 선정하고, SHAP을 적용하여 ‘최근성(Recency)’과 ‘방문 빈도’가 이탈에 가장 큰 영향을 미치는 요인임을 전역적, 지역적으로 규명했다.
본 연구의 데이터 분석은 ‘예측’과 ‘설명’이라는 두 가지 축으로 진행되었다.
예측 모델링 단계에서는 로지스틱 회귀, 랜덤 포레스트, XGBoost 등 다양한 알고리즘을 사용하여 고객 이탈을 예측하고 그 성능을 비교했다. 평가 결과, 그래디언트 부스팅 계열의 앙상블 모델인 XGBoost가 가장 높은 예측 정확도(Accuracy)와 F1 점수(F1-Score)를 기록하여 최종 모델로 채택되었다.
설명 단계에서는 이 최적 모델인 XGBoost에 SHAP 기법을 적용하여 ‘블랙박스’를 열었다.
- 전역적 분석 (Global Analysis): SHAP Summary Plot을 통해 모든 고객을 종합했을 때, **’Recency'(최근성)**가 고객 이탈을 예측하는 데 가장 압도적으로 중요한 변수임을 확인했다. 즉, 고객이 마지막으로 언제 구매했는지가 앞으로의 이탈 여부를 결정하는 가장 강력한 신호였다. 그 뒤를 이어 ‘Frequency'(빈도)와 ‘Monetary'(금액) 순으로 중요도가 나타났다.
- 지역적 분석 (Local Analysis): 개별 고객 데이터에 대한 SHAP Force Plot을 분석했다. 예를 들어, 이탈 고객 A의 경우, Recency 값이 큰 것(오래전에 구매함)이 이탈 확률을 높이는 가장 큰 요인으로 작용했음을 시각적으로 확인할 수 있었다. 반면, 비이탈 고객 B의 경우, Recency 값이 작은 것(최근에 구매함)과 Frequency 값이 큰 것(자주 구매함)이 이탈 확률을 낮추는(유지시키는) 핵심 요인으로 작용했음을 명확히 파악할 수 있었다.
핵심 결과
XGBoost 모델이 가장 높은 이탈 예측 성능을 보였으며, SHAP 분석 결과 고객의 최근 구매일(Recency)이 이탈 여부를 결정하는 가장 중요한 변수임이 밝혀졌다.
본 연구의 핵심 결과는 두 가지로 요약된다. 첫째, 여러 머신러닝 모델 중 XGBoost가 이커머스 고객 이탈 예측에 가장 적합한 모델임을 실험적으로 검증했다.
둘째, 그리고 더 중요하게, SHAP 분석을 통해 ‘왜’ 고객이 이탈하는지에 대한 명확하고 데이터에 기반한 답변을 제시했다. 분석 결과, 고객의 충성도나 과거의 총 구매액보다 ‘최근에 우리 서비스를 이용했는가’를 나타내는 ‘Recency’가 이탈의 가장 결정적인 예측 변수였다. 오랫동안 방문하지 않은 고객은 과거에 아무리 많은 돈을 썼던 VIP 고객이라 할지라도 이탈 위험이 매우 높다는 것을 의미한다. 이는 기업이 한정된 마케팅 자원을 어디에 집중해야 하는지에 대한 명확한 방향을 제시한다. SHAP은 이러한 전역적인 인사이트뿐만 아니라, 특정 고객이 왜 이탈 위험군으로 분류되었는지를 개별적으로 설명함으로써, 정교한 개인화 마케팅의 근거를 마련했다.
시사점
예측 모델의 ‘결과’만큼이나 ‘근거’를 제시하는 설명가능성(XAI)은 모델의 신뢰도를 높이고, 마케터가 데이터 기반의 정교한 CRM 액션을 실행하게 하는 핵심적인 다리 역할을 한다.
이 논문은 AI를 비즈니스에 적용하려는 실무자들에게 매우 중요한 시사점을 던져준다.
첫째, 성공적인 AI 도입은 ‘설명가능성’에 달려있다. 아무리 성능이 좋은 모델이라도 그 결과를 현업 담당자가 신뢰하고 이해할 수 없다면 실제 업무에 활용되기 어렵다. XAI는 모델 개발자와 비즈니스 실무자 사이의 간극을 메우고, 데이터 기반 의사결정 문화를 조직에 정착시키는 데 필수적인 요소이다.
둘째, XAI는 ‘평균적인’ 분석을 넘어 ‘초개인화’ 마케팅을 가능하게 한다. 전체 고객에게 ‘Recency’가 가장 중요하다고 말하는 것을 넘어, A 고객에게는 ‘Recency’가, B 고객에게는 ‘낮은 구매 빈도’가, C 고객에게는 ‘평균 구매 단가 하락’이 이탈의 핵심 신호임을 개별적으로 알려줄 수 있다. 이는 모든 고객에게 동일한 쿠폰을 보내는 방식에서 벗어나, 각 고객의 이탈 원인에 맞는 맞춤형 리텐션(retention) 전략을 수립할 수 있게 한다.
인사이트
‘누가’ 이탈할지 예측하는 것을 넘어, ‘왜’ 이탈하는지 설명하여 이탈의 ‘순간’을 기회의 ‘순간’으로 바꿔라.
이 논문은 ‘예측’의 최종 목표가 ‘통제’와 ‘개선’에 있음을 상기시킨다. 고객의 이탈을 예측하는 이유는 그저 지켜보기 위함이 아니라, 이탈을 막고 관계를 회복할 기회를 포착하기 위함이다. XAI는 바로 그 기회의 순간에 우리가 어떤 행동을 취해야 하는지에 대한 ‘사용 설명서’를 제공한다.
- 고객 페르소나 예시: “침묵하는 고래(Silent Whale), 블록체인벤처스”
- 특징: ‘블록체인벤처스’는 과거에 수백만 달러 규모의 USDC 거래를 여러 번 일으켰던 기관 투자자 지갑이다. 과거 거래액(Monetary) 기준으로는 최상위 VIP 고객이다. 하지만 최근 3개월간 아무런 유의미한 활동(Recency)이 없다. 이들은 높은 가치를 지녔지만 현재는 활동이 없는, 전형적인 ‘이탈 위험 고래’ 고객이다.
- 데이터 기반 행동: 높은
Monetary
, 높은AvgOrderValue
, 하지만 매우 낮은Recency
와Frequency
.
- 실질적인 마케팅 액션 제안:
- 개인화된 리텐션 오퍼(Personalized Retention Offer): SHAP 분석 결과, 이 지갑의 이탈 위험 점수가 ‘낮은 Recency’ 때문에 급격히 높아졌음을 확인한다. 이들에게는 일반적인 마케팅 메시지 대신, 과거의 높은 자산 규모에 기반한 맞춤형 제안(예: “귀하의 예치 자산에 대한 새로운 프라이빗 고이율 상품이 출시되었습니다.”)을 이메일이나 보안 채널을 통해 직접 전달한다.
- 선제적 원인 분석 및 해결책 제시: 이 지갑이 마지막으로 상호작용한 프로토콜이 최근 사용자에게 불리한 정책 변경을 했는지 등을 분석한다. 만약 그렇다면, “최근 변경된 OOO프로토콜의 대안으로, 더 높은 수익률을 제공하는 YYY프로토콜 활용 전략 가이드”를 제공하여 재참여를 유도한다.
- VIP 전담 채널을 통한 관계 회복: ‘고래’ 고객으로 분류된 이들에게는 일반적인 커뮤니티 채널이 아닌, VIP 전담 매니저가 배정된 텔레그램이나 디스코드 채널을 통해 특별 관리 및 지원을 제공하여 이탈을 방지하고 관계를 회복한다.