전통적인 생존분석(Cox 모형)의 한계를 넘어, 머신러닝을 결합한 ‘랜덤 서바이벌 포레스트’와 같은 기법을 통해 고객의 이탈 ‘시기’와 ‘위험도’를 더 정확하고 동적으로 예측하는 고도화된 방법론을 제시한다.
논문 요약
- 논문 제목: 머신러닝 기반 생존분석기법을 활용한 고객 이탈 예측 기술
- 저자: 서영정
- 게재 학술지: 디지털콘텐츠학회논문지
- 발행 연도: 2023
- 핵심 요약: 고객의 이탈 시점을 예측하는 생존분석에 머신러닝을 결합한 방법론을 제안했다. 특히, 전통적인 통계 모델인 Cox 비례위험 모델의 한계를 지적하고, 비선형적이고 복잡한 데이터 패턴을 더 잘 학습할 수 있는 ‘랜덤 서바이벌 포레스트’와 같은 머신러닝 기반 생존분석 모델의 우수성을 비교 검증했다. 이를 통해 시간에 따른 고객의 이탈 위험도를 더 정확하고 동적으로 예측할 수 있는 기술적 방안을 제시했다.
연구 배경
고객의 이탈을 예측하는 것은 마치 날씨를 예측하는 것과 같다. ‘비가 올 것이다’라고 예측하는 것을 넘어, ‘몇 시부터 몇 시간 동안, 시간당 몇 mm의 비가 올 확률이 몇 %’라고 예측할 수 있을 때, 우리는 비로소 제대로 된 우산을 준비할 수 있다. 이 연구는 머신러닝이라는 더 정교한 기상 관측 장비로 고객의 이탈 시점을 예측하고자 한다.
CRM 분야에서 **생존 분석(Survival Analysis)**은 ‘고객이 언제 이탈할 것인가’라는 시간적 차원의 예측을 가능하게 하는 강력한 도구이다. 이 분야에서 가장 널리 사용되는 전통적인 통계 모델은 **콕스 비례위험 모형(Cox Proportional Hazards Model, 이하 Cox 모형)**이다. Cox 모형은 특정 변수(예: 요금 수준, 서비스 사용량)가 고객의 이탈 ‘위험’에 얼마나 영향을 미치는지를 분석하는 데 매우 유용하다.
하지만 Cox 모형은 한 가지 강력하지만 까다로운 가정, 즉 **’비례 위험 가정(Proportional Hazards Assumption)’**을 전제로 한다. 이는 어떤 변수의 영향력이 시간이 지나도 일정하게 유지된다는 가정이다. 예를 들어, ‘높은 요금제’가 이탈 위험을 2배 높인다면, 그 효과가 고객의 가입 첫 달이든, 1년 후든 항상 2배로 동일해야 한다는 것이다. 그러나 현실 세계의 고객 행동은 이보다 훨씬 복잡하다. 높은 요금제는 초기에만 부담스럽고, 시간이 지나면 그 영향이 줄어들 수도 있다.
이러한 전통적 통계 모델의 한계를 극복하기 위해, 최근에는 머신러닝과 생존분석을 결합하려는 시도가 활발히 이루어지고 있다. 본 연구에서 핵심적으로 다루는 **랜덤 서바이벌 포레스트(Random Survival Forest, RSF)**는 그 대표적인 예이다. RSF는 결정 트리의 앙상블 모델인 랜덤포레스트를 생존 데이터에 맞게 변형한 것이다. RSF는 비례 위험과 같은 엄격한 통계적 가정 없이, 데이터로부터 직접 복잡하고 비선형적인 패턴을 학습하여 각 고객의 생존 확률을 예측할 수 있다는 강력한 장점을 가진다.
해결하려는 문제
전통적인 생존분석 모델의 엄격한 통계적 가정을 완화하고, 복잡한 고객 데이터에 내재된 비선형적 패턴까지 학습하여, 시간에 따른 이탈 위험을 더욱 정확하게 예측하는 고도화된 모델을 개발한다.
Cox 모형과 같은 전통적인 생존분석 모델은 그 해석이 명확하고 통계적 기반이 탄탄하지만, 현실 세계의 복잡한 데이터를 모델링하는 데는 몇 가지 어려움이 있다.
- 비례 위험 가정의 제약: 앞서 언급했듯, 변수의 영향력이 시간에 따라 변하는 현실을 제대로 반영하지 못할 수 있다.
- 비선형 관계 처리의 어려움: 예를 들어, 서비스 사용량이 ‘적당한’ 수준일 때 이탈 위험이 가장 낮고, 너무 적거나 너무 많으면 오히려 이탈 위험이 높아지는 ‘U’자 형태의 비선형 관계를 모델링하기 어렵다.
- 복잡한 상호작용 효과: ’20대 남성’ 고객에게는 ‘데이터 사용량’이 중요하지만, ’50대 여성’ 고객에게는 ‘고객센터 통화 만족도’가 더 중요한 것처럼, 변수들의 영향력이 다른 변수의 값에 따라 달라지는 복잡한 상호작용을 모두 수동으로 지정해주기 어렵다.
이 연구가 해결하고자 하는 문제는 바로 이러한 전통적 모델의 한계를 머신러닝으로 극복하는 것이다. 통계적 가정에 얽매이지 않고, 데이터가 가진 패턴을 있는 그대로 학습하여 더 유연하고 정확한 이탈 시점 예측 모델을 개발하는 것을 목표로 한다.
연구 모형
렌탈 고객 데이터를 사용하여, 전통적인 Cox 비례위험 모델과 머신러닝 기반의 랜덤 서바이벌 포레스트 모델을 각각 구축하고, C-Index와 같은 평가지표를 통해 두 모델의 이탈 시점 예측 성능을 비교 분석한다.
본 연구는 새로운 방법론의 우수성을 입증하기 위해, 동일한 데이터셋에 두 가지 다른 생존분석 모델을 적용하고 그 성능을 직접적으로 비교하는 경쟁 모델 평가(Competing Model Evaluation) 프레임워크를 사용했다.
- 데이터 준비: 렌탈 서비스 고객의 계약 정보, 인구통계 정보, 이용 행태 데이터를 수집한다. 각 고객별로 ‘계약 유지 기간(시간, Time)’과 ‘계약 해지 여부(이벤트, Event)’를 정의한다.
- 모델 1 구축 (전통적 접근): 수집된 데이터를 사용하여 Cox 비례위험 모델을 구축한다. 이 모델은 각 변수가 이탈 위험에 미치는 평균적인 영향력을 나타내는 위험 비율(Hazard Ratio)을 추정한다.
- 모델 2 구축 (머신러닝 접근): 동일한 데이터를 사용하여 랜덤 서바이벌 포레스트(RSF) 모델을 학습시킨다. RSF 모델은 각 고객의 데이터(공변량)를 입력받아, 해당 고객 개인의 시간에 따른 생존 확률 곡선을 직접 예측한다.
- 성능 비교: 두 모델의 예측 성능을 **C-Index(Concordance Index)**라는 평가지표를 사용하여 비교한다. C-Index는 모델이 임의의 두 고객을 뽑았을 때, 실제로 더 오래 생존한 고객에게 더 높은 생존 확률을 부여하는지를 측정하는 지표로, 0.5에서 1 사이의 값을 가진다. 1에 가까울수록 모델의 예측력이 더 뛰어나다는 것을 의미한다.
데이터 설명
특정 렌탈 서비스 기업의 고객 계약 및 이용 데이터를 활용했으며, 고객의 계약 조건, 상품 정보, 인구통계 정보 등을 포함하는 오프체인(Off-chain) 데이터이다.
- 출처: 논문에 구체적인 출처는 명시되지 않았으나, 정수기, 안마의자, 자동차 등 특정 렌탈 서비스 기업의 내부 고객 데이터를 활용한 것으로 보인다. 이는 고객과의 계약 관계를 기반으로 하는 오프체인(Off-chain) 데이터이다.
- 수집 방법: 기업 내부의 CRM 또는 계약 관리 시스템에서 특정 기간 동안의 고객 데이터를 추출했을 것으로 추정된다.
- 데이터 변수 설명: 생존분석을 위해 데이터는 ‘시간’, ‘사건’, 그리고 ‘공변량’으로 구조화된다.
- 생존 분석 핵심 변수:
Tenure
(계약 유지 기간): 고객의 계약 시작일부터 관찰 종료일 또는 계약 해지일까지의 기간. 생존 분석의 ‘시간(Time)’ 변수에 해당한다.Churn_Status
(계약 해지 여부): 관찰 기간 내에 고객이 계약을 해지했는지 여부. 생존 분석의 ‘사건(Event)’ 발생 여부를 나타낸다 (해지=1, 유지=0).
- 예측 모델을 위한 공변량 (Covariates): 고객의 이탈 위험에 영향을 미칠 것으로 예상되는 모든 설명 변수.
- 계약 정보:
월 렌탈료
,계약 총 기간
,렌탈 상품 종류
,프로모션 적용 여부
. - 고객 프로필:
연령
,성별
,거주 지역
. - 서비스 이용 정보:
AS 접수 횟수
,연체 기록
.
- 계약 정보:
- 생존 분석 핵심 변수:
데이터 분석
Cox 비례위험 모델과 랜덤 서바이벌 포레스트 모델을 동일한 데이터로 학습시키고 C-Index로 성능을 비교한 결과, 랜덤 서바이벌 포레스트가 더 높은 예측 정확도를 보였다.
본 연구의 데이터 분석은 두 경쟁 모델을 공정하게 평가하는 데 집중되었다. 동일한 학습 데이터셋을 사용하여 Cox 모형과 랜덤 서바이벌 포레스트(RSF) 모형을 각각 구축했다.
이후, 학습에 사용되지 않은 별도의 테스트 데이터셋을 사용하여 각 모델의 예측 성능을 평가했다. 평가 지표로는 생존분석 모델의 예측력을 평가하는 표준 지표인 C-Index가 사용되었다. C-Index는 모델이 얼마나 순서를 잘 맞추는지를 측정하는 것으로, 예를 들어 실제로는 A고객이 B고객보다 더 오래 계약을 유지했을 때, 모델 역시 A고객의 예상 생존 기간을 B고객보다 더 길게 예측할 확률을 의미한다.
분석 결과, 랜덤 서바이벌 포레스트 모델의 C-Index 값이 전통적인 Cox 모델의 C-Index 값보다 통계적으로 유의미하게 높게 나타났다. 이는 RSF 모델이 고객의 이탈 시점을 더 정확하게 예측했음을 의미하며, 복잡한 고객 데이터에 내재된 비선형적 패턴과 변수 간 상호작용을 더 효과적으로 학습했음을 시사한다.
핵심 결과
머신러닝 기반의 랜덤 서바이벌 포레스트 모델은 전통적인 Cox 모델보다 고객의 이탈 시점을 더 정확하게 예측했으며, 이는 복잡한 데이터의 비선형적 관계를 더 잘 학습하기 때문이다.
본 연구의 가장 중요한 결과는, 고객 이탈 시점 예측이라는 과제에 있어 머신러닝 기반 생존분석 모델의 실증적 우수성을 입증했다는 점이다.
전통적인 Cox 모델이 통계적 가정의 제약으로 인해 파악하지 못했던 데이터의 복잡한 패턴을, 랜덤 서바이벌 포레스트(RSF)는 수많은 결정 트리의 앙상블을 통해 유연하게 학습했다. RSF는 각 변수의 영향력이 시간에 따라 변하거나, 여러 변수들이 복합적으로 작용하여 이탈 위험에 영향을 미치는 상황을 효과적으로 모델링할 수 있었다.
이 결과는 생존분석 분야에서도 머신러닝 기법이 전통적인 통계 모델을 보완하거나, 경우에 따라서는 능가하는 강력한 대안이 될 수 있음을 명확히 보여준다. 특히, 데이터의 양이 방대하고 변수 간의 관계가 복잡한 현대의 비즈니스 환경에서는 RSF와 같은 머신러닝 접근법의 효용이 더욱 클 것으로 기대된다.
시사점
고객 이탈 예측은 ‘이탈 여부(Classification)’를 넘어 ‘이탈 시점(Survival)’을 예측하는 방향으로 진화해야 하며, 머신러닝 기반 생존분석은 이를 위한 가장 강력하고 유연한 도구이다.
이 연구는 고객 이탈을 관리하고 예측하려는 기업들에게 다음과 같은 중요한 실무적, 기술적 시사점을 제공한다.
첫째, 분석의 목표를 고도화해야 한다. 단순히 ‘이탈 고위험군’을 분류하는 것을 넘어, ‘향후 3개월 내 이탈 확률이 80%인 고객’을 식별하는 것처럼, 시간적 차원을 포함한 동적인 예측으로 나아가야 한다. 이는 한정된 마케팅 자원을 ‘언제, 누구에게’ 집중해야 할지에 대한 명확한 답을 제공하여 ROI를 극대화한다.
둘째, 최신 분석 도구를 적극적으로 도입해야 한다. 랜덤 서바이벌 포레스트를 비롯한 다양한 머신러닝 기반 생존분석 모델들은 오픈소스 라이브러리(Python의 scikit-survival
등)를 통해 비교적 쉽게 구현할 수 있다. 기업들은 이러한 최신 기술을 적극적으로 탐색하고 내재화하여, 경쟁사보다 한발 앞선 데이터 기반 의사결정 역량을 확보해야 한다.
인사이트
고객의 ‘이탈 시계’를 읽어, 시간이 다 되기 전에 관계를 구하라.
이 연구는 고객 관계 관리의 패러다임을 ‘사후 대응’에서 **’사전 예방’**으로, 더 나아가 **’정밀 개입’**으로 전환시키는 강력한 방법론을 제시한다. 모든 고객은 저마다 다른 속도로 흐르는 ‘이탈 시계’를 가지고 있다. 머신러닝 생존분석은 바로 그 시계의 시간을 읽어내고, 알람이 울리기 전에 최적의 행동을 취할 수 있게 돕는 기술이다.
- 페르소나 예시: “유동성 파머, 제인(Jane)”
- 특징: 제인은 특정 DeFi 프로토콜의 유동성 풀(LP)에 자금을 예치하여 이자 농사를 짓고 있다. 그녀는 프로토콜의 APY(연간수익률) 변화에 매우 민감하다. APY가 특정 임계치 이하로 떨어지면, 그녀는 자금을 인출하여 더 높은 수익률을 제공하는 다른 경쟁 프로토콜로 이동할 **위험(Hazard)**이 급격히 증가한다.
- 데이터 기반 행동 추정: 주기적으로 보상을 수령(Claim)하며, APY가 높은 여러 프로토콜에 자산을 분산 예치하고, 시장 상황에 따라 자금을 빠르게 이동시키는 패턴.
- 실질적인 마케팅 액션 제안:
- 개인화된 이탈 위험도 대시보드 구축: 머신러닝 생존분석 모델을 통해, ‘제인’과 같은 주요 유동성 공급자들의 개별 생존 곡선과 현재 이탈 위험도 점수를 실시간으로 모니터링하는 내부 대시보드를 구축한다. 이 대시보드는 “제인의 예상 활동 유지 기간은 45일이며, 현재 30일 경과, 이탈 위험도 65%”와 같은 정보를 보여준다.
- 이탈 위험도 기반 선제적 개입(Proactive Intervention): 제인의 이탈 위험도 점수가 특정 임계치(예: 70%)를 넘어서면, 시스템이 자동으로 그녀에게만 “지금부터 1개월간 추가 예치 시, 거버넌스 토큰 5% 추가 보너스” 와 같은 타겟팅된 리텐션 인센티브를 제공하는 ‘자동화된 CRM’을 실행한다.
- 동적 리소스 관리 및 리스크 헤징: 생존분석 모델을 통해 ‘단기 이탈이 예상되는 핫머니(Hot Money) 유동성’과 ‘장기 유지가 예상되는 스테이블(Stable) 유동성’을 구분한다. 이를 통해 프로토콜은 단기 유동성 변동에 대비한 리스크 관리를 강화하고, 장기 유동성 공급자에게는 더 많은 거버넌스 권한을 부여하는 등 차별화된 전략을 구사하여 프로토콜의 안정성을 높인다.