고객 세분화에 기반한 생존분석을 활용한 고객수명 예측 모델 리뷰

고객을 행동 패턴에 따라 여러 그룹으로 나눈 뒤, 각 그룹별로 생존 분석을 적용하여 고객의 예상 유지 기간과 이탈 시점을 예측하는 정교한 고객 생애 가치(LTV) 분석 방법론을 제시한다.


논문 요약

  • 논문 제목: 고객 세분화에 기반한 생존분석을 활용한 고객수명 예측 모델
  • 저자: 전희주
  • 게재 학술지: 한국데이터정보과학회지
  • 발행 연도: 2011
  • 핵심 요약: 통신사 고객 데이터를 바탕으로 고객을 세분화하고, 각 세그먼트별로 생존 분석(Survival Analysis)을 적용하여 이탈에 영향을 미치는 요인을 파악하고 예상 고객 수명을 예측했다. 이를 통해 모든 고객을 동일하게 분석하는 단일 모델보다, 세분화된 그룹별로 이탈 패턴을 예측하는 것이 더 정확하고 효과적인 CRM 전략 수립에 기여함을 보였다.

연구 배경

기업의 가장 큰 고민 중 하나인 ‘고객 이탈’ 문제를 해결하기 위해, 이 연구는 ‘누가 이탈할 것인가’를 넘어 ‘언제 이탈할 것인가’라는 질문에 답하고자 한다. 이를 위해 의학 통계 분야에서 발전한 ‘생존 분석’ 기법을 마케팅에 도입한다.

**고객 이탈 예측(Churn Prediction)**은 CRM(고객 관계 관리) 분야의 핵심 과제이다. 많은 기업들은 RFM(최근성, 빈도, 금액)과 같은 지표를 활용해 **고객 세분화(Customer Segmentation)**를 수행하고, 이탈 가능성이 높은 그룹을 찾아내 마케팅 노력을 집중한다. 하지만 일반적인 분류 모델은 ‘이 고객이 이탈할 것이다/아니다’라는 이진적인 결과만을 알려줄 뿐, ‘언제’ 이탈할 것인지에 대한 시간적 정보를 제공하지 못하는 한계가 있다.

이러한 한계를 극복하기 위해 등장한 분석 방법론이 바로 **생존 분석(Survival Analysis)**이다. 생존 분석은 원래 의학 연구에서 특정 질병의 치료 후 환자가 얼마나 오래 생존하는지를 분석하기 위해 개발된 통계 기법이다. 이 방법론의 가장 큰 특징은 중도 절단(Censored Data) 데이터를 효과적으로 다룬다는 점이다. ‘중도 절단’이란, 연구가 끝나는 시점까지 ‘사망’이나 ‘재발’과 같은 특정 **이벤트(Event)**가 발생하지 않은 경우를 의미한다. 이 환자들이 앞으로 얼마나 더 생존할지는 모르지만, 적어도 연구 기간까지는 생존했다는 정보를 버리지 않고 분석에 활용하는 것이다.

이 개념을 마케팅에 적용하면 다음과 같다.

  • 이벤트(Event): 고객의 이탈(Churn)
  • 생존 시간(Survival Time): 고객이 서비스에 가입한 후 이탈하기까지의 유지 기간(Tenure)
  • 중도 절단(Censoring): 분석 시점까지 아직 이탈하지 않고 서비스를 이용 중인 활성 고객

본 연구는 이러한 생존 분석, 특히 여러 변수(예: 요금제, 사용량)가 이탈 위험에 미치는 영향을 분석하는 **콕스 비례위험 모형(Cox Proportional Hazards Model)**을 활용하여, 고객의 이탈 시점을 예측하고 고객의 동적인 생애 가치를 측정하는 새로운 방법론을 제시한다.


해결하려는 문제

단순히 고객의 이탈 여부를 예측하는 것을 넘어, ‘언제’ 이탈할 가능성이 높은지를 동적으로 예측하고, 고객 그룹별로 상이한 생존 패턴을 분석하여 보다 정밀한 이탈 방지 전략을 수립한다.

기존의 고객 이탈 분석은 다음과 같은 두 가지 주요 한계를 가진다.

  1. 시간적 차원의 부재: 이탈 가능성이 ‘높다’고 예측된 두 고객이 있더라도, 한 명은 다음 달에, 다른 한 명은 1년 후에 이탈할 수 있다. 이탈 시점에 대한 정보가 없다면, 리텐션 마케팅 캠페인의 타이밍을 잡기가 매우 어렵다. 너무 일찍 캠페인을 시작하면 비용이 낭비되고, 너무 늦으면 이미 고객의 마음이 떠난 뒤일 수 있다.
  2. 고객 이질성 무시: 모든 고객을 하나의 모델로 분석하면, 고객 그룹별로 이탈에 영향을 미치는 요인이 다르다는 점을 간과하게 된다. 예를 들어, 젊은 층 고객은 ‘데이터 제공량’에 민감하게 반응하여 이탈을 결정할 수 있지만, 노년층 고객은 ‘음성 통화 품질’에 더 민감할 수 있다.

본 연구는 이러한 문제들을 해결하기 위해, ‘고객 세분화’와 ‘생존 분석’을 결합하는 2단계 접근법을 제안한다. 먼저 고객을 동질적인 그룹으로 나눈 뒤, 각 그룹별로 ‘언제’, ‘왜’ 이탈하는지를 분석함으로써, 그룹의 특성에 맞는 최적의 이탈 방지 전략을, 최적의 시점에 실행할 수 있는 근거를 마련하는 것을 목표로 한다.


연구 모형

전체 고객의 거래 데이터를 바탕으로 먼저 고객 세분화를 수행하고, 이후 각 세그먼트별로 독립적인 생존분석 모델(Cox 모형)을 적용하여 그룹별 이탈 위험 요인과 예상 고객 수명을 예측한다.

본 연구는 다음과 같은 2단계 분석 모형을 통해 고객의 생애와 이탈을 예측한다.

  1. 1단계: 고객 세분화 (Customer Segmentation)
    • 통신사 고객의 거래 및 이용 데이터를 수집한다.
    • RFM(Recency, Frequency, Monetary)과 같은 주요 변수를 활용하여 K-평균 군집분석 등과 같은 방법으로 전체 고객을 소수의 동질적인 세그먼트(예: 우량고객, 일반고객, 저가치고객)로 분류한다.
  2. 2단계: 세그먼트별 생존 분석 (Segment-level Survival Analysis)
    • 1단계에서 분류된 각 세그먼트에 대해 독립적인 생존 분석 모델을 각각 구축한다.
    • 콕스 비례위험 모형을 사용하여, 각 세그먼트별로 어떤 변수(예: 요금제, 데이터 사용량, 부가서비스 수)가 고객의 이탈 위험(Hazard)에 영향을 미치는지 분석한다.
    • 분석 결과를 바탕으로 각 세그먼트의 **생존 곡선(Survival Curve)**을 도출한다. 생존 곡선은 시간에 따라 해당 그룹의 고객이 이탈하지 않고 ‘생존’해 있을 확률을 보여주는 그래프이다.
    • 이를 통해 각 그룹의 평균적인 예상 고객 수명과 이탈 위험 시기를 예측한다.

이러한 2단계 접근법을 통해, “A그룹 고객은 평균 24개월을 유지하며, 데이터 사용량이 적을수록 이탈 위험이 높아진다”와 같이 매우 구체적이고 실행 가능한 분석 결과를 얻을 수 있다.


데이터 설명

국내 통신사 고객의 통화 및 서비스 이용 데이터를 활용했으며, 고객의 가입 정보, 요금제, 월별 사용량 등을 포함하는 오프체인(Off-chain) 데이터이다.

  • 출처: 논문에 구체적인 출처는 명시되지 않았으나, 국내 특정 통신사와의 협력을 통해 확보한 실제 고객 데이터로 추정된다. 이는 기업의 내부 데이터베이스에서 관리되는 오프체인(Off-chain) 데이터이다.
  • 수집 방법: 기업 내부의 CRM 또는 DW(데이터웨어하우스) 시스템에서 특정 기간 동안의 고객 데이터를 추출하여 분석에 사용했을 것이다.
  • 데이터 변수 설명: 통신사 고객 데이터의 특성을 고려할 때, 본 연구에서는 다음과 같은 변수들을 활용했을 것으로 추정된다.
    • 고객 프로필 및 계약 정보:
      • CustomerID: 고객 고유 식별자
      • JoinDate: 서비스 가입일
      • Demographics: 연령, 성별 등 인구통계 정보
      • PricePlan: 사용 중인 요금제 종류
    • 서비스 이용 행동 변수:
      • MonthlyCallDuration: 월 평균 음성 통화 시간
      • MonthlyDataUsage: 월 평균 데이터 사용량
      • NumberOfExtraServices: 사용 중인 부가서비스 개수
    • 생존 분석을 위한 핵심 변수:
      • Tenure (가입 유지 기간): 고객이 가입한 시점부터 관찰 종료 시점 또는 이탈 시점까지의 기간. 생존 분석의 ‘시간(Time)’ 변수에 해당한다.
      • ChurnStatus (이탈 여부): 관찰 기간 내에 고객이 이탈했는지 여부. 생존 분석의 ‘이벤트(Event)’ 발생 여부에 해당한다. (이탈=1, 유지=0)

데이터 분석

RFM 기반으로 고객을 세분화한 뒤, 각 그룹별로 Cox 비례위험 모델을 구축하여 생존 곡선을 그리고, 어떤 변수들이 각 그룹의 이탈 위험에 유의미한 영향을 미치는지 분석했다.

본 연구의 데이터 분석 과정은 고객을 그룹으로 나누는 **’세분화’**와, 각 그룹의 수명을 예측하는 **’생존 분석’**으로 구성된다.

분석의 첫 단계에서는 고객의 거래 데이터를 바탕으로 RFM(최근성, 빈도, 금액)과 같은 지표를 계산하고, 이를 K-평균 군집분석의 입력값으로 사용하여 고객을 여러 세그먼트로 분류했다.

다음으로, 각 세그먼트별로 **콕스 비례위험 모델(Cox Proportional Hazards Model)**을 적용하여 생존 분석을 수행했다. 이 모델은 특정 변수들이 고객의 이탈 ‘위험’을 얼마나 높이거나 낮추는지를 분석한다. 예를 들어, 분석 결과 ‘데이터 사용량’ 변수의 위험 비율(Hazard Ratio)이 0.8로 나왔다면, 이는 데이터 사용량이 1 단위 증가할 때마다 해당 고객의 이탈 위험이 20% 감소한다는 의미이다.

또한, 각 세그먼트의 **생존 함수(Survival Function)**를 추정하여 이를 **생존 곡선(Survival Curve)**으로 시각화했다. 생존 곡선은 Y축이 생존 확률, X축이 시간(가입 유지 기간)으로, 시간이 지남에 따라 고객이 이탈하지 않고 남아있을 확률이 어떻게 변하는지를 보여준다. 이 곡선의 기울기가 급격히 떨어지는 구간은 해당 그룹의 고객들이 대거 이탈하는 ‘위험 시기’임을 시사한다.


핵심 결과

고객 세그먼트별로 이탈에 영향을 미치는 요인과 예상 수명이 뚜렷한 차이를 보였으며, 이를 통해 그룹별 맞춤형 이탈 방지 전략의 필요성과 유효성을 입증했다.

본 연구의 핵심적인 분석 결과는 고객 그룹별로 생존 패턴이 매우 다르다는 것을 통계적으로 확인한 것이다. 예를 들어, 다음과 같은 결과가 도출될 수 있다.

  • 우량고객 세그먼트: 평균적인 가입 유지 기간이 길고 생존 곡선이 완만하게 하락한다. 이 그룹의 이탈 위험에 가장 큰 영향을 미치는 요인은 ‘경쟁사의 공격적인 프로모션’일 수 있다.
  • 저가치/알뜰고객 세그먼트: 평균 가입 유지 기간이 짧고, 특히 약정 기간이 끝나는 시점에 생존 곡선이 급격히 하락하는 패턴을 보인다. 이 그룹의 이탈 위험에는 ‘요금제 가격’이 가장 결정적인 영향을 미칠 수 있다.

이처럼 고객을 세분화하여 생존 분석을 적용함으로써, 모든 고객에게 동일한 잣대를 들이대는 단일 모델로는 파악할 수 없는 그룹별 특성을 명확히 이해할 수 있었다. 이는 결국 각 그룹의 특성에 맞는 차별화된 리텐션 전략을 수립하는 것이 훨씬 효과적이라는 결론으로 이어진다.


시사점

고객 관계 관리는 ‘언제’라는 시간적 차원을 고려할 때 더욱 효과적이며, 생존분석은 이탈 방지 캠페인의 최적 타이밍을 포착하고 자원을 효율적으로 배분하는 데 강력한 도구를 제공한다.

이 연구는 고객 데이터 분석에 다음과 같은 중요한 실무적 시사점을 제공한다.

첫째, 고객의 생애주기를 동적으로 관리해야 한다. 고객은 고정된 존재가 아니라, 시간이 지남에 따라 가치와 이탈 위험이 변하는 동적인 존재이다. 생존 분석은 이러한 고객의 시간적 변화를 추적하고, ‘위험 신호’가 나타나는 시점을 예측할 수 있게 해준다.

둘째, 리텐션 마케팅의 타이밍을 최적화할 수 있다. 생존 곡선 분석을 통해 특정 고객 그룹의 평균 이탈 시점을 예측할 수 있다면, 해당 시점이 오기 직전에 선제적으로 리텐션 캠페인(예: 재계약 혜택, 요금 할인)을 집중하여 효과를 극대화할 수 있다. 이는 마케팅 예산을 가장 필요한 순간에, 가장 필요한 고객에게 사용하는 자원 배분 최적화로 이어진다.


인사이트

고객의 ‘가치’를 아는 것을 넘어, 고객의 ‘시간’을 예측하라.

이 논문은 고객 데이터 분석의 차원을 한 단계 끌어올린다. 현재 고객의 상태를 보여주는 스냅샷(snapshot) 분석을 넘어, 고객의 미래를 예측하는 동영상(video) 분석으로 나아가야 함을 보여준다. ‘어떤 고객이 VIP인가’를 아는 것도 중요하지만, ‘그 VIP 고객이 언제 우리를 떠날 위험에 처하는가’를 예측할 수 있을 때, 진정한 의미의 선제적이고 능동적인 CRM이 가능해진다.

  • 고객 페르소나 예시: “단기 차익 실현 트레이더, 스캘퍼 샘”
    • 특징: 샘은 새로운 DeFi 프로토콜이 출시될 때마다 초기에 진입하여 높은 이자율의 혜택을 보다가, 수익률이 떨어지거나 더 매력적인 프로토콜이 나타나면 즉시 자금을 빼서 다른 곳으로 이동한다. 그는 LTV는 단기적으로 높을 수 있지만, 예상 생존 기간(활동 기간)이 매우 짧은 ‘고수익-단기’ 세그먼트의 전형이다.
    • 데이터 기반 행동 추정: 특정 프로토콜에 단기간 대규모 유동성을 공급했다가 회수하는 패턴을 반복. 지갑의 평균 자산 보유 기간이 매우 짧음.
  • 실질적인 마케팅 액션 제안:
    1. 동적 인센티브 조정(Dynamic Incentive Adjustment): 생존 분석을 통해 ‘스캘퍼 샘’과 같은 세그먼트의 평균 활동 기간이 2개월임을 파악한다. 이들이 이탈할 것으로 예상되는 1.5개월 시점에, ‘자금을 추가로 3개월 더 예치(락업)하면 거버넌스 토큰 보상을 2배로 제공하는’ 동적인 리텐션 프로그램을 자동으로 제안하여 이탈을 선제적으로 방지한다.
    2. 이탈 시점 기반 교차 판매(Churn-point Cross-sell): 이탈이 임박한 시점에, 이들이 과거에 관심을 보였던 다른 유형의 프로토콜(예: 고위험 이자농사 -> 안정적인 블루칩 스테이킹)을 추천하여, 자금이 생태계 밖으로 완전히 빠져나가지 않고 내부에서 순환하도록 유도한다.
    3. 세그먼트별 자원 배분 최적화: ‘단기 트레이더’ 세그먼트에는 단기적인 수익률 부스팅 캠페인에 자원을 집중하고, 생존 분석 결과 예상 활동 기간이 긴 것으로 나타난 ‘장기 가치 투자자’ 세그먼트에는 장기적인 거버넌스 권한 강화나 커뮤니티 활동 지원에 자원을 배분하여 ROI를 극대화한다.