은행 고객의 이탈 예측 모델을 구축할 때, 고객 생애 가치(LTV)를 예측 변수로 포함시키는 것이 모델의 정확도를 크게 향상시킨다는 것을 실험적으로 증명한다.
논문 요약
- 논문 제목: 머신러닝을 활용한 은행 고객 이탈 예측: LTV(고객 생애 가치)와 주요변수의 역할
- 저자: 이상민, 김용진
- 게재 학술지: 한국통신학회논문지
- 발행 연도: 2024
- 핵심 요약: 은행 고객의 이탈을 예측하는 머신러닝 모델의 성능을 높이기 위해, 고객의 장기적인 가치를 나타내는 ‘고객 생애 가치(LTV)’ 지표의 유용성을 검증했다. 고객의 기본 정보 및 거래 데이터만을 사용한 모델과, LTV를 예측 변수로 추가한 모델의 성능을 비교 분석한 결과, LTV를 포함한 모델의 예측 정확도가 유의미하게 향상됨을 보였다. 이는 LTV가 고객의 미래 이탈 행동을 예측하는 중요한 선행 지표임을 의미한다.
연구 배경
“이 고객이 우리와 얼마나 오래, 얼마나 좋은 관계를 유지해왔는가?” 이 질문에 대한 답을 담고 있는 ‘고객 생애 가치(LTV)’는 단순한 성과 지표를 넘어, 고객의 미래를 예측하는 강력한 수정 구슬이 될 수 있다.
**고객 이탈 예측(Customer Churn Prediction)**은 기업이 이탈 가능성이 높은 고객을 미리 식별하여, 관계를 회복하고 손실을 최소화하기 위한 CRM의 핵심 활동이다. 이를 위해 다양한 머신러닝 모델이 고객의 인구통계 정보, 거래 이력, 서비스 이용 패턴 등을 학습하여 미래의 이탈 여부를 예측한다.
이러한 예측 모델의 성능은 ‘어떤 데이터를, 어떻게 가공하여 사용하는가’, 즉 **특징 공학(Feature Engineering)**에 크게 좌우된다. 많은 연구들이 고객의 최근 행동을 나타내는 RFM(최근성, 빈도, 금액)과 같은 변수들을 주로 사용해왔다. 하지만 이러한 단기적인 지표만으로는 고객과 기업 간의 장기적인 관계의 깊이나 충성도를 온전히 파악하기 어렵다.
이 지점에서 고객 생애 가치(Customer Lifetime Value, LTV) 개념이 중요해진다. LTV는 한 고객이 기업과의 전체 관계 기간 동안 기여할 것으로 예상되는 총이익의 현재 가치를 의미하는, 미래지향적이고 장기적인 관점의 지표이다. 일반적으로 LTV는 마케팅 자원을 어디에 집중할지 결정하는 ‘결과물’로 활용되곤 했다.
하지만 이 연구는 관점을 바꾸어, LTV를 미래 행동을 예측하는 강력한 ‘입력 변수(Predictive Feature)’로 사용할 수 있지 않을까? 라는 가설을 세운다. 즉, 고객의 과거부터 현재까지의 관계의 총체인 LTV가, 그 고객의 미래(이탈 여부)를 예측하는 데 중요한 단서가 될 것이라는 아이디어에서 출발한다.
해결하려는 문제
고객 이탈 예측의 정확도를 높이기 위해, 고객의 단기적인 거래 행동뿐만 아니라 장기적인 가치를 함축하는 ‘고객 생애 가치(LTV)’ 지표가 유용한 예측 변수로 사용될 수 있는지를 검증한다.
기존의 고객 이탈 예측 모델들은 종종 다음과 같은 한계에 부딪힌다.
- 단기적 관점: 최근 몇 달간 거래가 없었다는 이유만으로, 과거 수년간 우량 고객이었던 사람을 ‘이탈 위험 고객’으로 잘못 분류할 수 있다.
- 정보의 파편성: 고객의 나이, 평균 거래액, 보유 상품 수 등 수십 개의 파편화된 정보를 사용하지만, 이 정보들을 종합하여 ‘그래서 이 고객이 우리에게 얼마나 중요한가?’라는 통합적인 관점을 모델에 제공하기 어렵다.
이 연구가 해결하고자 하는 문제는 바로 이 **’정보의 통합과 장기적 관점의 부재’**이다. 연구진은 LTV라는 단일 지표가 고객의 과거 행동, 현재 가치, 그리고 미래 잠재력을 모두 함축하고 있다고 보았다.
따라서 이 연구의 핵심 목표는, 이탈 예측 모델을 구축할 때, 다른 모든 변수와 더불어 ‘LTV’라는 강력한 요약 변수를 추가하는 것이 과연 모델의 예측 성능을 실질적으로 향상시키는지를 실험적으로 증명하는 것이다.
연구 모형
은행 고객 데이터로부터 LTV를 포함한 다양한 변수를 생성하고, LTV를 포함한 모델과 포함하지 않은 모델 두 가지를 각각 구축하여 이탈 예측 성능(정확도, F1-Score)을 비교 분석한다.
본 연구는 LTV 변수의 유용성을 검증하기 위해, 통제된 환경에서 두 모델의 성능을 비교하는 A/B 테스트 형식의 실험적 연구 모형을 설계했다.
- 특징 공학 및 LTV 계산:
- 은행 고객의 인구통계 정보, 거래 이력, 상품 보유 현황 등 이탈 예측에 사용될 기본적인 특징 변수(Base Features)들을 추출한다.
- 이와 별도로, 각 고객의 과거 거래 데이터와 이자율 정보 등을 활용하여 고객 생애 가치(LTV) 점수를 계산한다.
- 모델 구축 및 학습: 동일한 머신러닝 알고리즘(예: XGBoost)을 사용하여 두 가지 종류의 이탈 예측 모델을 구축한다.
- 모델 A (Baseline Model): 기본 특징 변수들만을 사용하여 고객 이탈을 예측하도록 학습시킨다.
- 모델 B (Proposed Model): 기본 특징 변수들에 더해,
1단계
에서 계산한 LTV 점수를 하나의 독립 변수로 추가하여 학습시킨다.
- 성능 비교 평가:
- 학습에 사용되지 않은 테스트 데이터셋을 사용하여 모델 A와 모델 B의 예측 성능을 비교한다.
- 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score 등 다양한 평가지표를 통해, LTV 변수 추가가 모델 성능에 얼마나 긍정적인 영향을 미쳤는지를 정량적으로 평가한다.
데이터 설명
특정 은행의 고객 데이터를 활용했으며, 고객의 인구통계 정보, 예/적금 및 대출 상품 보유 내역, 거래 이력 등을 포함하는 종합적인 오프체인(Off-chain) 데이터이다.
- 출처: 논문에 구체적인 출처는 명시되지 않았으나, 국내 특정 은행의 내부 데이터를 활용한 것으로 보인다. 이는 고객의 금융 정보를 포함하는 매우 민감한 오프체인(Off-chain) 데이터이다.
- 수집 방법: 은행 내부의 코어 뱅킹 시스템이나 CRM 데이터웨어하우스에서 고객 프로필, 계좌 정보, 거래 내역 등을 추출하여 분석용 데이터셋을 구축했을 것이다.
- 데이터 변수 설명: 본 연구의 핵심은 LTV를 변수로 사용한 것이며, 전체 변수 구조는 다음과 같이 나눌 수 있다.
- 종속 변수 (Target Variable):
이탈_여부
: 특정 기간 내에 해당 은행과의 주거래를 중단했는지 여부를 나타내는 이진 변수 (1: 이탈, 0: 유지).
- 독립 변수 (Input Features):
- 기본 특징 변수 (Base Features):
인구통계 정보
:연령
,성별
,직업
,거주 지역
.거래 패턴
:최근_거래일(Recency)
,월평균_거래_빈도(Frequency)
,평균_잔고
.상품 보유 현황
:총_예수신_금액
,총_대출_금액
,보유_상품_개수
,주거래_기간
.
- 핵심 파생 특징 변수 (Key Derived Feature):
고객생애가치(LTV)
: 각 고객의 과거 순이자마진, 거래 수수료 등 수익 기여도를 바탕으로, 예상 유지 기간과 할인율을 적용하여 계산된 미래 총이익의 현재 가치. 이 변수는 모델 B에만 추가적인 입력값으로 사용된다.
- 기본 특징 변수 (Base Features):
- 종속 변수 (Target Variable):
데이터 분석
LTV 변수를 추가한 이탈 예측 모델이 그렇지 않은 모델에 비해 정확도, F1-Score 등 모든 평가 지표에서 일관되게 더 높은 성능을 보였으며, 변수 중요도 분석에서도 LTV는 상위권을 차지했다.
본 연구의 데이터 분석은 LTV 변수의 ‘효과’를 명확히 보여주는 데 집중되었다. 연구진은 위에서 설계한 두 가지 모델(LTV 미포함 모델 vs LTV 포함 모델)을 동일한 데이터로 학습시킨 후, 그 성능을 엄격하게 비교했다.
분석 결과는 명확했다. LTV를 예측 변수로 추가한 모델 B가, 그렇지 않은 모델 A에 비해 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score 등 모든 핵심적인 성능 평가지표에서 일관되게 더 높은 점수를 기록했다. 이는 LTV 변수가 고객의 이탈 가능성을 예측하는 데 유의미하고 강력한 정보를 담고 있음을 의미한다.
또한, 모델 B의 **변수 중요도(Feature Importance)**를 분석한 결과, LTV는 다른 주요 변수들(예: 최근 거래일, 총 자산 규모)과 함께 고객 이탈을 예측하는 데 있어 가장 영향력 있는 변수 그룹에 속하는 것으로 나타났다. 이는 LTV가 단순히 다른 변수들의 정보를 중복하는 것이 아니라, 독자적이고 중요한 예측 정보를 제공함을 시사한다.
핵심 결과
고객 생애 가치(LTV)는 고객의 미래 이탈 행동을 예측하는 매우 강력한 선행 지표(Leading Indicator)이며, 이를 예측 모델의 특징으로 활용할 때 모델의 성능을 유의미하게 향상시킬 수 있다.
본 연구의 가장 중요한 결론은 LTV가 단순한 경영 관리 지표를 넘어, 정교한 예측 모델링을 위한 핵심 ‘특징(Feature)’이 될 수 있다는 것을 실험적으로 증명한 것이다.
고객의 LTV는 그 고객이 과거부터 쌓아온 로열티, 기업에 대한 신뢰, 그리고 미래의 성장 잠재력까지 함축하고 있는 고차원적인 정보다. 따라서 LTV가 높은 고객은 일시적으로 거래가 뜸하더라도 쉽게 이탈하지 않을 가능성이 높고, 반대로 LTV가 정체되거나 하락하는 고객은 표면적인 활동과 무관하게 이탈 위험이 내재되어 있을 수 있다.
머신러닝 모델에 LTV 값을 직접 입력해줌으로써, 모델은 이러한 복합적인 맥락을 학습하게 되어, 단기적인 행동 패턴만 보는 것보다 훨씬 더 정확하고 안정적인 예측을 할 수 있게 된다. 이 연구는 성공적인 예측 모델의 비결이 알고리즘 자체뿐만 아니라, **데이터의 의미를 깊이 있게 담아내는 ‘특징 공학’**에 있음을 명확히 보여준다.
시사점
성공적인 예측 모델링은 단순히 좋은 알고리즘을 사용하는 것을 넘어, 비즈니스에 대한 깊은 이해를 바탕으로 LTV와 같이 데이터를 함축하고 고도화하는 ‘특징 공학(Feature Engineering)’에 달려있다.
이 연구는 데이터 과학자 및 마케팅 분석가들에게 다음과 같은 중요한 실무적 시사점을 제공한다.
첫째, 고차원의 파생 변수 생성을 두려워하지 말아야 한다. 원본 데이터(Raw data)를 그대로 모델에 입력하는 것보다, 비즈니스 도메인 지식을 활용하여 LTV와 같이 의미 있는 고차원의 변수를 새롭게 만들어 추가하는 것이 모델 성능 향상에 결정적인 역할을 할 수 있다.
둘째, LTV를 더 적극적으로 활용해야 한다. LTV는 단순히 ‘우량 고객을 선별하여 더 많은 혜택을 주는’ 사후적인 관리 지표로만 사용될 것이 아니라, 고객의 이탈 가능성을 미리 예측하고, 신용도를 평가하며, 미래의 마케팅 반응을 예측하는 등 다양한 예측 모델의 **핵심 선행 지표(Leading Indicator)**로 활용될 수 있다. 이는 LTV의 전략적 가치를 한 단계 끌어올리는 중요한 관점의 전환이다.
인사이트
고객의 ‘과거’가 아닌, 고객의 ‘가치’를 보고 미래를 예측하라.
AI 빅데이터 마케터의 관점에서 이 논문은 예측의 정확도를 높이는 매우 실용적인 팁을 제공한다. 고객의 수많은 파편적인 행동 기록을 일일이 나열하기보다, 그 행동들의 총체인 ‘가치’라는 하나의 강력한 변수로 응축하여 모델에게 알려줄 때, 모델은 비로소 고객의 진정한 중요성을 이해하고 더 현명한 예측을 할 수 있게 된다.
- 페르소나 예시: “고래(Whale) 스테이커, 세쿼이아”
- 특징: 세쿼이아는 거버넌스 토큰을 대량으로 구매하여 특정 DeFi 프로토콜에 장기간 스테이킹하고 있으며, 프로토콜의 초기부터 함께하며 거버넌스에 적극적으로 참여해왔다. 그의 **Web3 LTV (프로토콜에 기여한 총 수수료, 스테이킹 기간 등을 종합한 가치)**는 생태계 내 최상위권이다. 최근 시장 변동성 때문에 그의 단기 거래 빈도(Frequency)는 줄었지만, 그의 높은 LTV는 그가 쉽게 이탈하지 않을 충성 고객임을 강력하게 시사한다.
- 데이터 기반 행동: 낮은
Recency
와Frequency
, 하지만 매우 높은Monetary
(과거 누적 거래액)와Tenure
(장기 스테이킹 기간).
- 실질적인 마케팅 액션 제안:
- Web3 LTV 기반 VIP 등급 분류: 단순히 현재 예치 자산 규모가 아닌, ‘Web3 LTV’ (과거 총 가스비 기여분, 프로토콜 수수료 기여분, 스테이킹 기간 등을 종합한 점수)를 기준으로 고객 등급을 세분화한다. ‘세쿼이아’와 같은 최상위 LTV 그룹에게는 거버넌스 포럼 내 전용 배지, 신규 투자 상품에 대한 우선 접근권 등 차별화된 혜택을 제공한다.
- LTV 기반 이탈 방지 알림: LTV는 높지만 최근 활동성(Recency, Frequency)이 급격히 감소하는 ‘휴면 고래’ 고객을 자동으로 식별하는 모니터링 시스템을 구축한다. 이들에게는 “오랜 파트너이신 세쿼이아 님을 위해 특별히 준비했습니다”와 같이, 그들의 과거 기여도를 명확히 인지하고 존중하는 개인화된 메시지와 함께 특별 인센티브(예: 추가 토큰 보상)를 제공하여 관계를 회복시킨다.
- LTV 예측 모델링: 한발 더 나아가, 고객의 현재 활동 패턴을 기반으로 미래 LTV를 예측하는 모델을 만든다. 이를 통해 현재는 LTV가 낮지만 미래 LTV가 높을 것으로 예측되는 ‘잠재적 VIP’ 그룹을 조기에 발굴하고, 이들에게 초기부터 더 많은 리소스를 투자하여 충성 고객으로 육성하는 장기적인 전략을 실행한다.