이커머스 고객의 행동 로그 데이터를 순차적인 시계열 데이터로 간주하고, 이를 순환신경망(LSTM)으로 학습시켜 고객의 다음 세션 이탈 여부를 예측하는 딥러닝 기반의 새로운 접근법을 제시한다.
논문 요약
- 논문 제목: 고객 이용 로그와 순환신경망을 활용한 이커머스 고객 이탈 예측
- 저자: 박수연
- 게재 학술지: 고려대학교 대학원 (석사학위논문)
- 발행 연도: 2023
- 핵심 요약: 고객의 행동 로그(상품 조회, 장바구니 추가, 구매 등)를 시간 순서에 따른 시퀀스 데이터로 변환하고, 순환신경망(RNN)의 일종인 LSTM 및 Bi-LSTM 모델을 사용하여 이 순차적 패턴을 학습했다. 이를 통해 기존의 정적인 특징을 사용하는 머신러닝 모델보다 더 높은 정확도로 고객의 이탈을 예측할 수 있음을 보였다.
연구 배경
고객의 이탈은 어느 날 갑자기 일어나는 단일 사건이 아니라, 시간의 흐름 속에서 누적된 경험과 행동 패턴의 결과물이다. 이 연구는 고객의 행동을 ‘점’이 아닌 ‘선’으로 바라봄으로써 이탈의 미묘한 전조를 포착하고자 한다.
전통적인 고객 이탈 예측(Customer Churn Prediction) 모델은 주로 **정적(Static)**인 데이터를 활용해왔다. 예를 들어, 고객의 총 구매 횟수, 총 구매 금액, 마지막 방문일 등과 같은 **집계(Aggregated)**된 특징들을 사용한다. 이러한 RFM(최근성, 빈도, 금액) 기반의 분석은 매우 유용하지만, 한 가지 치명적인 정보를 잃어버린다는 단점이 있다. 바로 **’시간의 흐름과 순서(Sequence)’**이다.
예를 들어, 두 고객이 똑같이 3번의 구매를 했더라도, 한 명은 ‘로그인 → 구매 → 구매 → 구매’의 패턴을 보이고, 다른 한 명은 ‘로그인 → 장바구니 추가 → 삭제 → 장바구니 추가 → 삭제 → 구매’와 같은 복잡하고 망설이는 패턴을 보일 수 있다. 정적인 모델은 두 고객의 구매 빈도를 ‘3’으로 동일하게 보지만, 그 과정에 담긴 맥락과 스토리는 완전히 다르다.
이러한 **순차 데이터(Sequential Data)**를 분석하기 위해 고안된 딥러닝 모델이 바로 **순환신경망(Recurrent Neural Network, RNN)**이다. RNN은 내부에 ‘기억’을 담당하는 순환 구조를 가지고 있어, 이전 단계의 정보를 현재 단계의 입력과 함께 처리할 수 있다. 이는 마치 우리가 문장을 앞에서부터 순서대로 읽으며 의미를 파악하는 것과 유사하다.
본 연구에서는 RNN의 장기 의존성 문제를 해결한 **LSTM(Long Short-Term Memory)**과, 데이터의 순방향 및 역방향 패턴을 모두 학습하는 Bi-LSTM(Bidirectional LSTM) 모델을 활용하여, 고객의 행동 시퀀스 속에 숨겨진 이탈 징후를 예측하는 고도화된 방법론을 제시한다.
해결하려는 문제
고객의 행동을 개별 사건의 합이 아닌, 시간적 순서와 맥락을 가진 ‘이야기’로 보고, 이 순차적 패턴 속에 숨겨진 미묘한 이탈 징후를 조기에 포착한다.
기존의 정적 데이터 기반 이탈 예측 모델은 다음과 같은 질문에 답하기 어렵다.
- 고객이 구매하기 직전에 주로 어떤 행동들을 보이는가?
- 이탈하는 고객과 유지되는 고객은 ‘장바구니’를 사용하는 패턴에 차이가 있는가?
- 특정 상품을 반복적으로 조회하지만 구매하지 않는 행동은 이탈의 신호인가?
이러한 문제들은 고객의 행동을 시간의 흐름에 따라 순차적으로 분석해야만 답을 찾을 수 있다. 예를 들어, ‘장바구니에 상품을 담았다가 자주 삭제하는 행동’은 고객이 가격이나 배송 정책에 불만을 느끼고 있다는 강력한 신호일 수 있으며, 이는 정적 모델에서는 포착하기 힘든 미묘한 이탈의 전조 증상이다.
본 연구는 이처럼 고객의 웹사이트 내 행동 로그(Clickstream)를 하나의 시계열 데이터로 간주하고, 순환신경망을 통해 이 동적인 패턴을 학습함으로써, 기존 모델들이 놓치고 있던 이탈의 맥락적 신호를 감지하고 예측 정확도를 높이는 것을 핵심 목표로 삼는다.
연구 모형
고객별 웹 로그 데이터를 순차적인 이벤트 시퀀스로 변환하고, 이를 임베딩하여 LSTM 및 Bi-LSTM 모델에 입력, 다음 세션의 이탈 여부를 예측하는 시계열 이진 분류 모델을 구축한다.
본 연구는 고객의 동적 행동을 분석하기 위해 다음과 같은 딥러닝 기반의 예측 모델링 파이프라인을 설계했다.
- 시퀀스 데이터 생성 (Sequence Generation): 각 고객의 웹 로그 데이터를 시간순으로 정렬한다. ‘로그인’, ‘상품 조회’, ‘장바구니 추가’, ‘구매’ 등 각각의 행동을 하나의 이벤트(Event)로 정의하고, 이를 순서대로 나열하여 고객별 이벤트 시퀀스를 생성한다.
- 데이터 변환 및 임베딩 (Data Transformation & Embedding):
- 생성된 이벤트 시퀀스를 모델이 학습할 수 있도록 고정된 길이로 맞추는 작업(Padding 또는 Truncating)을 수행한다.
- ‘상품 조회’, ‘구매’와 같은 범주형 이벤트들을 고차원의 실수 벡터로 변환하는 임베딩(Embedding) 층을 사용한다. 임베딩을 통해 모델은 ‘장바구니 추가’와 ‘구매’가 ‘상품 조회’보다 서로 의미적으로 더 가깝다는 것을 스스로 학습할 수 있다.
- 순환신경망 모델 학습 (RNN Model Training):
- 임베딩된 시퀀스 데이터를 LSTM 또는 Bi-LSTM 모델의 입력으로 사용한다. 모델은 시퀀스를 순차적으로 읽어나가며 고객의 행동 패턴을 학습한다.
- 모델의 마지막 단계에서는 다음 세션에서 해당 고객이 이탈할지 여부(1 또는 0)를 예측하는 확률값을 출력한다.
- 성능 비교 평가 (Performance Evaluation): 제안된 딥러닝 모델(LSTM, Bi-LSTM)의 예측 성능을 로지스틱 회귀, 랜덤 포레스트와 같은 전통적인 머신러닝 모델과 비교하여, 순차적 정보 활용의 효과성을 검증한다.
데이터 설명
공개된 이커머스 데이터셋의 고객 행동 로그를 활용했으며, 각 고객의 시간 순서에 따른 웹사이트 내 모든 행동을 포함하는 오프체인(Off-chain) 이벤트 데이터이다.
- 출처: 논문에 구체적인 출처는 명시되지 않았으나, 캐글(Kaggle)의 ‘eCommerce behavior data from a multi-category store’나 ‘RetailRocket’ 데이터셋과 같이, 고객의 클릭스트림 정보를 포함하는 공개된 이커머스 데이터를 사용했을 것으로 추정된다. 이는 서버 로그 기반의 오프체인(Off-chain) 데이터이다.
- 수집 방법: 공개된 표준 데이터셋을 다운로드하여 연구에 활용했다.
- 데이터 변수 설명: 본 연구의 핵심은 데이터를 정적인 형태로 집계하는 것이 아니라, 순차적인 구조를 그대로 유지하는 것이다.
- 원본 이벤트 로그 데이터:
timestamp
: 이벤트 발생 시간session_id
: 고객의 한 번의 방문을 나타내는 세션 식별자customer_id
: 고객 고유 식별자event_type
: 행동의 종류 (예:view
,add_to_cart
,purchase
). 시퀀스를 구성하는 핵심 요소이다.item_id
,category_id
: 조회하거나 구매한 상품 및 카테고리 정보
- 모델 입력용 시퀀스 데이터:
- 각
customer_id
에 대해, 시간순으로 정렬된event_type
의 순차열. 예:[view, view, view, add_to_cart, purchase]
- 각
- 모델의 타겟(종속) 변수:
Churn_in_next_session
: 마지막 이벤트 이후 다음 세션에서 이탈했는지 여부를 나타내는 이진 값 (1: 이탈, 0: 비이탈)
- 원본 이벤트 로그 데이터:
데이터 분석
고객 행동 로그를 고정된 길이의 시퀀스로 변환하고, 이를 LSTM과 Bi-LSTM 모델에 학습시킨 결과, 순차적 정보를 활용한 딥러닝 모델이 전통적인 머신러닝 모델보다 높은 이탈 예측 성능(AUC)을 보였다.
본 연구의 데이터 분석은 고객의 행동 로그를 딥러닝 모델이 학습할 수 있는 형태의 ‘시퀀스 데이터’로 가공하는 과정과, 이를 실제 모델에 학습시켜 성능을 평가하는 과정으로 이루어졌다.
분석의 첫 단계에서는 각 고객의 모든 행동 로그를 시간순으로 나열하여 시퀀스를 만들었다. 이후, 모든 시퀀스의 길이를 동일하게 맞춰주기 위해, 길이가 짧은 시퀀스에는 의미 없는 값을 채워주고(Padding), 너무 긴 시퀀스는 일부를 잘라내는 전처리 과정을 거쳤다.
다음으로, 이렇게 가공된 시퀀스 데이터를 LSTM과 Bi-LSTM 모델에 입력하여 고객 이탈 예측을 학습시켰다. 모델의 성능은 AUC(Area Under the ROC Curve)를 주요 지표로 사용하여 평가되었으며, 이는 모델이 이탈 고객과 비이탈 고객을 얼마나 잘 구별해내는지를 나타낸다.
분석 결과, 고객 행동의 순차적 정보를 전혀 활용하지 않은 전통적인 머신러닝 모델(예: 로지스틱 회귀)에 비해, 순차적 패턴을 학습한 LSTM과 Bi-LSTM 모델이 월등히 높은 AUC 값을 기록했다. 이는 고객의 행동 ‘순서’에 이탈을 예측할 수 있는 중요한 정보가 담겨 있음을 실험적으로 증명한 것이다.
핵심 결과
고객 행동의 순서와 패턴을 학습한 Bi-LSTM 모델이 가장 뛰어난 이탈 예측 성능을 보였으며, 이는 고객 이탈이 정적 특성이 아닌 동적 과정의 결과임을 시사한다.
본 연구의 핵심적인 결과는 고객의 행동을 ‘시퀀스’로 분석하는 것의 우수성을 딥러닝 모델을 통해 입증했다는 점이다. 특히, 데이터의 순방향(과거→현재) 정보뿐만 아니라 역방향(미래→현재) 정보까지 함께 고려하여 맥락을 파악하는 Bi-LSTM 모델이 가장 높은 예측 정확도를 보였다.
이는 고객의 이탈 결정이 단순히 ‘총 구매액이 적어서’와 같은 단편적인 이유가 아니라, “여러 상품을 둘러본 후 → 장바구니에 담았다가 → 결국 구매하지 않고 세션을 종료하는” 일련의 동적인 과정(Dynamic Process) 속에서 이루어짐을 의미한다. Bi-LSTM 모델은 이러한 복합적인 행동의 ‘서사’를 학습함으로써, 이탈로 이어지는 미묘한 이상 징후를 더 효과적으로 포착할 수 있었다. 이 결과는 고객 이탈 관리가 정적인 고객 정보 분석을 넘어, 동적인 고객 여정 분석으로 나아가야 함을 명확히 보여준다.
시사점
단순한 RFM 분석을 넘어 고객의 행동 ‘과정’을 담은 시계열 로그 데이터를 분석함으로써, 이탈의 미묘한 전조 증상을 포착하고 더욱 선제적인 CRM 대응이 가능해진다.
이 연구는 기업의 CRM 전략에 다음과 같은 중요한 실무적 시사점을 제공한다.
첫째, 데이터 수집 및 관리의 패러다임 전환이 필요하다. 이제 기업은 단순히 고객의 구매 총액이나 구매 횟수와 같은 집계 데이터만 저장해서는 안 된다. 고객이 앱이나 웹에 들어와서 어떤 버튼을 누르고, 어떤 페이지를 얼마나 오래 보며, 어떤 순서로 행동하는지에 대한 모든 클릭스트림(Clickstream) 또는 이벤트 로그 데이터를 수집하고 분석할 수 있는 인프라를 갖춰야 한다.
둘째, 이탈 방지 캠페인의 ‘자동화’와 ‘정교화’가 가능해진다. 고객의 행동 시퀀스를 실시간으로 분석하여, “장바구니에 상품을 담았다가 3번 이상 삭제하는” 것과 같은 특정 ‘이탈 징후 패턴’이 감지되었을 때, 자동으로 해당 고객에게만 타겟팅된 할인 쿠폰이나 상담 메시지를 보내는 선제적인 개입이 가능해진다. 이는 이탈이 발생하기 전에 문제를 해결하여 고객을 붙잡을 수 있는 강력한 무기가 된다.
인사이트
고객의 ‘발자국’을 모으지 말고, 고객의 ‘여정’을 읽어라. 답은 그 길 위에 있다.
AI 빅데이터 마케터의 관점에서 이 논문은 데이터 분석의 ‘차원’을 바꾸는 혁신적인 아이디어를 제공한다. 고객을 이해하기 위해 더 이상 평면적인 스냅샷에 의존할 필요가 없다. 시간의 흐름에 따라 고객의 행동이 어떻게 변화하는지를 담은 ‘동영상’을 분석함으로써, 우리는 고객의 숨겨진 의도와 감정을 읽어낼 수 있다.
- 고객 페르소나 예시: “DeFi 방랑자, 노마드 닉”
- 특징: 닉은 여러 DeFi 프로토콜을 계속해서 옮겨 다니며 단기 이자 농사를 짓는다. 그의 온체인 활동은
Deposit(A 프로토콜) → Stake → 몇 차례 Claim Rewards → Unstake → Withdraw → (B 프로토콜로) Transfer
와 같은 뚜렷한 순차적 패턴을 보인다. 그의 이탈(특정 프로토콜에서의 활동 중단)은 이 시퀀스의 마지막 단계에서 필연적으로 발생한다. - 데이터 기반 행동: 짧은 기간 내에
Deposit
,Stake
,Unstake
,Withdraw
시퀀스를 완료하고 다른 프로토콜로 자금을 이동시키는 패턴을 반복함.
- 특징: 닉은 여러 DeFi 프로토콜을 계속해서 옮겨 다니며 단기 이자 농사를 짓는다. 그의 온체인 활동은
- 실질적인 마케팅 액션 제안:
- 시퀀스 패턴 기반 이탈 징후 감지: ‘노마드 닉’과 같은 지갑들의
Unstake
또는Withdraw
이벤트가 발생했을 때, 이를 해당 프로토콜에 대한 이탈의 강력한 전조 증상으로 자동 감지하는 모니터링 시스템을 구축한다. - ‘이탈 경로’ 차단 마케팅:
Withdraw
트랜잭션이 감지된 직후, 해당 지갑에 “현재 예치된 자산을 담보로 USDC를 대출받아 새로운 투자 기회를 탐색해 보세요!”와 같이, 자금을 완전히 인출하는 대신 생태계 내에서 다른 활동(Leverage)으로 전환하도록 유도하는 개인화된 메시지나 트랜잭션을 제안한다. - 차기 여정 제안(Next Journey Recommendation): 이탈 징후를 보이는 지갑에게, 그들의 과거 활동 시퀀스와 유사한 패턴을 가진 다른 사용자들이 만족했던 ‘다음 프로토콜’이나 ‘다음 투자 전략’을 추천하여, 사용자가 생태계 내에 계속 머물도록 유도한다.
- 시퀀스 패턴 기반 이탈 징후 감지: ‘노마드 닉’과 같은 지갑들의