자동차 정비 산업에서의 고객 이탈 예측: 머신러닝 알고리즘을 기반으로 리뷰

자동차 정비 이력을 하나의 ‘시계열 데이터’로 간주하고, 순환신경망(LSTM)을 활용하여 다음 정비 주기에 방문하지 않을 ‘휴면/이탈’ 고객을 예측하는 새로운 접근법을 제시한다.


논문 요약

  • 논문 제목: 자동차 정비 산업에서의 고객 이탈 예측: 머신러닝 알고리즘을 기반으로
  • 저자: 김무건, 류민호
  • 게재 학술지: 한국산업정보학회논문지
  • 발행 연도: 2022
  • 핵심 요약: 명시적인 ‘해지’가 없는 자동차 정비 서비스의 고객 이탈을 예측하기 위해, 고객의 과거 정비 이력(정비 항목, 주기, 비용 등)을 순차적인 시계열 데이터로 구성했다. 순환신경망(RNN)의 일종인 LSTM 모델을 적용하여, 각 고객의 고유한 서비스 이용 패턴을 학습하고 미래의 재방문 가능성, 즉 이탈 여부를 예측하는 모델을 개발하고 그 유효성을 검증했다.

연구 배경

고객이 단순히 ‘오지 않는 것’을 어떻게 ‘이탈’로 정의하고 예측할 수 있을까? 이 연구는 구독 서비스가 아닌 일반 비즈니스 환경에서, 고객의 ‘침묵’ 속에 숨겨진 이탈의 신호를 데이터로 포착하는 방법을 탐구한다.

**고객 이탈 예측(Customer Churn Prediction)**은 CRM 분야의 매우 중요한 과제이다. 넷플릭스나 통신사와 같은 구독 기반 서비스에서는 고객이 ‘해지’ 버튼을 누르는 명시적인 이벤트가 있기 때문에 이탈을 정의하고 예측하기가 비교적 용이하다.

하지만, 비구독형 서비스(예: 미용실, 단골 식당, 자동차 정비소)에서는 고객이 언제 떠났는지 명확히 알기 어렵다. 고객은 아무 말 없이 경쟁사로 옮겨가거나, 더 이상 해당 서비스가 필요 없어져 자연스럽게 발길을 끊는다. 이러한 상황에서 기업은 고객이 이미 떠난 뒤 한참이 지나서야 그 사실을 인지하게 된다.

이 연구는 이러한 비구독형 서비스의 대표적인 예시인 자동차 정비 산업에 주목한다. 자동차는 엔진오일 교환, 타이어 교체 등 주기적인(Periodic) 정비를 필요로 한다. 이 연구의 핵심 아이디어는 바로 이 **’주기성’**에 있다. 즉, 고객의 과거 정비 이력을 분석하면, 각 고객마다 고유한 ‘예상 정비 주기’를 파악할 수 있다. 만약 어떤 고객이 이 예상 주기를 훨씬 지나도 방문하지 않는다면, 이를 ‘이탈’의 강력한 신호로 볼 수 있다는 것이다.

이러한 고객별 고유의 방문 ‘시퀀스’와 ‘주기’를 학습하기 위해, 본 연구는 순차적 데이터 분석에 뛰어난 딥러닝 모델인 **순환신경망(RNN), 특히 LSTM(Long Short-Term Memory)**을 활용한다.


해결하려는 문제

명시적인 ‘해지’가 없는 비구독형 서비스(자동차 정비) 환경에서, 고객의 과거 서비스 이력 패턴을 학습하여 다음 방문 주기를 예측하고, 이를 기반으로 ‘예상 방문 시점을 놓친’ 잠재 이탈 고객을 선제적으로 식별한다.

자동차 정비소의 사장님은 다음과 같은 고민을 가지고 있다. “3개월 전에 엔진오일을 갈았던 김OO 고객님이 다시 올 때가 됐는데 왜 안 오실까? 다른 곳으로 가셨나, 아니면 그냥 잊어버리신 걸까?” 기존의 방식으로는 이 질문에 답할 방법이 없다. 그저 고객이 다시 오기를 수동적으로 기다릴 뿐이다.

이 연구가 해결하고자 하는 문제는 바로 이 ‘수동적 기다림’을 ‘능동적 예측’으로 바꾸는 것이다. 고객의 정비 데이터를 분석하여, 다음과 같은 질문에 대한 데이터 기반의 답을 찾고자 한다.

  • 각 고객의 평균적인 정비 주기는 며칠인가?
  • 고객이 이전에 어떤 정비(예: 큰 수리, 작은 점검)를 받았는지가 다음 방문 주기에 영향을 미치는가?
  • 이러한 패턴을 기반으로, ‘정상적인 주기를 벗어난’ 이탈 위험 고객을 어떻게 조기에 식별할 수 있는가?

궁극적으로는 정비소가 잠재 이탈 고객에게 “사장님, 엔진오일 교환하실 때가 되었는데 잊지 않으셨죠? 이번 주에 오시면 워셔액을 서비스로 드립니다.”와 같이, 최적의 타이밍에 선제적인 마케팅 활동을 할 수 있는 기술적 기반을 마련하는 것을 목표로 한다.


연구 모형

고객별 정비 이력을 시간 순서에 따른 이벤트 시퀀스로 구성하고, 이를 LSTM 모델에 학습시켜 특정 미래 시점까지 재방문(정비)할지 여부를 예측하는 시계열 이진 분류 모델을 구축한다.

본 연구는 고객의 재방문 여부를 예측하기 위해, 다음과 같은 딥러닝 기반의 시계열 분류(Time-series Classification) 모델링 절차를 따랐다.

  1. 시계열 데이터 구성:
    • 각 고객별로 과거의 모든 정비 이력을 시간순으로 정렬하여 **’정비 이벤트 시퀀스’**를 생성한다.
    • 각 이벤트는 (정비일, 정비 항목, 정비 비용, 당시 주행거리) 등과 같은 정보로 구성된다.
  2. 특징 공학 및 시퀀스 변환:
    • 원본 데이터를 LSTM 모델이 학습할 수 있는 형태의 숫자 벡터 시퀀스로 변환한다. 예를 들어, ‘엔진오일 교환’, ‘타이어 교체’와 같은 범주형 데이터는 원-핫 인코딩이나 임베딩을 통해 벡터로 변환한다.
    • 모델 학습을 위해, “과거 N회의 정비 이력 시퀀스(X)”를 입력으로 사용하여, “향후 특정 기간(예: 6개월) 내에 재방문할지 여부(Y)”를 예측하도록 데이터셋을 구성한다.
  3. LSTM 모델 학습:
    • 설계된 LSTM 모델에 준비된 시퀀스 데이터를 입력하여 학습시킨다. 모델은 각 고객의 과거 정비 시퀀스 패턴으로부터, 그 고객의 고유한 ‘재방문 주기’와 ‘이탈 가능성’을 학습하게 된다.
  4. 모델 성능 평가:
    • 학습된 모델을 사용하여, 테스트 데이터셋에 있는 고객들의 미래 재방문 여부를 예측하고, 실제 재방문 기록과 비교하여 모델의 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 등을 평가한다.

데이터 설명

특정 자동차 정비 프랜차이즈의 고객 정비 이력 데이터를 활용했으며, 고객별/차량별로 언제, 어떤 정비를 받았는지를 기록한 시계열 형태의 오프체인(Off-chain) 데이터이다.

  • 출처: 논문에 구체적인 출처는 명시되지 않았으나, 국내 특정 자동차 정비 프랜차이즈 기업의 내부 CRM 또는 정비 이력 관리 시스템에서 추출한 데이터를 활용한 것으로 보인다. 이는 전형적인 오프체인(Off-chain) 데이터이다.
  • 수집 방법: 기업 내부 데이터베이스에서 특정 기간 동안의 고객 및 차량 정보, 그리고 모든 정비 내역을 고객 ID 기준으로 추출하여 시계열 데이터셋을 구축했을 것이다.
  • 데이터 변수 설명: 본 연구의 데이터는 각 고객의 정비 이력을 시간순으로 나열한 시퀀스 데이터이다.
    • 고객 및 차량 정보: CustomerID, Car_Model, Car_Year, Initial_Registration_Date.
    • 정비 이력 시퀀스 데이터: 각 고객별로 시간순으로 정렬된 정비 이벤트의 연속.
      • Timestamp: 정비가 이루어진 날짜.
      • Service_Type: 정비 항목 (예: 엔진오일 교환, 타이어 교체, 브레이크 패드 점검, 정기 점검).
      • Cost: 해당 정비에 소요된 총 비용.
      • Mileage: 정비 당시 차량의 총 주행거리.
    • 타겟(종속) 변수:
      • Churn_Status: 마지막 정비일로부터 특정 관찰 기간(예: 1년)이 지난 후, 해당 고객이 이탈(휴면)했는지 여부. 이탈은 ‘예상되는 다음 정비 주기를 훨씬 지나도 방문하지 않음’으로 정의될 수 있다.

데이터 분석

LSTM 모델에 고객별 정비 이력 시퀀스를 학습시킨 결과, 정비 주기, 항목, 비용 등의 순차적 정보가 미래의 재방문(이탈) 여부를 예측하는 데 유의미한 패턴을 형성함을 확인했다.

본 연구의 데이터 분석은 고객의 과거 정비 기록이라는 ‘시퀀스’ 데이터 속에 미래를 예측할 수 있는 정보가 있는지를 검증하는 과정이다.

연구진은 각 고객의 정비 이력 시퀀스를 LSTM 모델에 입력하여 학습시켰다. 이 과정에서 LSTM 모델은 다음과 같은 복잡한 패턴을 학습할 수 있다.

  • 개인별 주기성: A 고객은 평균 6개월마다, B 고객은 평균 8개월마다 엔진오일을 교환한다는 개인화된 주기를 학습한다.
  • 이벤트 간의 연관성: ‘타이어 교체’와 같은 큰 정비를 받은 고객은, ‘와이퍼 교체’와 같은 작은 정비를 받은 고객보다 향후 몇 달간은 재방문할 확률이 낮다는 이벤트 간의 관계를 학습한다.
  • 시간 경과에 따른 위험 증가: 특정 고객의 예상 방문 주기가 지날수록, 그 고객의 이탈(재방문하지 않을) 확률이 점진적으로 증가한다는 시간적 패턴을 학습한다.

분석 결과, 이렇게 학습된 LSTM 모델은 통계적으로 유의미한 예측 정확도를 보였으며, 이는 고객의 과거 방문 ‘순서’와 ‘간격’이 미래 이탈을 예측하는 중요한 변수임을 입증한다.


핵심 결과

LSTM 모델은 고객의 과거 정비 이력과 주기성을 학습하여, 다음 정비 시점이 도래했음에도 방문하지 않는 잠재적 이탈 고객을 효과적으로 예측할 수 있음을 보여주었다.

이 연구의 핵심 결과는, 명시적인 구독 계약이 없는 비즈니스에서도 고객의 행동 주기성을 기반으로 이탈을 정의하고 예측하는 것이 가능하며, LSTM과 같은 시퀀스 모델이 이 과업에 매우 효과적이라는 것을 증명한 것이다.

이는 ‘이탈 고객 관리’의 범위를 기존의 통신, 금융, OTT와 같은 구독 기반 산업에서, 자동차 정비, 미용, 의료 등 반복적인 방문이 예상되는 모든 서비스 산업으로 확장할 수 있음을 의미한다.

이 연구를 통해, 정비소는 더 이상 고객이 오지 않는 이유를 막연히 추측하는 대신, “우리 데이터에 따르면, 김OO 고객님은 평균 7개월마다 방문하셨는데, 지금 9개월째 방문이 없으십니다. 이탈 확률이 75%로 예측되니, 이번 주에 해피콜을 드려야겠습니다”와 같은 데이터에 기반한 선제적이고 정교한 고객 관리를 할 수 있게 되었다.


시사점

구독형 서비스가 아니더라도, 고객의 행동에 주기성이 예상되는 모든 비즈니스(예: 미용실, 병원 정기검진, 재구매가 일어나는 소비재)는 시계열 분석을 통해 이탈 징후를 사전에 포착하고 고객 관계를 관리할 수 있다.

이 연구는 다양한 산업 분야의 마케터와 경영자에게 다음과 같은 중요한 시사점을 제공한다.

첫째, ‘이탈’의 개념을 확장해야 한다. 고객이 명시적으로 “더 이상 이용하지 않겠다”고 말하지 않더라도, 그들의 ‘규칙적인 행동의 중단’은 그 자체로 강력한 이탈 신호이다. 기업은 자사 비즈니스의 특성에 맞는 ‘고객의 예상 행동 주기’를 정의하고, 이 주기를 벗어나는 고객들을 관리하기 위한 시스템을 구축해야 한다.

둘째, 모든 고객 데이터는 시계열 데이터이다. 고객의 모든 행동에는 ‘시간’이라는 정보가 담겨있다. LSTM과 같은 시계열 딥러닝 모델을 활용하면, 과거에는 분석하기 어려웠던 고객 행동의 동적인 패턴을 분석하고, 이를 통해 미래를 예측하는 새로운 기회를 잡을 수 있다.


인사이트

고객의 ‘침묵’ 속에 숨은 이탈의 ‘신호’를 들어라.

이 논문은 고객의 ‘행동’만큼이나, 고객의 ‘비행동(Inaction)’이 중요한 데이터임을 보여준다. 고객이 당연히 해야 할 행동을 하지 않을 때, 그 침묵은 수많은 말을 하고 있다. 성공적인 CRM은 바로 이 침묵의 의미를 데이터로 해석하고, 고객이 완전히 떠나기 전에 먼저 손을 내미는 것이다.

  • 페르소나 예시: “침묵하는 유동성 공급자(LP), 리나(Lina)”
    • 특징: 리나는 특정 DeFi 프로토콜의 유동성 풀에 자산을 예치하고 있다. 그녀는 과거 3개월 동안 매주 금요일마다 쌓인 보상(rewards)을 수령(claim)하는 매우 규칙적인 행동 패턴을 보여왔다. 하지만 최근 2주 동안 보상을 수령하지 않고 있다. 그녀는 명시적으로 유동성을 빼지는 않았지만, 그녀의 규칙적인 행동 패턴이 깨진 것은 그녀의 관심이 다른 곳으로 옮겨갔거나, 곧 모든 유동성을 철회할 수 있다는 **’이탈의 강력한 전조 증상’**일 수 있다.
    • 데이터 기반 행동: 매우 규칙적인 주간(Weekly) 보상 수령 패턴을 보이다가, 최근 이 패턴이 중단됨.
  • 실질적인 마케팅 액션 제안:
    1. 개인별 행동 주기 분석 및 이탈 징후 감지: 이 논문의 LSTM 모델을 적용하여, 각 유동성 공급자(LP)의 과거 보상 수령, 추가 예치 등 개인별 활동 주기를 학습한다. ‘리나’처럼 예상된 활동 주기(매주 금요일)를 2회 이상 놓치는 행동이 감지되면, 해당 LP를 **’잠재 이탈 위험 그룹’**으로 자동 분류하고 알림을 발생시킨다.
    2. 선제적 리텐션 메시지 발송: ‘잠재 이탈 위험 그룹’에게 “리나님, 지난 2주간 수령하지 않으신 OOO개의 보상 토큰이 누적되었습니다. 지금 수령하고 새로운 이자 농사 전략에 재투자해 보세요!”와 같이, 그들의 구체적인 상황에 맞는 개인화된 알림을 보내 재참여(re-engagement)를 부드럽게 유도한다.
    3. ‘침묵’의 원인에 따른 맞춤형 제안: 이탈 징후가 보이는 LP들이 최근 어떤 다른 프로토콜과 상호작용했는지 온체인 데이터를 추가로 분석한다. 만약 더 높은 APY를 제공하는 경쟁 프로토콜로 자금을 이동한 정황이 보인다면, 이들에게만 한정적으로 단기 APY 부스팅 이벤트가스비 리베이트를 제공하여 이탈을 방지하는 정교하고 데이터 기반의 대응을 한다.