Customer Segmentation Using Supervised and Unsupervised Learning 리뷰

비지도학습(K-평균)으로 고객 세그먼트를 발굴하고, 이 결과를 지도학습(결정트리) 모델의 정답으로 삼아 신규 고객을 자동으로 분류하는 하이브리드 모델을 제안하여, 고객 세분화의 운영 효율성과 확장성을 획기적으로 개선한다.

논문 요약

  • 논문 제목: Customer Segmentation Using Supervised and Unsupervised Learning
  • 저자: A.S. Albahri 외
  • 게재 학술지: IEEE
  • 발행 연도: 2024
  • 핵심 요약: 비지도 학습(K-평균)으로 초기 고객 세그먼트를 발견한 후, 이 결과를 레이블로 사용하여 지도 학습 모델(결정트리)을 학습시켰다. 이를 통해 새로운 고객이 유입될 때 실시간으로 어떤 세그먼트에 속하는지 자동으로 분류할 수 있는 시스템을 구축했다.

연구 배경

전통적인 고객 세분화는 주로 데이터 분석가가 비지도 학습(Unsupervised Learning), 특히 K-평균과 같은 군집분석을 활용하여 수행해왔다. 이 방법은 데이터 내에 숨겨진 구조나 그룹을 ‘발견’하는 데 매우 효과적이다. 하지만 여기에는 고질적인 운영상의 문제가 따른다. 세분화 분석은 보통 일회성 프로젝트로 끝나며, 매일같이 유입되는 신규 고객들을 기존 세그먼트에 일관성 있게 배정하기가 어렵다. 이들을 포함하여 전체 분석을 다시 수행하는 것은 비용과 시간이 많이 들고, 기존 세그먼트의 정의마저 바꿔버릴 수 있다.

이러한 문제를 해결하기 위해, 이 연구는 **지도 학습(Supervised Learning)**을 결합하는 하이브리드 접근법을 제시한다. 지도 학습은 이미 정답(레이블)이 있는 데이터를 학습하여, 새로운 데이터의 정답을 ‘예측’하는 데 특화되어 있다. 이 두 가지 머신러닝 패러다임을 결합하여, 비지도 학습으로 세그먼트를 ‘발견’하고, 지도 학습으로 신규 고객을 해당 세그먼트로 ‘분류’하는 자동화 시스템을 구축하는 것이 이 연구의 핵심 동기다.


해결하려는 문제

일회성 군집분석이 신규 고객 유입에 따라 지속적으로 업데이트되기 어렵고, 세분화 기준의 일관성을 유지하기 힘든 운영상의 문제를 해결하고자 했다.

마케팅팀이 데이터 분석팀에 의뢰하여 1월에 5개의 고객 세그먼트(‘VIP’, ‘충성고객’, ‘일반고객’, ‘신규고객’, ‘이탈위험고객’)를 정의했다고 가정해보자. 2월에 1만 명의 신규 고객이 유입되었을 때, 이들을 어떤 세그먼트로 분류해야 할까? 기존 방식으로는 이들을 포함한 전체 데이터를 다시 분석해야 하는데, 이는 매우 비효율적이다. 더 큰 문제는, 재분석 시 기존 VIP 고객 중 일부가 다른 세그먼트로 재분류되는 등 세그먼트의 정의 자체가 흔들려 마케팅 활동의 연속성과 성과 측정을 어렵게 만든다는 점이다. 이 연구는 바로 이 세분화의 ‘운영(Operationalization)’과 ‘확장성(Scalability)’ 문제를 해결하기 위해, 한 번 정의된 세분화 규칙을 신규 고객에게도 자동으로 일관되게 적용할 수 있는 시스템을 구축하고자 했다.


연구 모형

2단계 하이브리드 접근법을 사용했다. 1단계에서 K-평균 군집분석(비지도학습)으로 고객 데이터에 ‘세그먼트 레이블’을 생성하고, 2단계에서 이 레이블을 정답으로 삼아 결정트리 분류기(지도학습)를 학습시켰다.

이 연구의 모델은 두 가지 머신러닝 기법을 체계적으로 결합한 2단계 하이브리드 파이프라인이다.

  1. 1단계: 세그먼트 발견 (Segment Discovery – Unsupervised Learning)
    • 먼저, 기존 고객 전체의 데이터를 K-평균 군집분석 알고리즘에 입력한다.
    • 알고리즘은 데이터의 유사성을 기반으로 고객들을 K개의 군집(Cluster)으로 나눈다. (예: Cluster 0, 1, 2, 3)
    • 이제 기존 고객 데이터에 Segment라는 새로운 열이 생성되고, 각 고객은 자신이 속한 군집 번호(0, 1, 2, 3)를 **레이블(Label)**로 갖게 된다. 이 과정은 정답이 없는 상태에서 숨겨진 그룹을 ‘발견’하는 과정이다.
  2. 2단계: 분류기 학습 (Classifier Training – Supervised Learning)
    • 1단계에서 레이블이 생성된 데이터를 학습 데이터로 사용한다. 고객의 행동 변수들이 **입력(X)**이 되고, 군집 번호(세그먼트 레이블)가 **정답(Y)**이 된다.
    • 이 학습 데이터를 결정트리(Decision Tree)와 같은 지도학습 분류 모델에 입력하여 훈련시킨다.
    • 모델은 “만약 고객의 최근 구매일이 30일 이내이고, 평균 구매액이 10만원 이상이면, Segment는 ‘0’(VIP)이다” 와 같은 분류 ‘규칙’을 학습하게 된다.

이 파이프라인을 통해, 이제 새로운 고객이 나타나면 그의 행동 데이터만 2단계에서 학습된 분류기에 입력하면 즉시 어떤 세그먼트에 속하는지 예측할 수 있다.


데이터 설명

온라인 소매업체의 고객 인구통계 정보, 구매 이력, 웹사이트 행동 데이터를 포함하는 공개 데이터셋을 활용했다.

  • 출처: 논문에 구체적인 데이터셋 이름은 명시되지 않았으나, 내용으로 미루어 캐글(Kaggle)이나 UCI Machine Learning Repository 등에 공개된 온라인 리테일(Online Retail) 또는 전자상거래(E-commerce) 고객 데이터셋을 활용했을 것으로 추정된다.
  • 온체인 여부: 온체인 데이터가 아닌, 일반적인 기업 환경의 오프체인(Off-chain) 데이터이다.
  • 수집 방법: 연구자들은 직접 데이터를 수집하지 않고, 공개된 데이터셋을 사용했다. 이러한 데이터셋은 일반적으로 특정 기간 동안의 웹사이트 로그, 판매 데이터베이스, CRM 시스템에서 수집된 정보를 비식별화하여 연구 목적으로 제공된다.
  • 데이터 변수 설명: 이 연구는 하이브리드 모델을 구축하기 위해 다음과 같이 구조화된 변수들을 활용한다.
    • 고객 기본 정보: CustomerID, Age, Gender, Country 등.
    • 고객 행동 변수 (Features – X):
      • 구매 관련: Total Spent, Average Purchase Value, Days Since Last Purchase(Recency) 등.
      • 웹 활동 관련: Frequency of Visits, Pages Viewed, Time Spent on Site 등.
    • 파생 종속 변수 (Target – Y):
      • Segment_ID: 1단계 K-평균 군집분석을 통해 각 고객에게 부여된 군집 번호 (예: 0, 1, 2, 3). 이 변수는 2단계 지도학습 모델이 예측해야 할 ‘정답’ 역할을 한다.

데이터 분석

K-평균 군집분석을 통해 최적의 고객 군집(레이블)을 생성한 후, 이 레이블을 가진 데이터를 학습/테스트용으로 분할하여 결정트리, 랜덤 포레스트 등 여러 지도학습 모델의 분류 정확도를 비교 평가했다.

데이터 분석은 연구 모형에 따라 명확한 두 단계로 진행되었다. 1단계 (비지도 분석): 먼저 전체 데이터에 K-평균 군집분석을 적용했다. 이 과정에서 분석가들은 엘보우 방법(Elbow Method)이나 실루엣 스코어(Silhouette Score)와 같은 기법을 사용하여 마케팅적으로 가장 의미 있는 최적의 군집 수(K)를 결정했다. 군집화가 완료된 후, 각 군집의 특성을 분석하여 ‘고가치 고객’, ‘저가치 고객’ 등과 같은 의미를 부여하고, 이를 ‘레이블’로 데이터에 추가했다.

2단계 (지도 분석): 레이블이 추가된 데이터를 학습 데이터(Training Data)와 테스트 데이터(Test Data)로 분리했다. 그리고 결정트리(Decision Tree), 랜덤 포레스트(Random Forest), 서포트 벡터 머신(SVM) 등 여러 지도학습 분류 알고리즘을 학습 데이터로 훈련시켰다. 마지막으로, 각 모델이 얼마나 정확하게 테스트 데이터의 세그먼트 레이블을 예측하는지 **분류 정확도(Classification Accuracy)**를 측정하여 최적의 모델을 선정했다.


핵심 결과

비지도학습과 지도학습을 결합한 하이브리드 모델은 신규 고객을 90% 이상의 높은 정확도로 기존 세그먼트에 성공적으로 분류했으며, 특히 해석이 용이한 결정트리 모델이 우수한 성능을 보였다.

이 연구의 핵심 결과는 제안된 하이브리드 모델의 높은 정확도와 실용성을 입증했다는 점이다. 지도학습 모델은 이전에 보지 못했던 새로운 고객 데이터에 대해서도 90%가 넘는 높은 정확도로 기존 세그먼트 중 하나로 분류해냈다. 이는 이 모델이 일관성 있는 기준으로 고객 세분화를 자동화하고 확장할 수 있음을 의미한다. 특히, 여러 지도학습 모델 중에서 결정트리가 우수한 성능을 보이면서도, 그 분류 규칙(Rule)이 사람이 이해하기 쉬운 형태로 제공된다는 점이 중요한 발견이다. 이는 마케터들이 “왜 이 고객이 VIP 세그먼트로 분류되었는가?”를 명확히 이해하고 신뢰할 수 있게 하여, AI 모델과 비즈니스 현장 간의 간극을 줄여준다.


시사점

고객 세분화는 일회성 분석 프로젝트가 아니라, 실시간으로 새로운 고객을 분류하고 대응하는 자동화된 ‘운영 시스템’으로 구축되어야 한다.

이 논문은 고객 세분화에 대한 기업의 접근 방식을 근본적으로 바꿔야 한다는 강력한 메시지를 전달한다. 더 이상 세분화는 몇 달에 한 번씩 데이터 분석가가 보고서를 통해 전달하는 정적인 정보가 아니다. 이 연구에서 제안한 하이브리드 모델을 통해, 고객 세분화는 **살아있는 ‘운영 시스템’**이 될 수 있다. 신규 고객이 웹사이트에 가입하는 순간, 그의 초기 행동 데이터를 기반으로 즉시 세그먼트를 예측하고, 그에 맞는 개인화된 환영 이메일과 웹페이지를 제공하는 것이 가능해진다. 이는 마케팅의 반응 속도와 효율성을 극대화하며, 모든 고객 경험의 시작점을 데이터 기반으로 자동화할 수 있음을 시사한다.


인사이트

고객을 ‘발견’하는 분석에서, 고객을 ‘판단’하는 시스템으로. AI/빅데이터 마케터에게 이 논문은 분석의 역할을 ‘과거를 해석하는 것’에서 ‘미래에 대응하는 시스템을 만드는 것’으로 전환시킨다. 기술적 분석 결과를 즉시 활용 가능한 페르소나와 자동화된 액션 플랜으로 변환하면 다음과 같다.

  • 고객 페르소나 예시: ‘잠재적 캐시카우’
    • 20대 후반의 신규 가입 고객. 가입 직후 특정 카테고리의 상품 페이지를 오래 탐색하고, 장바구니에 고가의 상품을 담았다가 구매는 하지 않았다. 이 고객의 초기 행동 패턴은, 사전에 학습된 결정트리 모델에 의해, 기존 ‘VIP’ 고객들의 초기 모습과 매우 유사하다고 판단되어 ‘잠재적 캐시카우’ 세그먼트로 자동 분류된다.
  • 실질적인 마케팅 액션 아이디어
    1. 자동화된 온보딩 시나리오: ‘잠재적 캐시카우’로 분류된 고객에게는 가입 1시간 후, 장바구니에 담아두었던 상품에 대한 ‘기간 한정 할인 쿠폰’이 포함된 이메일이 자동으로 발송된다.
    2. 개인화된 리타겟팅 광고: 이 고객이 소셜 미디어를 이용할 때, 그가 탐색했던 상품과 연관된 상품의 광고가 자동으로 노출된다. 이 모든 광고 집행은 마케터의 수동 개입 없이, 고객이 특정 세그먼트로 분류되는 순간 자동으로 트리거된다.
    3. 선제적 고객 관리 시스템: 이 고객이 3일 내에 재방문하지 않을 경우, CRM 시스템에 알림이 생성되어 고객센터에서 ‘궁금한 점이 없는지’ 확인하는 해피콜을 진행하도록 자동으로 업무를 할당한다.