Customer Segmentation Using Support Vector Machine 리뷰

K-평균 군집분석으로 초기 고객 세그먼트를 생성한 후, 서포트 벡터 머신(SVM)을 이용해 세그먼트 간의 경계를 명확히 학습함으로써, 신규 고객을 더 정확하게 분류하는 하이브리드 모델을 제시한다.

논문 요약

  • 논문 제목: Customer Segmentation Using Support Vector Machine
  • 저자: R. F. Malik, F. A. Bachtiar
  • 게재 학술지: AIP Publishing
  • 발행 연도: 2023
  • 핵심 요약: K-평균 군집분석으로 생성된 클러스터를 레이블로 사용하여 SVM(서포트 벡터 머신) 분류기를 학습시키는 하이브리드 모델을 제안했으며, 이를 통해 비선형적인 경계를 가진 고객 세그먼트를 효과적으로 분류할 수 있음을 보였다.

연구 배경

고객 세분화를 위한 하이브리드 모델(비지도학습 + 지도학습)의 연구가 활발해지면서, 지도학습 단계에서 어떤 분류기(Classifier)를 사용하는지가 중요한 연구 주제로 떠올랐다. 결정트리(Decision Tree)가 해석의 용이성이라는 장점을 가진다면, **서포트 벡터 머신(SVM, Support Vector Machine)**은 분류의 정확성과 **강건성(Robustness)**에서 강점을 보이는 모델이다.

SVM의 핵심 아이디어는 각기 다른 클래스(세그먼트)에 속한 데이터들을 가장 잘 구분하는 최적의 ‘경계면(Hyperplane)’을 찾는 것이다. 특히 SVM은 이 경계면과 가장 가까운 데이터 포인트(이를 ‘서포트 벡터’라 부른다) 간의 간격, 즉 ‘마진(Margin)’을 최대화하는 방식으로 경계를 결정한다. 이 연구는 이러한 SVM의 특성을 활용하면, 복잡하고 경계가 모호한 고객 데이터에 대해 더 명확하고 안정적인 분류 기준을 수립할 수 있을 것이라는 가정에서 출발했다.


해결하려는 문제

기존 군집분석만으로는 세그먼트 간 경계가 모호할 수 있으며, 이를 명확한 분류 경계면으로 정의하여 신규 고객 분류의 정확성과 강건성을 높이고자 했다.

K-평균 군집분석은 각 군집의 ‘중심’을 찾는 데는 뛰어나지만, 군집과 군집 사이의 ‘경계’를 명확하게 정의해주지는 않는다. 이로 인해 어떤 신규 고객의 데이터가 두 군집의 중간쯤에 위치할 경우, 이 고객을 어느 세그먼트로 분류해야 할지 애매해지는 문제가 발생한다. 이는 분류의 일관성을 해치고 마케팅 대응의 혼란을 야기할 수 있다.

이 연구는 이러한 ‘애매한 경계’의 문제를 해결하고자 한다. 단순히 그룹을 나누는 것을 넘어, SVM을 통해 각 그룹을 나누는 수학적으로 최적화된 경계선을 명확하게 긋는 것을 목표로 한다. 이를 통해 경계에 걸쳐 있는 고객이라도 더 일관되고 정확하게 분류할 수 있는, 한 단계 진보한 세분화 모델을 구축하고자 했다.


연구 모형

K-평균 군집분석(비지도학습)으로 고객 세그먼트 레이블을 생성한 후, 이 레이블을 SVM 분류기(지도학습)가 학습하여 세그먼트 간의 최적의 경계면(결정 경계)을 찾는 하이브리드 모델을 구축했다.

이 연구의 모델은 K-평균과 SVM의 장점을 결합한 2단계 하이브리드 구조를 가진다.

  1. 1단계: 군집 레이블 생성 (Unsupervised Clustering): 기존 고객 데이터(RFM 등)에 K-평균 군집분석을 적용하여, 각 고객을 몇 개의 잠정적인 세그먼트(클러스터)로 나눈다. 이 결과, 모든 고객은 자신이 속한 세그먼트의 ID를 ‘레이블’로 갖게 된다.
  2. 2단계: 결정 경계 학습 (Supervised Boundary Learning with SVM): 1단계에서 레이블이 부여된 데이터를 학습 데이터로 사용한다. SVM 분류기는 이 데이터를 학습하여 각 세그먼트를 구분하는 **마진이 최대화된 경계면(Maximum Margin Hyperplane)**을 찾는다. 특히, SVM은 **커널 트릭(Kernel Trick)**을 통해 직선으로 나눌 수 없는 복잡한 데이터(비선형 데이터)도 고차원 공간으로 보내 효과적으로 분리하는 경계면을 학습할 수 있다.

학습이 완료되면, 신규 고객의 데이터가 이 경계면의 어느 쪽에 위치하는지를 판별하여 즉시 해당 고객의 세그먼트를 분류할 수 있다.


데이터 설명

쇼핑몰 고객의 RFM(Recency, Frequency, Monetary) 데이터를 활용하여 세분화 모델을 구축했다.

  • 출처: 논문에 구체적인 데이터셋 출처는 명시되지 않았음. 연구의 내용과 변수 구성을 볼 때, 캐글(Kaggle)이나 UCI Machine Learning Repository 등에 공개된 RFM 기반의 표준 전자상거래 고객 데이터셋을 활용했을 가능성이 높다.
  • 온체인 여부: 온체인 데이터가 아닌, 일반적인 기업의 오프체인(Off-chain) 데이터이다.
  • 수집 방법: 공개된 데이터셋을 활용했으며, 이는 일반적으로 특정 기간 동안의 고객 구매 기록을 집계하여 RFM 지표를 사전에 계산해 놓은 형태의 데이터이다.
  • 데이터 변수 설명: 모델은 고객 가치 평가의 가장 고전적이고 핵심적인 RFM 변수를 기반으로 구축되었다.
    • 입력 변수 (Features – X): 고객의 가치를 직접적으로 나타내는 3가지 핵심 지표.
      • Recency: 최근성 (얼마나 최근에 방문했는가).
      • Frequency: 방문 빈도 (얼마나 자주 방문했는가).
      • Monetary: 구매 총액 (얼마나 많이 구매했는가).
    • 파생 종속 변수 (Target – Y):
      • Cluster_ID: 1단계 K-평균 군집분석을 통해 각 고객의 RFM 데이터에 할당된 군집 번호(예: 0, 1, 2). 이 변수는 2단계 SVM 모델이 학습하고 예측해야 할 **’정답 세그먼트’**가 된다.

데이터 분석

K-평균 군집분석으로 3개의 고객 세그먼트(‘Best’, ‘Potential’, ‘Low’)를 생성한 후, SVM 모델이 이 세그먼트들을 얼마나 정확하게 분류하는지 성능을 평가했다.

분석 과정은 명확하게 두 단계로 이루어졌다. 첫 번째 단계에서는 RFM 데이터를 이용하여 K-평균 군집분석을 수행했다. 연구자들은 K=3일 때 가장 해석하기 좋고 안정적인 군집이 형성된다고 판단하고, 각 군집을 RFM 점수에 따라 ‘Best Customer’, ‘Potential Customer’, ‘Low Customer’로 명명했다.

두 번째 단계에서는 이렇게 생성된 3개의 레이블을 정답으로 삼아 SVM 분류기를 학습시켰다. SVM이 이 3개의 클래스를 얼마나 잘 구별해내는지 평가하기 위해, 학습에 사용되지 않은 데이터를 이용하여 모델의 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 등의 성능 지표를 측정했다. 이를 통해 제안된 하이브리드 모델이 실제로 효과적으로 작동하는지를 검증했다.


핵심 결과

K-평균과 SVM을 결합한 하이브리드 모델은 RFM 데이터를 기반으로 고객을 성공적으로 세분화하고 분류했으며, SVM이 세그먼트 간의 경계를 효과적으로 학습할 수 있음을 보여주었다.

연구 결과, 제안된 K-평균 + SVM 하이브리드 모델은 고객을 성공적으로 분류하는 높은 성능을 보였다. 이는 SVM이 K-평균 군집분석을 통해 암묵적으로 형성된 세그먼트 간의 경계를 명확한 결정 경계(Decision Boundary)로 학습할 수 있음을 의미한다. 특히 SVM은 **커널 트릭(Kernel Trick)**을 통해 RFM 변수들 간의 비선형적 관계까지 고려하여 분류 경계를 설정할 수 있기 때문에, 단순한 선형 모델보다 더 복잡한 패턴을 가진 고객 데이터를 효과적으로 처리할 수 있는 잠재력을 보여주었다.


시사점

세분화 모델의 목적이 단순히 그룹을 나누는 것을 넘어, 신규 고객을 ‘정확하게’ 분류하는 것이라면, SVM과 같이 경계면을 명확히 정의하는 강력한 분류기를 결합하는 것이 효과적인 전략이다.

이 연구는 하이브리드 세분화 모델을 구축할 때, 2단계에서 어떤 지도학습 모델을 선택하느냐에 따라 그 성격이 달라질 수 있음을 시사한다. 만약 마케터가 분류의 ‘이유’를 이해하는 것이 중요하다면 해석이 용이한 결정트리가 좋은 선택일 수 있다. 하지만, 세그먼트 간의 특성이 복잡하게 얽혀있어 분류의 ‘정확성’과 ‘안정성’이 더 중요하다면, SVM과 같이 최적의 경계면을 찾는 데 특화된 모델이 더 나은 선택이 될 수 있다. 따라서 기업은 자신들의 데이터 특성과 세분화의 최종 목적에 따라 적합한 분류기를 전략적으로 선택해야 한다.


인사이트

애매한 고객은 없다, 명확한 ‘경계’가 있을 뿐. AI/빅데이터 마케터의 관점에서 이 논문의 핵심 가치는 ‘애매함’을 줄이고 ‘확신’을 높이는 시스템을 구축할 수 있다는 점이다. 기술적 분석 결과를 실무에 즉시 적용할 수 있는 페르소나와 액션 플랜으로 변환하면 다음과 같다.

  • 고객 페르소나 예시: ‘경계선상의 잠재고객’
    • 이 고객의 행동 점수는 기존의 ‘충성고객’과 ‘일반고객’ 세그먼트의 경계에 아슬아슬하게 걸쳐 있다. 다른 모델이라면 어느 쪽으로 분류할지 망설였을 것이다. 하지만, 마진을 최대화하도록 학습된 SVM 모델은 이 고객이 ‘일반고객’의 경계에서 막 벗어나 ‘충성고객’의 경계로 진입했음을 명확하게 판단한다. 이 고객은 약간의 노력만으로 확실한 충성고객으로 만들 수 있는, 가장 중요한 전환 대상이다.
  • 실질적인 마케팅 액션 아이디어
    1. 경계 고객 전환 캠페인: SVM 모델을 통해 ‘경계선상의 잠재고객’으로 식별된 집단에게는, 일반 ‘충성고객’과는 다른, 전환을 유도하기 위한 특별 웰컴 보너스(예: 더 높은 포인트 적립률)를 제공하는 자동화된 캠페인을 실행한다.
    2. 모델 신뢰도 기반 예산 배분: SVM 모델이 높은 확신을 가지고 특정 세그먼트로 분류한 고객(경계에서 먼 고객)에게는 표준적인 마케팅을, 낮은 확신으로 분류한 고객(경계에 가까운 고객)에게는 추가적인 인센티브를 제공하는 등, 모델의 신뢰도에 따라 마케팅 예산을 차등적으로 배분한다.
    3. A/B 테스트 그룹 자동 생성: SVM의 결정 경계를 기준으로, 경계에 가까운 그룹(A)과 먼 그룹(B)을 자동으로 생성하여, 동일한 마케팅 메시지에 대해 두 그룹의 반응률 차이를 분석하는 정교한 A/B 테스트를 상시 운영한다.