머신러닝을 이용한 고객세분화에 관한 연구 리뷰

전통적인 RFM 분석부터 K-평균 군집분석, 서포트 벡터 머신(SVM) 등 다양한 머신러닝 알고리즘을 활용한 고객 세분화 방법론들을 비교하고, 각 기법의 장단점과 활용 가능성을 탐색한다.


논문 요약

  • 논문 제목: 머신러닝을 이용한 고객세분화에 관한 연구
  • 저자: 김담희, 안가경
  • 게재 학술지: 융합보안논문지
  • 발행 연도: 2018
  • 핵심 요약: 효과적인 고객 세분화를 위해 다양한 머신러닝 기법을 비교 분석했다. 전통적인 RFM 분석을 기준으로, 비지도학습인 K-평균 군집분석과 지도학습인 서포트 벡터 머신(SVM)을 동일한 고객 데이터에 적용하여 각 방법론의 특성과 장단점을 평가했다. 이를 통해 머신러닝 기법이 고객의 다차원적인 특성을 반영하여 세분화의 질을 높일 수 있으며, 비즈니스 목적에 맞는 적절한 모델 선택의 중요성을 강조했다.

연구 배경

모든 고객을 동일하게 대할 수 없다는 것은 마케팅의 오랜 격언이다. 이 연구는 고객을 ‘어떻게’ 의미 있는 그룹으로 나눌 것인가라는 근본적인 질문에 대해, 머신러닝이라는 현대적인 도구 상자 속 다양한 연장들을 비교하고 그 사용법을 제시한다.

**고객 세분화(Customer Segmentation)**는 전체 고객을 비슷한 특성을 가진 동질적인 소그룹으로 나누어, 각 그룹에 최적화된 마케팅 전략을 실행하기 위한 CRM의 핵심적인 첫 단계이다. 이 과정에서 어떤 기준으로, 어떤 방법론을 사용하느냐에 따라 세분화의 질과 유용성이 크게 달라진다.

  • 전통적 접근법: RFM 분석: 과거에는 고객의 구매 행동 데이터인 **최근성(Recency), 빈도(Frequency), 금액(Monetary)**을 기준으로 고객 등급을 나누는 RFM 분석이 널리 사용되었다. 이는 간단하고 직관적이지만, 고객의 다양한 다른 특성을 반영하지 못하는 한계가 있다.
  • 비지도학습 접근법: K-평균 군집분석 (K-Means Clustering): RFM 외에 고객의 인구통학적 정보, 온라인 행동 등 더 많은 변수를 사용하여, 데이터 내에 자연적으로 존재하는 그룹을 **’발견’**하는 기법이다. 미리 정해진 정답 없이, 데이터 포인트 간의 거리를 기반으로 유사한 고객들을 자동으로 묶어준다.
  • 지도학습 접근법: 서포트 벡터 머신 (SVM, Support Vector Machine): SVM은 주로 두 그룹의 데이터를 가장 잘 구분하는 ‘경계선(결정 경계)’을 찾는 데 사용되는 강력한 분류 알고리즘이다. 고객 세분화에서는, 예를 들어 K-평균으로 나뉜 그룹을 ‘정답’으로 삼아, 각 그룹의 특징을 학습하고 새로운 고객을 기존 그룹 중 하나로 **’분류’**하는 데 활용될 수 있다.

이 연구는 이처럼 다양한 세분화 방법론들을 하나의 장에 모아놓고, 각 기법이 어떻게 작동하며 어떤 차이가 있는지를 비교 분석하여, 실무자들이 자신의 비즈니스 문제에 가장 적합한 도구를 선택할 수 있도록 돕는다.


해결하려는 문제

단 하나의 ‘만능’ 세분화 모델은 없다는 전제 하에, 다양한 머신러닝 알고리즘들을 동일한 데이터에 적용하여 각 기법의 성능과 특성을 비교하고, 주어진 비즈니스 문제에 가장 적합한 모델을 선택하기 위한 가이드라인을 제시한다.

데이터 분석가는 고객 세분화 프로젝트를 시작할 때 여러 가지 선택의 기로에 놓인다.

  • 단순한 RFM으로 충분할까? 아니면 더 복잡한 머신러닝을 써야 할까?
  • 미리 정해진 그룹이 없을 때, K-평균과 같은 군집분석으로 그룹을 찾아내야 할까?
  • 아니면 기존에 알려진 우량고객/이탈고객 그룹의 특징을 SVM과 같은 분류 모델로 학습시켜야 할까?

이러한 질문에 대한 정답은 비즈니스의 목적과 데이터의 특성에 따라 달라진다. 이 연구가 해결하고자 하는 문제는 바로 이 **’모델 선택의 불확실성’**이다. 특정 알고리즘의 우수성을 주장하기보다는, 다양한 주요 머신러닝 기법들을 동일한 데이터셋에 적용했을 때 어떤 결과의 차이가 나타나는지를 보여주는 ‘비교 실험 보고서’를 작성하는 것을 목표로 한다. 이를 통해 각 방법론의 장단점을 명확히 하고, 데이터 기반 고객 세분화를 시도하는 실무자들에게 실질적인 참고 기준을 제공하고자 한다.


연구 모형

동일한 고객 데이터셋에 전통적인 RFM 분석, K-평균 군집분석, SVM 기반 분류 등 여러 세분화 방법론을 각각 적용하고, 그 결과로 도출된 고객 세그먼트의 특성과 유용성을 비교 평가하는 실험적 연구 모형을 따른다.

본 연구는 다양한 머신러닝 세분화 기법의 결과를 비교하기 위한 실험적 연구(Experimental Research) 설계를 채택했다.

  1. 데이터 준비: 분석을 위한 공통 고객 데이터셋을 준비한다. 데이터에는 고객의 인구통계학적 정보, 거래 이력, 온라인 행동 데이터 등이 포함된다.
  2. 방법론 적용: 준비된 데이터셋에 다음과 같은 여러 세분화 방법론을 각각 적용한다.
    • 모델 A (Baseline): 전통적인 RFM 점수를 계산하고, 이를 기준으로 고객을 몇 개의 등급으로 분류한다.
    • 모델 B (비지도학습): RFM을 포함한 다차원의 고객 특징 벡터를 생성하고, K-평균 군집분석을 적용하여 고객을 K개의 군집으로 나눈다.
    • 모델 C (지도학습 연계): 모델 B에서 생성된 군집 라벨을 ‘정답’으로 간주한다. 이 라벨을 예측하도록 SVM 분류 모델을 학습시킨다.
  3. 결과 비교 분석:
    • 각 모델이 생성한 세그먼트들의 특징을 비교 분석한다. (예: 각 세그먼트의 평균 RFM 점수, 인구통계 분포 등)
    • 각 방법론이 어떤 종류의 고객 그룹을 더 잘 식별해내는지, 그리고 비즈니스 활용 관점에서 어떤 모델이 더 유용한 인사이트를 제공하는지 질적으로 평가한다.

데이터 설명

온라인 또는 오프라인 리테일 기업의 고객 프로필 및 거래 데이터를 활용했으며, 고객별 구매 패턴과 인구통계 정보를 포함하는 오프체인(Off-chain) 데이터이다.

  • 출처: 논문에 구체적인 데이터 출처는 명시되지 않았으나, 일반적인 B2C 리테일 기업의 CRM 데이터베이스에서 추출된 데이터를 가상으로 상정하거나 사용한 것으로 보인다. 데이터의 성격은 오프체인(Off-chain) 데이터이다.
  • 수집 방법: 기업 내부의 데이터웨어하우스에서 고객 프로필 데이터와 거래 데이터를 추출하여 고객 ID를 기준으로 통합했을 것으로 추정된다.
  • 데이터 변수 설명: 머신러닝 모델의 입력으로 사용될 수 있는 고객 관련 변수들은 다음과 같이 구조화할 수 있다.
    • 고객 프로필 정보:
      • CustomerID: 고객 고유 식별자
      • Age, Gender, Region: 인구통계학적 변수
      • Membership_Tier: 회원 등급 (예: Silver, Gold, VIP)
    • 구매 행동 정보 (RFM 및 파생 변수):
      • Recency: 마지막 구매일로부터 경과 시간
      • Frequency: 총 구매 횟수
      • Monetary: 총 구매 금액
      • Average_Purchase_Value: 평균 객단가
      • Number_of_Categories_Purchased: 구매한 상품 카테고리의 다양성
    • 온라인 행동 정보 (가용한 경우):
      • Visit_Frequency: 웹사이트/앱 방문 빈도
      • Session_Duration: 평균 세션 체류 시간

이 변수들이 조합되어 각 고객을 표현하는 하나의 ‘특징 벡터’를 형성하고, 이 벡터가 머신러닝 모델의 입력으로 사용된다.


데이터 분석

K-평균과 SVM 등 머신러닝 기법을 적용한 결과, RFM만 사용했을 때보다 고객의 다차원적인 특성을 반영한, 더 명확하고 안정적인 고객 세그먼트를 구축할 수 있었다.

본 연구의 데이터 분석은 각기 다른 철학을 가진 세분화 방법론들을 동일한 데이터에 적용하고 그 결과를 비교하는 방식으로 이루어졌다.

  • RFM 분석: 고객을 RFM 점수에 따라 단순히 ‘우량고객’, ‘일반고객’, ‘휴면고객’ 등으로 나누었다. 이는 이해하기 쉽지만, 고객의 다양한 다른 행동 특성을 놓치는 한계를 보였다.
  • K-평균 군집분석: RFM 변수 외에 다른 행동 변수들까지 포함하여 고객을 분석한 결과, RFM만으로는 발견할 수 없었던 새로운 그룹들이 나타났다. 예를 들어, 구매액(M)은 낮지만 방문 빈도(Visit Frequency)가 매우 높은 ‘잠재적 충성 고객’ 그룹이나, 최근 구매(R)는 없지만 과거 구매액(M)이 매우 높았던 ‘관리가 필요한 VIP’ 그룹 등이 식별되었다. 이는 머신러닝이 더 다차원적인 관점에서 고객을 바라볼 수 있음을 보여준다.
  • SVM 적용: K-평균으로 나뉜 그룹의 특징을 SVM 모델로 학습시켰다. 이를 통해 각 그룹을 구분 짓는 명확한 ‘결정 경계’를 찾을 수 있었고, 이는 향후 새로운 고객이 유입되었을 때, 전체 군집분석을 다시 수행할 필요 없이 이 SVM 분류기를 통해 즉시 기존 그룹 중 하나로 할당할 수 있는 운영 시스템(Operational System) 구축의 가능성을 제시했다.

핵심 결과

머신러닝 기반 세분화는 RFM 분석에 비해 고객 그룹의 특성을 더 풍부하게 포착했으며, SVM과 같은 분류 모델을 통해 세분화 경계를 명확히 하고 신규 고객을 기존 세그먼트에 자동으로 할당하는 시스템 구축의 가능성을 보였다.

본 연구의 핵심 결과는 머신러닝 기법이 전통적인 RFM 분석보다 더 우수한 고객 세분화 결과를 제공한다는 것을 확인한 것이다. K-평균 군집분석은 고객의 다양한 특성을 동시에 고려하여, 비즈니스적으로 더 의미 있고 실행 가능한 고객 그룹을 발견해냈다.

더 나아가, 이 연구는 군집분석(비지도학습)과 분류(지도학습)를 결합하는 하이브리드 접근법의 유용성을 보여주었다.

  1. 먼저, 군집분석을 통해 데이터에 숨겨진 자연스러운 고객 그룹 구조를 **’발견’**한다.
  2. 그 다음, 발견된 그룹의 특성을 분류 모델로 **’학습’**시킨다.
  3. 마지막으로, 학습된 분류 모델을 사용하여 새로운 고객을 기존 그룹에 **’할당’**한다.

이러한 파이프라인은 일회성 분석으로 끝나는 것이 아니라, 지속적으로 새로운 고객을 분류하고 관리할 수 있는 자동화된 CRM 시스템을 구축하는 데 핵심적인 아이디어를 제공한다.


시사점

최적의 고객 세분화는 단일 기법에 의존하기보다, 군집분석으로 그룹을 ‘발견’하고 분류 모델로 그룹의 특징을 ‘학습’하는 등, 여러 머신러닝 기법을 비즈니스 목적에 맞게 조합하여 활용할 때 가능하다.

이 연구는 데이터 기반 마케팅을 수행하는 실무자들에게 다음과 같은 중요한 시사점을 제공한다.

첫째, 하나의 방법론이 모든 것을 해결해주지는 않는다. 비즈니스 문제의 성격에 따라 적합한 분석 도구는 달라진다. 데이터에 숨겨진 새로운 그룹을 탐색적으로 찾고 싶을 때는 ‘군집분석’이, 이미 정의된 그룹(예: VIP/일반)의 특성을 학습하고 싶을 때는 ‘분류’가 더 적합하다. 이 연구는 이 둘을 결합할 때 더 큰 시너지를 낼 수 있음을 보여준다.

둘째, 세분화 모델은 ‘운영 가능성(Operationality)’을 고려해야 한다. 분석 결과를 보고서로만 남기는 것이 아니라, 실제 마케팅 활동에 적용하기 위해서는 모델이 실시간으로 새로운 고객을 분류하고 예측을 제공할 수 있어야 한다. 군집분석과 분류 모델을 결합하는 하이브리드 접근법은 이러한 운영 시스템을 구축하는 효과적인 방법이 될 수 있다.


인사이트

정답은 하나가 아니다. 최고의 ‘연장’은 없고, 최고의 ‘연장 조합’만 있을 뿐이다.

이 논문은 특정 알고리즘에 대한 맹신을 경계하고, 문제 해결을 위한 ‘최적의 파이프라인’을 설계하는 것의 중요성을 강조한다. 고객이라는 복잡한 대상을 이해하기 위해서는, 하나의 렌즈가 아닌 여러 개의 렌즈(알고리즘)를 겹쳐서 입체적으로 바라보는 지혜가 필요하다.

  • 페르소나 예시: “다각적 투자자, 포트폴리오 폴(Paul)”
    • 특징: 폴은 단순히 한 가지 활동만 하지 않는다. 그는 유니스왑에서 스왑을 하고(DeFi), OpenSea에서 NFT를 사며(NFT), ENS 도메인을 등록하고(Identity), Gitcoin에 기부도 한다(Social Good). 그를 단순히 RFM과 같은 단일 척도로 평가하면 그의 다각적인 성향을 놓치게 된다.
    • 데이터 기반 행동: 다양한 카테고리의 dApp과 상호작용. 특정 카테고리에 치우치지 않은 균형 잡힌 활동 패턴.
  • 실질적인 마케팅 액션 제안:
    1. 하이브리드 세분화 모델 적용: 폴과 같은 다차원적 사용자를 이해하기 위해, 먼저 K-평균 군집분석을 사용하여 1차적으로 ‘고가치 그룹’을 찾아낸다. 그 다음, 이 ‘고가치 그룹’ 내에서 SVM이나 의사결정나무와 같은 분류 모델을 사용하여 **”이 고가치 고객은 DeFi 성향이 강한가, 아니면 NFT 성향이 강한가?”**를 다시 세분화하는 다단계(Multi-step) 세분화를 수행한다.
    2. 실시간 개인화 오퍼링: 새로운 사용자가 생태계에 진입하면, 그의 초기 몇 개 트랜잭션을 학습된 분류 모델에 입력하여 “이 사용자는 ‘NFT 중심 고가치’ 그룹에 속할 확률이 70%입니다”라고 실시간으로 분류한다. 이 분류 결과에 따라, 해당 사용자가 접속하는 dApp의 메인 화면에 NFT 마켓플레이스 관련 정보를 우선적으로 노출한다.
    3. 세그먼트별 교차 판매 전략: SVM 모델의 결정 경계 분석을 통해, ‘DeFi 중심’ 고객을 ‘NFT 중심’ 고객으로 전환시킬 수 있는 가장 효과적인 행동(예: 특정 NFT-Fi 프로토콜 사용)이 무엇인지 파악하고, 해당 행동을 유도하는 타겟 캠페인을 설계하여 고객의 생애 가치를 극대화한다.