전통적인 2차원 고객 분석의 한계를 지적하며, 3차원 변수를 동시에 고려하는 새로운 클러스터링 알고리즘을 제안하여 더 입체적이고 정확한 고객 세분화의 가능성을 제시한 연구이다.
논문 요약
- 논문 제목: A Novel 3D Clustering Algorithm for Customer Segmentation
- 저자: Hsuan-Che Pao 외
- 게재 학술지: IEEE
- 발행 연도: 2024
- 핵심 요약: 고객의 구매 빈도, 구매액 등 2차원 변수에 의존하던 기존 군집분석의 한계를 극복하고자, 3차원 변수를 종합적으로 고려하는 새로운 군집 알고리즘을 개발했다. 이 알고리즘은 실제 및 인공 데이터를 통해 더 정교하고 의미 있는 고객 그룹 분류가 가능함을 성공적으로 검증했다.
연구 배경
이 연구는 고객을 더 정확하게 이해하고 예측하기 위해, 기존의 평면적 데이터 분석에서 벗어나 다차원적 공간에서 고객을 분석하려는 시도에서 출발한다.
고객 관계 관리(CRM)의 핵심은 **고객 세분화(Customer Segmentation)**에 있다. 모든 고객을 동일하게 대하는 대신, 유사한 특성과 니즈를 가진 그룹으로 묶어 맞춤형 마케팅을 제공하는 것이 훨씬 효율적이기 때문이다. 이를 위해 오랫동안 사용된 고전적인 모델이 바로 RFM(Recency, Frequency, Monetary) 모델이다. 이는 고객의 최근 방문일, 방문 빈도, 총구매액이라는 세 가지 지표를 활용해 고객을 분류하는 방식이다.
하지만 RFM의 세 가지 지표를 모두 동시에 고려하여 최적의 그룹을 찾는 것은 기술적으로 간단하지 않다. 따라서 많은 경우, 두 가지 변수(예: 빈도와 구매액)만을 축으로 하는 2차원 평면에서 고객을 분석해왔다. K-Means와 같은 전통적인 클러스터링(Clustering) 알고리즘 역시 이러한 분석에 널리 쓰였지만, 데이터가 복잡한 형태를 띠거나 군집별 밀도가 다를 경우 정확도가 떨어지는 한계가 있었다. 본 연구는 바로 이러한 한계를 극복하고, 3개의 축을 온전히 활용하여 고객을 ‘공간’ 안에서 입체적으로 이해하려는 필요성에서 시작되었다.
해결하려는 문제
기존 2차원 변수 기반의 고객 분류 방식이 제공하는 단편적인 인사이트의 한계를 극복한다.
마케팅 실무에서 ‘구매 빈도’와 ‘총구매액’ 두 가지만으로 고객을 분류한다고 가정해보자. ‘구매는 뜸하지만 한번 살 때 많이 사는 고객’과 ‘최근에 큰 금액을 구매하고 이탈한 고객’은 2차원 그래프 상에서 비슷한 위치에 존재할 수 있다. 이처럼 단편적인 정보에만 의존하면, 전혀 다른 행동 패턴과 잠재 가치를 지닌 고객을 하나의 그룹으로 오인하여 잘못된 마케팅 전략을 수립할 위험이 크다. 본 연구가 해결하려는 핵심 문제는 바로 이것이다. 2차원 분석의 평면적 시각에서 벗어나, 3차원 공간에서 고객을 종합적으로 분석함으로써 숨겨진 고객 페르소나를 발견하고, 더 정교한 타겟팅을 가능하게 하는 새로운 방법론을 제시하는 것이다.
연구 모형
3차원 공간에서 데이터 포인트의 밀도와 분포를 직접 계산하여 군집을 식별하는 새로운 알고리즘을 설계하고 제안한다.
본 연구는 기존의 범용 클러스터링 알고리즘을 3차원 데이터에 단순히 적용하는 것을 넘어, 3차원 공간의 특성에 최적화된 새로운 알고리즘을 직접 설계했다. 이 연구 모형의 핵심 아이디어는 고객 데이터를 3차원 정육면체(Cube) 안에 분포된 점들이라고 상상하는 것에서 시작한다.
- 공간 분할: 전체 데이터 공간을 작은 정육면체 셀(Cell)들로 잘게 나눈다.
- 밀도 계산: 각 셀에 얼마나 많은 데이터 포인트(고객)가 포함되어 있는지 계산하여 ‘밀도’를 측정한다.
- 군집 핵 식별: 밀도가 문턱값(Threshold) 이상으로 높은 셀들을 ‘군집의 핵(Core)’으로 식별한다.
- 군집 확장: 식별된 핵들을 시작점으로, 주변에 인접한 밀도 높은 셀들을 찾아내며 점차 군집의 영역을 확장해 나간다.
이 방식은 K-Means처럼 군집의 모양이 원형이어야 한다는 가정이 없기 때문에, 길고 구불구불하거나 복잡한 형태의 고객 그룹도 효과적으로 찾아낼 수 있다. 즉, 데이터의 자연스러운 분포 자체를 존중하며 군집을 형성하는 것이 이 연구 모형의 핵심이다.
데이터 설명
알고리즘의 성능 검증을 위해 의도적으로 특정 패턴을 갖도록 생성된 인공 데이터와 실제 익명화된 고객 데이터를 함께 사용한다.
이 연구는 제안한 알고리즘의 우수성을 객관적으로 입증하기 위해 두 종류의 데이터를 활용했다. 이는 Web2 환경의 고객 데이터이며, 블록체인 온체인 데이터는 아니다.
- 출처: 논문에 구체적인 출처는 명시되지 않음. 사용된 데이터는 연구진이 직접 생성한 인공 데이터셋(Synthetic Dataset)과, 익명화 처리된 실제 세계의 고객 구매 데이터(Real-world Dataset)이다. 실제 데이터는 특정 기업과의 협력을 통해 확보한 내부 판매 기록일 가능성이 높다.
- 수집 방법: 인공 데이터는 의도된 군집 형태(예: 나선형, 구형 등)를 갖도록 통계적 방법론에 따라 생성되었다. 실제 데이터는 특정 기간 동안의 고객 거래 로그가 저장된 기업 내부 데이터베이스에서 추출했을 것으로 추정된다.
- 데이터 변수 설명: 이 연구는 3차원 클러스터링에 초점을 맞추므로, 고객 행동을 나타내는 3개의 핵심 축을 변수로 사용했다. 이는 고전적인 RFM 모델에 기반을 두고 있다.
- 차원 1 (X축) – 고객 관계성 (Recency): 고객이 마지막으로 구매한 시점으로부터 얼마나 시간이 흘렀는가.
- 차원 2 (Y축) – 고객 활동성 (Frequency): 특정 기간 동안 고객이 얼마나 자주 구매했는가.
- 차원 3 (Z축) – 고객 기여도 (Monetary): 특정 기간 동안 고객이 지출한 총금액은 얼마인가.
데이터 분석
제안된 3D 클러스터링 알고리즘을 인공 및 실제 데이터에 적용하고, 그 결과를 전통적인 클러스터링 기법과 비교하여 성능의 우수성을 증명한다.
분석 과정은 제안된 알고리즘의 성능을 다각도에서 검증하는 데 초점을 맞췄다.
첫째, 인공 데이터셋을 이용한 성능 평가를 진행했다. 연구진은 자신들이 정답을 알고 있는 다양한 형태의 인공 데이터를 생성한 뒤, 제안 알고리즘이 얼마나 정확하게 숨겨진 군집들을 찾아내는지를 테스트했다. 이는 알고리즘의 근본적인 성능과 한계를 파악하기 위한 과정이다.
둘째, 실제 고객 데이터를 이용한 실용성 검증을 수행했다. 익명화된 실제 구매 데이터를 제안 알고리즘으로 분석하여, 비즈니스적으로 의미 있는 고객 그룹이 도출되는지를 확인했다.
마지막으로, 이렇게 도출된 결과를 K-Means와 같은 기존의 표준 클러스터링 알고리즘의 결과와 비교 분석했다. 실루엣 스코어(Silhouette Score)와 같은 정량적 평가 지표와 함께, 각 군집의 특성을 질적으로 분석하여 제안 알고리즘이 얼마나 더 정교하고 논리적인 고객 세분화를 가능하게 하는지를 비교함으로써 그 우수성을 입증했다.
핵심 결과
제안된 3D 알고리즘은 기존 방식보다 더 정교하고 의미론적으로 풍부한 고객 그룹을 식별해냈으며, 특히 데이터의 밀도가 다양한 복잡한 분포에서 뛰어난 성능을 보였다.
분석 결과, 본 논문에서 제안한 3D 클러스터링 알고리즘은 기존의 방법론들을 여러 측면에서 능가하는 성과를 보였다.
인공 데이터 테스트에서, K-Means와 같은 알고리즘들이 제대로 구분하지 못하는 나선형이나 밀도가 불균일한 형태의 군집을 성공적으로 식별해냈다. 이는 알고리즘이 데이터의 복잡한 구조를 효과적으로 파악할 수 있음을 의미한다.
더 중요한 것은 실제 고객 데이터 분석 결과이다. 기존 방식으로는 하나의 거대한 덩어리로 분류되었던 고객 그룹 내에서, 제안 알고리즘은 ‘최근에 소액을 자주 구매한 충성 고객 그룹’과 ‘과거에 큰 금액을 구매했지만 현재는 이탈 조짐을 보이는 휴면 고객 그룹’처럼, 마케팅적으로 전혀 다른 접근이 필요한 세부 그룹들을 명확하게 분리해냈다. 이는 3개의 변수를 동시에 고려함으로써 얻을 수 있는 정보의 깊이가 훨씬 풍부하다는 것을 실증적으로 보여준 핵심적인 결과이다.
시사점
효과적인 고객 관계 관리를 위해서는 단편적 지표를 넘어 고객 데이터를 다차원적으로 해석하려는 지속적인 방법론적 혁신이 필수적이다.
이 연구는 마케터와 데이터 분석가들에게 중요한 실무적 시사점을 던져준다.
첫째, 고객을 이해하기 위한 변수는 많을수록 좋다. RFM이라는 3가지 변수조차도 2가지만 사용할 때와 3가지를 모두 활용할 때 인사이트의 질이 크게 달라진다. 이는 우리가 수집 가능한 모든 데이터를 통합하여 고객을 **다차원적(Multi-dimensional)**으로 바라보려는 노력이 중요함을 의미한다.
둘째, 새로운 데이터에 맞는 새로운 분석 도구가 필요하다. 데이터의 차원과 복잡성이 증가함에 따라, 과거의 훌륭했던 분석 도구도 한계를 보일 수 있다. 따라서 최신 알고리즘과 기술 동향을 지속적으로 학습하고, 현재 우리가 가진 데이터에 가장 적합한 방법론이 무엇인지 비판적으로 검토하는 자세가 요구된다. 이러한 노력을 통해 기업은 마케팅 ROI를 극대화하고, 정교한 개인화 서비스를 제공하여 고객 유지율을 높이는 선순환 구조를 만들 수 있다.
인사이트
고객을 점(Dot)이 아닌 공간(Space)으로 보라.
이 논문이 주는 가장 큰 영감은 고객을 단편적인 지표의 조합으로 보는 ‘점’이 아니라, 여러 행동 축이 교차하는 ‘공간’ 속의 존재로 인식해야 한다는 것이다. 이 관점을 적용하면, 기술적 분석 결과를 즉시 사용할 수 있는 마케팅 페르소나와 액션 플랜으로 전환할 수 있다.
- 고객 페르소나 예시: “충동적 VIP (Impulsive VIP), 김지갑”
- 3D 공간 좌표: [Recency: 상위 10% (최근), Frequency: 하위 20% (뜸함), Monetary: 상위 5% (고액)]
- 해석: 평소에는 앱 방문조차 거의 없다가, 1년에 한두 번 특정 시점에 나타나 고가의 신제품을 구매하고 사라지는 패턴을 보인다. 2D 분석(빈도-금액)에서는 ‘저빈도 고가치 고객’으로 분류되어 ‘곧 이탈할 고객’으로 오인되기 쉽다. 하지만 ‘최근성’이라는 축을 더해 3D 공간에서 보면, ‘최근에 큰 만족감을 느끼고 떠난, 재방문 가능성이 높은 VIP’라는 전혀 다른 페르소나가 탄생한다.
- 실질적인 마케팅 액션 제안
- VIP 휴면 방지 알림: ‘김지갑’ 페르소나 고객이 마지막 구매 후 90일이 지나는 시점에, “지난번 구매하신 OOO 제품은 만족스러우셨나요? VIP 고객님을 위해 신제품 라인업을 가장 먼저 공개합니다.”와 같은 개인화된 푸시 알림이나 이메일을 발송하여 관계를 유지한다.
- 예측 기반 신제품 타겟팅: 이들의 구매 패턴이 특정 카테고리의 ‘신제품 출시 주기’와 일치하는지 분석한다. 만약 일치한다면, 다음 신제품 출시 1주일 전에 이들에게만 VIP 프리오더(Pre-order) 혜택을 제공하여 충동적인 구매를 전략적으로 유도한다.