지도학습(구매 예측)과 비지도학습(고객 군집화)을 병렬적으로 수행하고 그 결과를 결합하여, 고객의 행동과 특성을 동시에 고려하는 다차원적인 통합 프로파일을 생성하는 새로운 세분화 프레임워크를 제시한다.
논문 요약
- 논문 제목: Machine Learning based Classification and Segmentation Techniques for CRM: A Customer Analytics
- 저자: Narendra Singh, Pushpa Singh, Krishna Kant Singh, Akansha Singh
- 게재 학술지: Inderscience
- 발행 연도: 2020
- 핵심 요약: 지도학습(구매 예측)과 비지도학습(고객 군집화)을 결합하여, ‘구매할 가능성이 높은 고가치 고객 그룹’과 같이 다차원적인 통합 고객 프로필을 생성하는 방법론을 제시했다.
연구 배경
고객관계관리(CRM)에서 고객을 이해하는 방식은 크게 두 가지로 나뉜다. 하나는 **비지도학습(Unsupervised Learning)**을 이용한 **세분화(Segmentation)**로, 고객의 내재적 특성을 기반으로 유사한 그룹을 찾아내는 것이다. 이는 “우리의 고객은 어떤 유형들로 구성되어 있는가?”라는 질문에 답한다. 다른 하나는 **지도학습(Supervised Learning)**을 이용한 **분류(Classification)**로, 과거 데이터를 학습하여 고객의 미래 행동(예: 구매, 이탈)을 예측하는 것이다. 이는 “이 고객이 다음 달에 구매할 것인가?”라는 질문에 답한다.
전통적으로 이 두 가지 접근법은 별개로 사용되는 경우가 많았다. 하지만 고객에 대한 온전한 이해는 이 두 가지 관점이 결합될 때 가능하다. 예를 들어, ‘가치가 높은 고객’이라는 특성 정보와 ‘곧 이탈할 가능성이 높다’는 예측 정보는 함께 고려되어야만 올바른 마케팅 액션을 취할 수 있다. 이 연구는 이처럼 단편적인 분석의 한계를 극복하고, 두 가지 머신러닝 접근법을 결합하여 더 깊고 실행 가능한 고객 인사이트를 도출하는 통합적인 프레임워크를 제시하고자 한다.
해결하려는 문제
고객을 단편적인 기준으로만 분류(예: 가치, 행동 중 하나)하여 발생하는 정보 손실을 막고, 고객의 ‘정적인 특성’과 ‘동적인 행동 가능성’을 함께 고려하는 통합적인 세분화 방안을 찾고자 했다.
마케터는 종종 상충되는 분석 결과 앞에서 딜레마에 빠진다. 예를 들어, 군집분석 모델은 어떤 고객을 ‘VIP’ 그룹으로 분류했지만, 이탈 예측 모델은 동일한 고객의 ‘이탈 확률이 85%’라고 경고할 수 있다. 이 경우, 이 고객에게 VIP 혜택을 제공해야 할까, 아니면 이탈 방지 캠페인을 진행해야 할까?
이 연구가 해결하려는 핵심 문제는 이러한 단편적 분석이 야기하는 혼란과 비효율이다. 고객을 ‘어떤 그룹에 속하는가(특성)’라는 렌즈와 ‘어떤 행동을 할 것인가(가능성)’라는 렌즈를 통해 동시에 바라봄으로써, “이탈 가능성이 높은 VIP” 또는 “구매 가능성이 높은 일반 고객”과 같이 훨씬 더 구체적이고 전략적인 마이크로 세그먼트(Micro-segment)를 정의하는 방법론을 찾고자 했다.
연구 모형
두 개의 독립적인 머신러닝 모델을 병렬로 실행하는 하이브리드 프레임워크를 제안했다. 하나는 비지도 군집분석을 통해 고객의 ‘유형(Type)’을 정의하고, 다른 하나는 지도학습 분류를 통해 고객의 ‘미래 행동(Action)’을 예측하며, 최종적으로 두 결과를 조합하여 고객을 분석한다.
이 연구의 모델은 순차적인 파이프라인이 아닌, 두 개의 분석 트랙을 병렬적으로 수행하고 그 결과를 종합하는 하이브리드 프레임워크이다.
- 트랙 A: 비지도 세분화 (Unsupervised Segmentation – “Who are they?”)
- 고객의 인구통계학적 정보와 과거 거래 데이터 등을 활용한다.
- K-평균 군집분석과 같은 비지도 학습 알고리즘을 적용하여, 고객들을 데이터의 내재적 특성에 따라 몇 개의 의미 있는 그룹(예: ‘고가치 충성 고객’, ‘저가치 일반 고객’, ‘신규 고객’)으로 나눈다.
- 트랙 B: 지도 분류 (Supervised Classification – “What will they do?”)
- 동일한 고객 데이터와 함께, 과거의 특정 행동 결과(예: 캠페인 반응 여부, 특정 상품 구매 여부)를 ‘정답(Label)’으로 활용한다.
- 의사결정나무나 SVM과 같은 지도학습 알고리즘을 학습시켜, 각 고객의 미래 행동(예: ‘다음 분기 내 구매 확률 75%’)을 예측하는 모델을 만든다.
- 결과 통합 (Synthesis & Integration):
- 두 트랙의 결과를 결합한다. 이제 모든 고객은 ‘어떤 그룹에 속하는지(유형)’와 ‘어떤 행동을 할 가능성이 있는지(확률)’라는 두 가지 차원의 정보를 동시에 갖게 된다. 이를 통해 다차원적인 고객 프로파일 매트릭스를 생성할 수 있다.
데이터 설명
소비자의 인구통계학적 정보, 과거 구매 이력, 캠페인 반응 여부 등을 포함하는 일반적인 CRM 데이터를 활용했다.
- 출처: 논문에 구체적인 출처는 명시되지 않았으나, 통신, 유통, 금융 등 다양한 산업에서 수집될 수 있는 표준적인 고객 데이터셋을 가정하고 분석을 수행했을 것으로 보인다.
- 온체인 여부: 오프체인(Off-chain) 데이터이다.
- 수집 방법: 논문에 명시되지 않음. 일반적으로 기업의 CRM 데이터베이스나 데이터 웨어하우스에서 추출한 데이터를 활용한다.
- 데이터 변수 설명: 이 연구는 두 가지 다른 분석을 위해 데이터를 구조화한다.
- 비지도 군집분석용 변수 (Unsupervised Features): 고객의 내재적인 특성을 나타내는 변수.
고객 속성
: 연령, 소득 수준, 거주 지역 등.과거 거래 행동
: 총 구매액, 구매 빈도, 평균 구매 단가 등.
- 지도 학습용 변수 (Supervised Features & Target):
입력 변수 (X)
: 군집분석용 변수와 동일하거나 유사한 변수들.종속 변수 (Y)
: 예측하고자 하는 특정 목표. (예:캠페인_반응_여부 (1/0)
,이탈_여부 (1/0)
).
- 비지도 군집분석용 변수 (Unsupervised Features): 고객의 내재적인 특성을 나타내는 변수.
데이터 분석
먼저 K-평균 군집분석을 실행하여 고객을 여러 특성 그룹으로 나누었다. 이와 별개로, 의사결정나무나 SVM과 같은 분류 알고리즘을 사용하여 고객의 구매 가능성을 예측했다. 마지막으로, 두 분석 결과를 결합하여 교차 분석을 통해 다차원적인 고객 세그먼트를 정의했다.
데이터 분석은 두 개의 독립적인 프로젝트처럼 동시에 진행되었다. 한편에서는 K-평균 군집분석을 통해 “우리 고객은 어떤 자연스러운 그룹들로 나뉘는가?”라는 질문에 답했다. 다른 한편에서는 고객의 과거 데이터를 학습하여 “어떤 고객이 미래에 특정 행동을 할 것인가?”를 예측하는 분류 모델을 구축했다.
분석의 하이라이트는 마지막 통합 단계에 있다. 예를 들어, 군집분석 결과(그룹 A, B, C)와 분류 모델의 예측 결과(구매 그룹, 비구매 그룹)를 교차하여 2×3 매트릭스를 생성했다. 이 매트릭스의 각 셀(예: ‘그룹 A이면서 구매 그룹’, ‘그룹 C이면서 비구매 그룹’)은 이전에는 발견할 수 없었던 매우 구체적이고 동질적인 마이크로 세그먼트가 된다. 연구진은 이 매트릭스를 통해 각 그룹의 특성을 심도 있게 분석했다.
핵심 결과
고객을 단일 차원(가치 또는 행동)으로만 보는 것보다, 비지도학습으로 도출된 ‘고객 유형’과 지도학습으로 예측된 ‘미래 행동’을 결합했을 때 훨씬 더 정교하고 실행 가능한 인사이트를 얻을 수 있었다.
연구의 핵심 결과는 통합적 접근법의 우수성을 입증한 것이다. 예를 들어, 단순히 ‘VIP 고객’ 그룹에 마케팅 예산을 집중하는 전략보다, ‘VIP 고객 중에서도 구매 확률이 높은 하위 그룹’에 예산을 집중하는 것이 훨씬 더 높은 ROI를 보였다. 반대로, ‘이탈 확률이 높은 VIP 고객’이라는 새로운 세그먼트를 발견함으로써, 이들에게는 판촉 활동 대신 관계 회복을 위한 특별 관리 프로그램을 제공하는 등 전혀 다른 전략을 구사할 수 있게 되었다. 이처럼 두 분석 결과를 결합함으로써, 기업은 한정된 자원을 훨씬 더 정밀하고 효과적으로 배분할 수 있음을 확인했다.
시사점
효과적인 CRM은 ‘우리는 고객을 어떤 그룹으로 나눌 것인가(군집화)’라는 질문과 ‘우리는 고객에게 무엇을 원하는가(분류/예측)’라는 질문을 동시에 던지고, 그 답을 결합하는 통합적인 관점에서 출발해야 한다.
이 연구는 고객 세분화 전략을 수립하는 방식에 대한 중요한 시사점을 제공한다. 막연하게 고객을 그룹으로 나누는 것에서 그치지 말고, 명확한 비즈니스 목표(예: 구매 전환율 증대, 이탈률 감소)를 먼저 설정해야 한다는 것이다. 그리고 그 목표를 예측하는 지도학습 모델과, 고객의 근본적인 특성을 파악하는 비지도학습 모델을 함께 활용하여야 한다. 즉, 고객 세분화는 그 자체가 목적이 아니라, ‘특정 비즈니스 목표 달성’이라는 더 큰 그림 안에서, 고객을 더 잘 이해하고 더 정확하게 행동을 유도하기 위한 전략적 도구로 활용되어야 한다.
인사이트
고객의 ‘신분’과 ‘의도’를 함께 읽어라.
AI/빅데이터 마케터의 관점에서 이 논문은, 고객 데이터를 2차원 매트릭스로 입체적으로 분석하는 강력한 프레임워크를 제공한다. 기술적 분석 결과를 즉시 활용 가능한 페르소나와 마케팅 전략으로 변환하면 다음과 같다.
- 통합 페르소나: ‘마음 떠난 VIP’
- 신분 (비지도 군집분석 결과): 이 고객은 과거 누적 구매액과 빈도를 기준으로 볼 때, 의심할 여지 없이 ‘VIP’ 세그먼트에 속한다.
- 의도 (지도학습 예측 결과): 하지만 최근 활동 데이터를 기반으로 한 이탈 예측 모델은 이 고객의 ’90일 내 이탈 확률’을 85%로 예측했다.
- 통합 해석: 이 고객은 ‘과거의 왕’이었지만, ‘미래의 이탈자’가 될 가능성이 매우 높다. 이 고객에게 일반적인 VIP 마케팅을 하는 것은 자원 낭비이며, 즉각적인 위기 관리가 필요한 최우선 대상이다.
- 실질적인 마케팅 액션 (매트릭스 기반 자동화)
- 위기 관리 자동화: ‘마음 떠난 VIP’ 세그먼트로 식별된 고객에게는, 할인 쿠폰 대신 “고객님의 소중한 의견을 듣고 싶습니다”라는 제목의 설문조사 이메일을 발송한다. 설문에 응답하면 높은 가치의 보상(포인트, 상품권)을 지급하여 이탈 원인을 파악하고 관계 회복을 시도하는 시나리오를 자동으로 실행한다.
- 기회 발굴 및 자원 최적화: ‘일반 고객’ 그룹이지만 ‘구매 확률 높음’으로 예측된 세그먼트에게는, 고비용의 1:1 마케팅 대신 저비용의 앱 푸시나 카카오톡 알림톡을 통해 소액 할인 쿠폰을 제공하여 ‘가성비 높은’ 구매 전환을 유도한다.
- A/B 테스트 고도화: 동일한 ‘VIP’ 그룹 내에서, ‘구매 확률 높음’으로 예측된 하위 그룹(A)과 ‘구매 확률 낮음’으로 예측된 하위 그룹(B)에게 서로 다른 톤앤매너와 혜택의 메시지를 보내, 어떤 커뮤니케이션이 B 그룹의 구매 전환율을 효과적으로 높이는지 테스트하고 학습한다.