직접 마케팅(DM) 데이터에 RFM과 K-평균 군집분석을 적용하여 고객을 세분화하고, 각 세그먼트별로 부스팅 트리 알고리즘을 활용해 구매 가능성을 예측하는 통합적인 AI 기반 CRM 전략 프레임워크를 제시한다.
논문 요약
- 논문 제목: Customer Profiling, Segmentation, and Sales Prediction Using AI in Direct Marketing
- 저자: M. S. Kasem 외
- 게재 학술지: Neural Computing and Applications (Springer)
- 발행 연도: 2024
- 핵심 요약: 직접 마케팅(카탈로그, 이메일 등)의 효율성을 높이기 위해, 인공지능을 활용한 2단계 고객 분석 프레임워크를 제안했다. 1단계에서는 RFM(최근성, 빈도, 금액) 분석과 K-평균 군집분석을 통해 고객을 가치 기반의 세그먼트로 분류했다. 2단계에서는 이렇게 분류된 세그먼트 정보를 포함한 다양한 고객 데이터를 특징으로 사용하여, 부스팅 트리 계열의 머신러닝 알고리즘으로 미래의 고객 구매를 예측했다. 이 연구는 고객 세분화와 판매 예측을 결합함으로써, 마케팅 ROI를 극대화할 수 있는 데이터 기반의 타겟팅 전략을 제시한다.
연구 배경
모든 고객에게 똑같은 광고지를 보내는 것은 돈을 길에 뿌리는 것과 같다. 이 연구는 AI라는 정교한 ‘돋보기’를 통해, 수많은 고객 중 우리에게 가장 확실하게 응답할 단 한 사람을 찾아내는 과학적인 방법론을 탐구한다.
**직접 마케팅(Direct Marketing, DM)**은 카탈로그, 홍보 우편물, 이메일, 텔레마케팅 등을 통해 기업이 고객과 직접적으로 소통하는 전통적이면서도 여전히 강력한 마케팅 방식이다. 하지만 DM의 가장 큰 숙제는 높은 비용과 낮은 반응률이다. 관심 없는 고객에게 보내는 카탈로그는 그대로 버려지며, 이는 곧바로 마케팅 예산의 낭비로 이어진다.
이러한 비효율을 줄이기 위해, 데이터 기반의 **고객 타겟팅(Customer Targeting)**이 필수적이다. 마케터들은 오랫동안 다음과 같은 기법들을 활용해왔다.
- RFM 분석: 고객의 최근성(Recency), 구매 빈도(Frequency), 구매 금액(Monetary)을 기준으로 ‘우량 고객’이나 ‘이탈 고객’을 식별하는 고전적인 방법.
- 고객 세분화 (Segmentation): RFM을 포함한 다양한 고객 데이터를 활용하여, K-평균 군집분석(K-Means Clustering) 등으로 고객을 동질적인 소그룹으로 나누는 방법.
- 구매 예측 (Purchase Prediction): 특정 고객이 미래에 구매를 할지 안 할지를 예측하는 머신러닝 분류 모델.
이 연구의 핵심적인 기여는, 이 세 가지 기법을 각각 따로 사용하는 것이 아니라, 하나의 통합된 프레임워크로 결합하여 시너지를 창출하는 방법을 제시했다는 점이다. 즉, 먼저 고객을 정교하게 세분화하고, 그 세분화된 그룹의 특성을 이해한 뒤, 각 그룹 내에서 구매 가능성이 가장 높은 고객을 예측하여 마케팅 자원을 집중하는 고도로 효율적인 전략을 제안한다.
해결하려는 문제
무분별한 다이렉트 메일(DM) 발송으로 인한 높은 비용과 낮은 반응률 문제를 해결하기 위해, AI를 활용하여 고객을 정교하게 세분화하고, 마케팅에 ‘실제로 반응할’ 고객을 예측하여 캠페인의 ROI를 극대화한다.
직접 마케팅 캠페인을 준비하는 마케터는 항상 선택의 문제에 직면한다.
- “이번 달 카탈로그를 모든 고객에게 보내야 할까?”
- “아니면, 작년에 구매했던 고객에게만 보내야 할까?”
- “VIP 고객 그룹과 신규 고객 그룹 중, 어느 쪽에 더 많은 예산을 써야 할까?”
이 연구가 해결하고자 하는 문제는 바로 이러한 **’타겟팅의 불확실성’**이다. 직관이나 단순한 규칙에 의존하는 대신, 데이터와 머신러닝을 통해 이 문제를 과학적으로 해결하고자 한다.
연구의 목표는 다음과 같은 2단계의 질문에 순차적으로 답하는 것이다.
- “우리의 고객은 어떤 유형으로 나뉘는가?” (세분화 문제)
- “각 유형의 고객 중, 누가 이번 캠페인에 반응할 확률이 가장 높은가?” (예측 문제)
이 두 가지 질문에 대한 데이터 기반의 답을 얻음으로써, 기업은 마케팅 메시지를 받아들일 준비가 된 고객에게만 집중적으로 소통하여, 최소의 비용으로 최대의 효과를 거두는 것을 목표로 한다.
연구 모형
1단계로 RFM과 K-평균 군집분석을 사용하여 고객을 가치 기반 세그먼트로 분류하고, 2단계로 각 세그먼트의 특성을 변수로 사용하여 미래 구매 여부를 예측하는 앙상블 분류 모델(부스팅 트리)을 구축하는 2단계 하이브리드 모델을 제안한다.
본 연구는 고객 세분화와 판매 예측을 유기적으로 결합하기 위해, 다음과 같은 **’세분화 후 예측(Cluster-then-Predict)’**이라는 2단계 하이브리드 모델을 설계했다.
- 1단계: 비지도학습 기반 고객 세분화 (Unsupervised Segmentation)
- 고객의 거래 데이터로부터 RFM(최근성, 빈도, 금액) 점수를 계산한다.
- 이 RFM 점수들을 입력으로 사용하여 **K-평균 군집분석(K-Means Clustering)**을 수행한다.
- 고객들을
VIP
,충성 고객
,잠재 고객
,이탈 위험 고객
등과 같이, 서로 다른 가치와 행동 패턴을 가진 몇 개의 세그먼트로 분류한다. 각 고객은 이제 고유한세그먼트_ID
를 갖게 된다.
- 2단계: 지도학습 기반 구매 예측 (Supervised Prediction)
- 새로운 특징 벡터를 생성한다. 이 벡터에는 고객의 인구통계 정보, 기존 RFM 점수뿐만 아니라,
1단계
에서 도출된세그먼트_ID
를 매우 중요한 범주형 변수로 포함시킨다. - 이 확장된 특징 벡터를 입력(X)으로, 과거 특정 마케팅 캠페인에 대한 고객의 구매 반응 여부(Y, 1 또는 0)를 정답으로 하여, 부스팅 트리(Boosting Trees) 알고리즘과 같은 강력한 분류 모델을 학습시킨다.
- 학습된 모델을 사용하여, 미래의 마케팅 캠페인에 각 고객이 반응할 확률을 예측한다.
- 새로운 특징 벡터를 생성한다. 이 벡터에는 고객의 인구통계 정보, 기존 RFM 점수뿐만 아니라,
이러한 2단계 접근법을 통해, 단순히 고객을 나누는 것을 넘어, 각 그룹의 미래 행동까지 예측하는 고도화된 CRM 전략 수립이 가능해진다.
데이터 설명
익명의 직접 마케팅(카탈로그 쇼핑 등) 기업에서 제공한 고객 프로필 및 거래 데이터를 활용했으며, 이는 고객의 인구통계 정보와 구매 이력을 포함하는 오프체인(Off-chain) 데이터이다.
- 출처: 논문에 구체적인 출처는 명시되지 않았으나, 특정 직접 마케팅(DM) 또는 카탈로그 기반의 리테일 기업 내부 데이터를 활용한 것으로 추정된다. 이는 오프체인(Off-chain) 데이터에 해당한다.
- 수집 방법: 기업 내부의 CRM 및 주문 관리 시스템에서 고객 프로필과 거래 이력을 추출하여 분석용 데이터셋을 구축했을 것이다.
- 데이터 변수 설명: 본 연구는 두 단계의 분석을 위해 다음과 같이 계층적인 데이터 구조를 활용했다.
- 1단계 (세분화용) 데이터:
Recency
: 마지막 구매일로부터 경과 시간.Frequency
: 총 구매 횟수.Monetary
: 총 구매 금액.
- 2단계 (예측용) 데이터:
- 입력 변수 (Features):
인구통계 정보
:연령
,성별
등.거래 정보
:RFM 점수
,평균 구매액
등.세분화 정보
:1단계
에서 도출된고객 세그먼트 ID
. (이것이 모델 성능 향상의 핵심 변수)
- 종속 변수 (Target):
Purchase_Response
: 특정 마케팅 캠페인 기간 내에 구매를 했는지 여부 (1: 구매, 0: 비구매).
- 입력 변수 (Features):
- 1단계 (세분화용) 데이터:
데이터 분석
K-평균 군집분석을 통해 고객을 ‘VIP’, ‘충성고객’, ‘잠재고객’ 등 5개의 의미 있는 세그먼트로 분류했으며, 이 세그먼트 정보를 포함한 예측 모델이 그렇지 않은 모델보다 더 높은 구매 예측 정확도를 보였다.
본 연구의 데이터 분석은 제안된 2단계 파이프라인의 각 단계가 어떻게 작동하고, 어떤 시너지를 내는지를 명확히 보여준다.
1단계 세분화 분석에서는, K-평균 군집분석을 통해 전체 고객을 5개의 뚜렷한 세그먼트로 분류했다. 각 세그먼트는 RFM 값의 특성에 따라 ‘VIP 고객'(높은 F, M), ‘신규 우량 고객'(높은 R, M), ‘충성도 높은 일반 고객'(높은 F), ‘이탈 위험 고객'(낮은 R, F) 등으로 명명될 수 있었다. 이는 마케터가 각 그룹의 특성을 직관적으로 이해하고, 각기 다른 전략을 구상할 수 있는 기반을 제공한다.
2단계 예측 분석이 이 연구의 핵심이다. 연구진은 두 가지 예측 모델을 만들어 성능을 비교했다.
- 모델 A: 세그먼트 정보를 포함하지 않고, 기본적인 고객 정보와 RFM 점수만으로 구매를 예측.
- 모델 B: 모델 A의 변수에 더해, 각 고객이 속한 ‘세그먼트 ID’를 추가적인 특징 변수로 포함하여 구매를 예측.
분석 결과, 모델 B가 모델 A보다 일관되게 더 높은 예측 정확도와 AUC를 보였다. 이는 ‘고객이 어떤 세그먼트에 속해있는가’라는 정보 자체가, 그 고객의 미래 구매 행동을 예측하는 데 매우 강력한 신호로 작용함을 의미한다.
핵심 결과
고객을 RFM 기반으로 먼저 군집화하여 ‘고객 유형’이라는 새로운 특징을 생성하고, 이를 판매 예측 모델에 활용했을 때 예측 성능이 크게 향상되었다. 이는 고객 세분화가 예측 모델링의 정확도를 높이는 효과적인 전처리 단계임을 의미한다.
이 연구의 가장 중요한 발견은, 고객 세분화(Clustering)가 단순히 고객을 이해하고 분류하는 것을 넘어, 그 자체로 예측 모델의 성능을 높이는 강력한 ‘특징 공학(Feature Engineering)’ 기법이 될 수 있다는 것을 증명한 것이다.
예측 모델에 ‘세그먼트 ID’라는 변수를 추가해주면, 모델은 “같은 ‘Recency’ 값을 가지더라도, VIP 고객 그룹의 구매 확률과 이탈 위험 고객 그룹의 구매 확률은 전혀 다르다”는 복잡한 맥락을 학습할 수 있게 된다. 즉, 세분화는 데이터에 숨겨진 비선형적인 패턴을 모델이 더 쉽게 학습할 수 있도록 돕는 ‘가이드’ 역할을 하는 것이다.
결론적으로, 이 연구는 **’세분화 후 예측(Cluster-then-Predict)’**이라는 하이브리드 파이프라인이, 단일 모델을 사용하는 것보다 훨씬 더 정교하고 정확한 고객 타겟팅을 가능하게 하는 우수한 접근법임을 명확하게 보여준다.
시사점
성공적인 데이터 기반 마케팅은 고객을 이해하는 ‘세분화(Segmentation)’와 미래 행동을 예측하는 ‘예측(Prediction)’을 결합한 통합적인 접근법을 필요로 하며, 이 두 가지를 유기적으로 연결할 때 마케팅 ROI를 극대화할 수 있다.
이 연구는 AI를 활용한 CRM을 고도화하려는 기업들에게 다음과 같은 중요한 전략적 시사점을 제공한다.
첫째, 세분화와 예측은 별개의 프로젝트가 아니다. 많은 기업들이 고객 세분화 프로젝트와 구매 예측 프로젝트를 따로 진행하지만, 이 연구는 두 가지가 강력한 시너지를 낼 수 있음을 보여준다. 세분화 모델의 결과물(고객 그룹 정보)은 예측 모델의 가장 중요한 입력 데이터가 될 수 있다. 이 두 프로세스를 유기적으로 연결하는 데이터 파이프라인을 구축하는 것이 중요하다.
둘째, 데이터 기반 의사결정의 단계적 접근이 가능하다. 먼저, 비지도학습인 군집분석을 통해 현재 고객들의 구조를 파악하고(현상 분석), 그 결과를 바탕으로 지도학습인 예측 모델을 구축하여 미래의 가능성을 점치고(미래 예측), 최종적으로 예측 결과에 기반하여 마케팅 자원을 배분(전략 실행)하는 단계적인 접근은 매우 합리적이고 효과적이다.
인사이트
고객을 ‘이해’하는 것을 넘어, 고객의 ‘다음 행동’을 예측하라.
이 논문은 고객 데이터 분석의 완전한 사이클을 보여주는 ‘교과서’와 같다. 고객을 그룹으로 묶어 이해하는 것은 시작에 불과하다. 진정한 가치는, 그 이해를 바탕으로 ‘그래서 이 고객 그룹이 다음에 무엇을 할 것인가’를 예측하고, 가장 가능성이 높은 순간에 최적의 제안을 하는 데서 나온다. 이 논문은 ‘이해’와 ‘예측’을 결합하여, 마케팅을 ‘예술’의 영역에서 ‘과학’의 영역으로 끌어올리는 구체적인 방법을 제시한다.
- 페르소나 예시: “Web3 마케팅 총괄, 프로핏 프리야(Profit Priya)”
- 특징: 프리야는 대형 DeFi 프로토콜의 마케팅 예산을 총괄한다. 그녀의 목표는 한정된 예산으로 가장 효과적인 에어드랍 및 인센티브 캠페인을 집행하여, 프로토콜의 핵심 지표(TVL, 거래량)를 높이는 것이다. 그녀는 단순히 모든 사용자에게 토큰을 나눠주는 대신, 이 논문의 2단계 파이프라인을 Web3 환경에 적용한다.
- 데이터 기반 행동: 먼저 온체인 데이터를 군집분석하여 사용자를 ‘DeFi 고래’, ‘NFT 컬렉터’, ‘소액 유저’ 등 세그먼트로 분류한다. 그 다음, 각 세그먼트별로 과거 유사한 캠페인에 대한 반응률을 학습한 예측 모델을 통해, “이번 유동성 채굴 캠페인에 참여할 확률이 가장 높은 ‘DeFi 고래’ 그룹”을 식별하여 그들에게만 마케팅 자원을 집중한다.
- 실질적인 마케팅 액션 제안:
- 세분화-예측 통합 CRM 시스템 구축: 이 논문의 파이프라인을 그대로 Web3에 적용한다.
1단계
로 온체인 데이터 기반 고객 세분화 모델을 구축하고,2단계
로 각 세그먼트별 핵심 행동(예: 특정 프로토콜에 신규 유동성 추가) 예측 모델을 구축한다. - 예측 기반 선제적 오퍼링(Proactive Offering): 예측 모델이 특정 ‘NFT 컬렉터’ 세그먼트에 속한 지갑이 곧 새로운 DeFi 활동을 시작할 확률이 높다고 예측하면, 해당 지갑에게 NFT를 담보로 대출받을 수 있는 NFTfi 서비스를 선제적으로 추천하여 자연스럽게 교차 판매(Cross-sell)를 유도한다.
- 마케팅 캠페인 ROI 최적화: 새로운 기능 출시를 위한 에어드랍 캠페인을 진행할 때, 모든 사용자에게 배포하는 대신, 예측 모델을 통해 ‘캠페인 반응 확률’이 높은 세그먼트와 사용자에게만 에어드랍 물량을 집중한다. 이를 통해 동일한 비용으로 훨씬 높은 사용자 참여 및 전환율을 달성하고, 어뷰징을 최소화하여 캠페인 ROI를 극대화한다.
- 세분화-예측 통합 CRM 시스템 구축: 이 논문의 파이프라인을 그대로 Web3에 적용한다.