고객 세분화를 위해 사용되는 다양한 머신러닝 기법들(군집분석, 분류, 딥러닝 등)을 종합적으로 검토하고, 각 방법론의 원리와 장단점, 그리고 적용 사례를 정리한 문헌 연구이다.
논문 요약
- 논문 제목: Customer segmentation using machine learning: A literature review
- 저자: R. E. I. V. N. A. 외
- 게재 학술지: AIP Conference Proceedings
- 발행 연도: 2022
- 핵심 요약: 고객 세분화라는 마케팅의 핵심 과제를 해결하기 위해, 지난 수년간 사용되어 온 다양한 머신러닝 방법론들을 체계적으로 정리한 리뷰 논문이다. 전통적인 RFM 분석부터 시작하여, K-평균과 같은 비지도학습 군집분석, 의사결정나무와 같은 지도학습 분류 모델, 그리고 인공신경망을 활용한 딥러닝 기반의 세분화에 이르기까지, 각 기술의 특징과 적용 사례를 폭넓게 조망하고 그 효과를 비교했다.
연구 배경
고객을 나누는 ‘칼’은 여러 종류가 있다. 어떤 칼은 무디지만 안전하고, 어떤 칼은 날카롭지만 다루기 어렵다. 이 연구는 마케터와 데이터 과학자에게, 고객이라는 재료를 가장 잘 손질할 수 있도록 다양한 칼의 종류와 사용법을 알려주는 ‘요리책’과 같다.
“모든 고객은 왕이지만, 모든 고객이 똑같은 왕은 아니다.” 마케팅의 역사는 고객을 더 잘 이해하고, 그들의 다양한 니즈에 맞춰 더 나은 서비스를 제공하려는 노력의 역사였다. 그 핵심에 바로 고객 세분화(Customer Segmentation), 즉 전체 고객을 비슷한 특성을 가진 동질적인 소그룹으로 나누는 작업이 있다.
고객을 나누는 기준과 방법은 기술의 발전에 따라 끊임없이 진화해왔다.
- 초기: 성별, 연령, 지역과 같은 인구통계학적 기준으로 시장을 나누었다.
- 데이터베이스 마케팅 시대: 고객의 구매 이력을 바탕으로 RFM(최근성, 빈도, 금액) 점수를 계산하여 ‘우량고객’, ‘이탈고객’ 등으로 나누었다.
- 머신러닝 시대: 더 많은 데이터를 더 정교하게 분석할 수 있게 되면서, 다양한 머신러닝 알고리즘이 세분화에 도입되었다.
- 군집분석 (Clustering): K-평균(K-Means)과 같은 알고리즘을 사용하여, 데이터 내에 자연적으로 존재하는 고객 그룹을 **’발견’**한다.
- 분류 (Classification): 의사결정나무(Decision Tree)나 SVM과 같은 알고리즘을 사용하여, 이미 알려진 고객 그룹(예: VIP)의 특징을 학습하고 새로운 고객을 해당 그룹으로 **’분류’**한다.
- 딥러닝 (Deep Learning): 인공신경망(ANN)이나 오토인코더를 사용하여, 고차원의 복잡한 데이터 속에서 인간이 파악하기 어려운 미묘한 패턴을 학습하여 세분화한다.
이처럼 고객 세분화를 위한 ‘기술의 툴박스’가 매우 다양해진 상황에서, 연구자나 실무자들은 “어떤 상황에서 어떤 도구를 써야 하는가?”라는 새로운 질문에 직면하게 되었다. 본 연구는 바로 이 질문에 답하기 위해, 기존의 주요 머신러닝 세분화 연구들을 종합적으로 검토하고 정리하는 **문헌 연구(Literature Review)**의 형태를 취한다.
해결하려는 문제
다양하고 복잡한 머신러닝 기반 고객 세분화 연구들을 체계적으로 정리하고, 각 방법론의 핵심 개념과 적용 사례를 종합하여, 이 분야의 연구자와 실무자를 위한 통합적인 지식 프레임워크를 제공한다.
머신러닝을 활용한 고객 세분화 분야에는 수많은 연구가 존재하지만, 그 방법론과 적용 사례가 파편적으로 흩어져 있어 전체적인 흐름과 맥락을 파악하기 어렵다.
- K-평균 군집분석은 언제 유용한가?
- RFM과 군집분석을 결합하면 어떤 장점이 있는가?
- 딥러닝을 활용한 세분화는 기존 방식과 무엇이 다른가?
이 연구가 해결하고자 하는 문제는 바로 이러한 **’지식의 파편화’**이다. 특정 방법론 하나를 깊게 파고드는 대신, 고객 세분화에 사용되는 주요 머신러닝 기법들을 하나의 지도 위에 펼쳐놓고, 각 기법의 위치와 역할, 그리고 다른 기법과의 관계를 명확하게 보여주고자 한다.
궁극적인 목표는, 고객 세분화 프로젝트를 시작하려는 연구자나 실무자들이 자신이 가진 데이터와 비즈니스 목적에 가장 적합한 방법론을 선택할 수 있도록, **체계적이고 종합적인 ‘가이드맵’**을 제공하는 것이다.
연구 모형
고객 세분화 관련 주요 학술 연구들을 방법론적 접근법(군집분석, 분류, 딥러닝 등)에 따라 분류하고, 각 접근법의 이론적 배경, 장단점, 그리고 대표적인 활용 사례를 비교 분석하는 체계적 문헌 연구를 수행한다.
본 연구는 새로운 데이터 분석 대신, 기존의 학술 연구들을 분석의 대상으로 삼는 체계적 문헌 연구(Systematic Literature Review) 방법론을 사용한다. 연구진은 고객 세분화 기술의 발전 과정을 다음과 같은 주요 카테고리로 나누어 분석하고 종합했다.
- RFM 기반 세분화: 고객 가치 평가의 가장 기본적인 기준으로, 많은 후속 연구들의 베이스라인 역할을 하는 방법론을 검토한다.
- 군집분석(Clustering) 기반 세분화: RFM을 넘어 다양한 고객 행동 변수를 활용하여, K-평균(K-Means), 계층적 군집분석(Hierarchical Clustering), DBSCAN 등과 같은 비지도학습 알고리즘을 적용한 사례들을 분석한다.
- 분류(Classification) 기반 세분화: 이미 정의된 고객 유형(예: 이탈 고객, 우량 고객)을 타겟으로 하여, 의사결정나무, 로지스틱 회귀, SVM 등의 지도학습 알고리즘으로 고객을 분류하는 연구들을 살펴본다.
- 딥러닝(Deep Learning) 기반 세분화: 인공신경망(ANN), 오토인코더(Autoencoder), 순환신경망(RNN) 등, 고차원의 복잡한 데이터로부터 자동으로 특징을 학습하여 고객을 세분화하는 최신 연구 동향을 분석한다.
이러한 분류 프레임워크를 통해, 각 방법론의 핵심 원리와 적용 분야, 그리고 기술적 장단점을 명확하게 비교하고, 전체 기술 스펙트럼을 조망한다.
데이터 설명
이 연구는 직접 데이터를 분석하지 않으며, 대신 선행 연구들에서 활용된 다양한 유형의 고객 데이터(예: 리테일, 은행, 통신사 데이터)와 그 분석 방법론을 ‘연구 대상’으로 삼는다.
- 출처: 본 연구의 ‘데이터’는 고객 세분화와 관련된 기존의 주요 학술 논문들이다. 연구진은 IEEE Xplore, ScienceDirect, Springer 등 공신력 있는 학술 데이터베이스를 통해 관련 문헌을 수집했다.
- 수집 방법: ‘Customer Segmentation’, ‘Machine Learning’, ‘Clustering’ 등 핵심 키워드를 사용하여 논문을 검색하고, 연구의 기준에 부합하는 주요 논문들을 선별하여 심층적으로 내용을 분석하고 종합했다.
- 데이터 변수 설명: 본 연구는 개별 논문들을 분석 대상으로 삼기 때문에, 분석의 ‘변수’는 각 논문에서 사용된 고객 데이터의 유형이 된다.
- 인구통계학적 데이터(Demographic):
연령
,성별
,소득
,직업
,결혼 여부
. - 지리적 데이터(Geographic):
거주 국가
,도시
,지역
. - 심리분석적 데이터(Psychographic):
라이프스타일
,가치관
,성격
,관심사
(주로 설문조사를 통해 수집). - 행동적 데이터(Behavioral):
RFM(최근성, 빈도, 금액)
,웹사이트/앱 클릭스트림
,총 구매 내역
,구매 상품 카테고리
등.
- 인구통계학적 데이터(Demographic):
데이터 분석
다양한 선행 연구들을 종합한 결과, 고객 세분화 기술은 단순한 RFM 분석에서 다변량 군집분석으로, 최근에는 고차원의 복잡한 데이터를 자동으로 학습하는 딥러닝 기반의 세분화로 발전하는 기술적 진화 과정을 거치고 있음을 확인했다.
본 연구는 특정 데이터에 대한 통계 분석 대신, 수많은 선행 연구들을 종합하여 지식의 패턴과 흐름을 분석하는 질적, 양적 분석을 수행했다.
연구진은 수십 편의 관련 논문을 검토하여, 각 연구가 어떤 산업의 데이터를, 어떤 변수를 사용하여, 어떤 머신러닝 알고리즘으로 분석했는지를 체계적으로 정리했다. 이 과정을 통해, 고객 세분화 연구 분야의 전체적인 기술 발전 경로를 다음과 같이 도출했다.
- 초기 (2000년대): RFM 모델과 K-평균 군집분석을 결합하는 연구가 주를 이룸.
- 중기 (2010년대): 더 다양한 행동 변수를 사용하고, SVM, 의사결정나무 등 더 다채로운 머신러닝 알고리즘을 비교하는 연구가 활발해짐.
- 최근 (2020년대 이후): 딥러닝 기술의 발전에 따라, 오토인코더나 RNN을 활용하여 고차원의 비정형 데이터나 시계열 데이터를 분석하여, 더 정교하고 동적인 세분화를 시도하는 연구들이 등장함.
이러한 연대기적 분석은 고객 세분화라는 분야가 어떻게 기술의 발전에 발맞춰 진화해왔는지를 명확하게 보여준다.
핵심 결과
고객 세분화를 위한 최적의 단일 머신러닝 기법은 존재하지 않으며, 비즈니스 목표, 데이터의 종류와 복잡성, 그리고 모델의 해석 가능성 요구 수준에 따라 K-평균, SVM, 딥러닝 등 다양한 기법을 적절히 선택하고 조합하는 것이 가장 효과적이다.
이 리뷰 논문의 핵심 결과는 “No Free Lunch”, 즉 모든 문제에 완벽한 단 하나의 ‘만능 알고리즘’은 없다는 것을 재확인한 것이다. 고객 세분화를 위한 최적의 방법론은 당면한 과제의 특성에 따라 달라진다.
- 빠르고 직관적인 이해가 필요할 때: RFM 기반의 K-평균 군집분석이 여전히 효과적이다.
- 명확한 분류 규칙이 필요할 때: 의사결정나무가 유용하다.
- 정확한 분류 경계선이 중요할 때: SVM이 좋은 성능을 보일 수 있다.
- 데이터가 매우 복잡하고 비선형적일 때: 딥러닝 기반의 접근법이 숨겨진 패턴을 발견할 잠재력이 가장 크다.
따라서, 성공적인 고객 세분화는 특정 알고리즘을 맹신하는 것이 아니라, 해결하고자 하는 문제와 데이터의 특성을 깊이 이해하고, 그에 맞는 최적의 도구를 선택하거나 여러 도구를 조합하여 사용하는 능력에 달려있음을 이 연구는 강조한다.
시사점
데이터 과학자는 비즈니스 문제를 해결하기 위해 하나의 알고리즘에 얽매이지 말고, 다양한 머신러닝 세분화 기법으로 구성된 ‘툴킷’을 갖추고, 문제의 특성에 맞는 최적의 도구를 선택하고 조합할 수 있는 역량을 갖추어야 한다.
이 논문은 고객 분석을 수행하는 실무자들에게 다음과 같은 중요한 시사점을 제공한다.
첫째, 다양한 방법론에 대한 폭넓은 이해가 필수적이다. 이 논문은 고객 세분화라는 하나의 문제를 해결하기 위한 다양한 ‘무기’들을 소개하는 무기 카탈로그와 같다. 어떤 무기가 어떤 상황에 효과적인지 알기 위해서는, 각 무기의 특성과 장단점을 명확히 이해하고 있어야 한다.
둘째, 문제 정의가 분석의 절반이다. 어떤 머신러닝 모델을 사용할지 결정하기 전에, “우리는 왜 고객을 나누려고 하는가?”, “우리가 가진 데이터는 어떤 특징을 가지고 있는가?”, “분석 결과를 누가, 어떻게 활용할 것인가?”와 같은 비즈니스 관점의 질문에 먼저 답해야 한다. 이 질문에 대한 답이 어떤 알고리즘을 선택해야 할지에 대한 방향을 제시해 줄 것이다.
인사이트
당신의 고객을 위한 ‘맞춤 정장’을 만들려면, 먼저 당신의 ‘줄자(분석 도구)’부터 제대로 골라라.
이 논문은, 성공적인 데이터 분석 프로젝트가 단순히 최신 기술을 적용하는 것이 아니라, 문제에 대한 깊은 이해를 바탕으로 가장 적합한 ‘접근법’을 설계하는 것에서 시작됨을 보여준다. 고객이라는 복잡한 대상을 어떤 ‘관점’과 ‘도구’로 측정하고 재단할 것인지 결정하는 것이, 최종 결과물의 성패를 좌우한다.
- 페르소나 예시: “Web3 데이터 분석팀 리더, 알고리드믹 알렉스(Algorithmic Alex)”
- 특징: 알렉스는 새로운 Web3 프로젝트의 사용자 데이터를 처음으로 분석하는 임무를 맡았다. 그는 어떤 세분화 모델을 사용해야 할지 결정하기 위해, 이 논문과 같은 리뷰 페이퍼를 참고하여 다양한 방법론의 장단점을 체계적으로 검토한다. 그는 “우리 프로젝트의 온체인 데이터는 매우 고차원적이고, 변수 간의 관계가 비선형적이며, 아직 알려진 명확한 고객 유형(라벨)이 없다. 따라서, 비지도학습이면서 복잡한 패턴을 자동으로 학습할 수 있는 딥러닝 기반의 오토인코더 + 군집분석 파이프라인이 가장 적합한 출발점이다”라는 결론을 내리고, 이를 팀의 분석 전략으로 채택한다.
- 데이터 기반 행동: 새로운 분석 프로젝트 시작 전, 관련 분야의 최신 리뷰 논문과 서베이 페이퍼를 검색하여 기술 동향을 파악하고, 여러 대안적 방법론에 대한 파일럿 테스트를 계획함.
- 실질적인 마케팅 액션 제안:
- 단계적 세분화 전략 수립: 이 논문이 제시한 여러 기법을 조합하여, 단계적인 세분화 전략을 수립한다.
1단계
로는 전체 사용자를 대상으로 RFM과 같은 간단한 지표를 사용해고가치/중가치/저가치
그룹을 빠르게 나눈다.2단계
로, 가장 중요한고가치
그룹에 대해서만 오토인코더와 같은 복잡한 딥러닝 모델을 적용하여, 이들을 다시DeFi 고래
,NFT 고래
등과 같이 더 정교한 하위 세그먼트로 심층 분석하여 자원을 효율적으로 사용한다. - 모델 성능 비교 및 최적화: 한 가지 모델만 고집하지 않고, K-평균, HDBSCAN, 가우시안 혼합 모델(GMM) 등 여러 군집분석 알고리즘을 동일한 데이터에 적용하고, 실루엣 스코어(Silhouette Score)와 같은 기술적 평가지표와 비즈니스 KPI(예: 세그먼트별 LTV)를 비교하여 우리 프로젝트에 가장 적합한 최적의 세분화 모델을 지속적으로 탐색하고 개선한다.
- 목적별 세분화 모델 운영: 모든 마케팅 목적에 하나의 세분화 모델만 사용하지 않는다.
이탈 방지 캠페인
을 위해서는 RFM과 활동 주기 기반의 세분화 모델을 사용하고,신규 기능 교차 판매
를 위해서는 dApp 사용 패턴 기반의 세분화 모델을 사용하는 등, 마케팅 목적에 따라 각기 다른 변수와 알고리즘을 사용한 여러 개의 세분화 모델을 동시에 운영하여 캠페인의 효과를 극대화한다.
- 단계적 세분화 전략 수립: 이 논문이 제시한 여러 기법을 조합하여, 단계적인 세분화 전략을 수립한다.