오토인코더(Autoencoder)와 같은 비지도 딥러닝을 활용해 고차원의 복잡한 고객 데이터를 의미 있는 저차원 특징(임베딩)으로 압축하고, 이를 통해 전통적인 방식보다 훨씬 정교하고 효과적인 고객 세분화를 달성하는 방법을 제시한다.
논문 요약
- 논문 제목: Enhancing Customer Segmentation with Unsupervised Deep Learning
- 저자: K. S. S. Iyer 외
- 게재 학술지: Springer
- 발행 연도: 2024
- 핵심 요약: 고차원의 복잡한 고객 행동 데이터를 오토인코더(Autoencoder)라는 비지도 딥러닝 모델에 학습시켜, 데이터의 핵심 특징을 압축한 저차원 표현(Embedding)을 추출하고, 이 임베딩 벡터를 군집분석에 사용함으로써 더 의미 있는 고객 세그먼트를 발견했다.
연구 배경
전통적인 고객 세분화는 주로 RFM(Recency, Frequency, Monetary)과 같은 몇 가지 핵심 지표를 기반으로 K-평균 군집분석(K-Means Clustering)을 수행하는 방식으로 이루어졌다. 이 방법은 간단하고 해석이 용이하지만, 현대 비즈니스 환경에서 생성되는 수백, 수천 개의 다양한 고객 행동 데이터를 다루기에는 한계가 명확했다. 특히, 변수가 많아지는 ‘차원의 저주(Curse of Dimensionality)’ 문제에 부딪히고, 변수들 간의 복잡하고 비선형적인(Non-linear) 관계를 제대로 포착하지 못했다.
이러한 한계를 극복하기 위한 대안으로 비지도 딥러닝(Unsupervised Deep Learning), 특히 **오토인코더(Autoencoder)**를 활용한 **표현 학습(Representation Learning)**이 주목받고 있다. 오토인코더는 정답이 없는 데이터로부터 데이터의 핵심적인 구조와 패턴을 스스로 학습하여, 이를 유의미한 저차원의 벡터(임베딩)로 표현하는 데 탁월한 능력을 보인다. 이 연구는 이러한 딥러닝의 능력을 고전적인 고객 세분화 문제에 적용하여, 분석의 정확성과 깊이를 한 단계 끌어올리고자 하는 시도에서 출발했다.
해결하려는 문제
전통적인 군집분석 기법이 수많은 고객 행동 변수들 간의 복잡하고 비선형적인 관계를 제대로 포착하지 못하고, 고차원 데이터 환경에서 성능이 저하되는 문제를 해결하고자 했다.
고객 한 명의 데이터를 수백 개의 변수(예: 구매한 모든 상품, 방문한 모든 웹페이지, 클릭한 모든 광고)로 표현한다고 상상해보자. 이러한 고차원 공간에서는 ‘고객 간의 거리’를 측정하기가 매우 어려워져, K-평균과 같은 거리 기반 군집분석 알고리즘이 제대로 작동하지 않는다. 또한, ‘와인’을 구매하는 행동과 ‘치즈’를 구매하는 행동 사이의 미묘한 연관성처럼, 변수들 간의 복잡한 상호작용을 전통적인 통계 기법으로는 파악하기 어렵다.
이 연구가 해결하려는 핵심 문제는 바로 이것이다. 사람이 직접 의미 있는 변수를 몇 개 골라내는 ‘수동적인 피처 엔지니어링’의 한계를 넘어, 딥러닝 모델이 스스로 데이터의 본질을 꿰뚫는 핵심 특징(Feature)을 자동으로 학습하고 추출하게 함으로써, 고차원 데이터 속에서도 의미 있는 고객 그룹을 효과적으로 찾아내는 것이다.
연구 모형
고차원의 원본 고객 데이터를 오토인코더의 입력으로 넣어 학습시킨 후, 모델의 가장 압축된 부분(병목, Bottleneck)에서 저차원의 잠재 표현(Latent Representation) 벡터를 추출하고, 이 벡터를 K-평균 군집분석의 입력으로 사용했다.
이 연구는 2단계의 명확한 파이프라인으로 구성된 모델을 제안한다.
- 1단계: 표현 학습 (Representation Learning with Autoencoder)
- 오토인코더는 입력 데이터를 받아서 더 작은 차원으로 압축하는 **인코더(Encoder)**와, 압축된 데이터로부터 원본 입력을 복원하는 **디코더(Decoder)**로 구성된 신경망이다.
- 이 모델을 ‘입력과 출력이 같아지도록’ 훈련시키는 과정에서, 인코더는 원본 데이터의 가장 중요한 핵심 정보만을 효율적으로 압축하는 방법을 학습하게 된다.
- 학습이 완료된 후, 각 고객의 고차원 데이터를 인코더에 통과시켜, 그 고객의 본질적인 특성을 함축하는 저차원의 ‘고객 임베딩(Customer Embedding)’ 벡터를 얻는다.
- 2단계: 군집 분석 (Clustering on Embeddings)
- 원본의 복잡한 데이터 대신, 1단계에서 얻은 깨끗하고 의미 있는 저차원의 ‘고객 임베딩’ 벡터들을 대상으로 K-평균 군집분석을 수행한다.
- 핵심 특징들이 잘 압축된 임베딩 벡터를 사용하기 때문에, 군집분석 알고리즘은 노이즈의 영향을 덜 받고 각 고객 그룹의 경계를 훨씬 더 명확하게 찾아낼 수 있다.
데이터 설명
온라인 소매점 또는 금융 서비스에서 수집된, 다수의 변수를 포함하는 고차원의 고객 행동 데이터를 활용했다.
- 출처: 논문에 구체적인 데이터 출처는 명시되지 않았으나, 일반적으로 수백 개의 상품이나 서비스에 대한 고객의 구매/상호작용 여부를 나타내는 다차원의 리테일 또는 금융 데이터를 사용했을 것으로 추정된다.
- 온체인 여부: 오프체인(Off-chain) 데이터로 추정된다.
- 수집 방법: 논문에 명시되지 않음. 일반적으로 기업의 내부 데이터베이스에서 고객의 모든 거래 및 상호작용 로그를 추출하여, 각 고객을 하나의 긴 벡터(Vector)로 표현하는 방식으로 데이터셋을 구축한다.
- 데이터 변수 설명: 이 연구의 모델은 고차원의 데이터를 저차원으로 변환하는 과정 자체에 초점을 맞춘다.
- 입력 데이터 (High-Dimensional Input): 각 고객을 표현하는 하나의 행(Row)으로, 수십 개에서 수백 개에 이르는 개별 행동 변수(Column)로 구성된다.
- 예:
[상품A_구매여부, 상품B_구매여부, ..., 카테고리X_사용금액, 카테고리Y_사용금액, ...]
- 예:
- 중간 산출물 (Intermediate Output):
고객 임베딩 벡터 (Customer Embedding Vector)
: 오토인코더의 인코더를 통과하여 나온 저차원 벡터 (예: 8차원 또는 16차원). 각 고객의 복잡한 행동 패턴을 함축하는 일종의 ‘특징 DNA’이다.
- 최종 결과물 (Final Output):
세그먼트 ID (Segment_ID)
: 고객 임베딩 벡터를 군집분석하여 각 고객에게 최종적으로 할당된 그룹 번호.
- 입력 데이터 (High-Dimensional Input): 각 고객을 표현하는 하나의 행(Row)으로, 수십 개에서 수백 개에 이르는 개별 행동 변수(Column)로 구성된다.
데이터 분석
오토인코더를 통해 원본 고객 데이터를 8차원의 임베딩 벡터로 압축한 뒤, 이 임베딩 공간에서 K-평균 군집분석을 수행하여 고객 세그먼트를 도출하고, 그 결과를 전통적인 방식(예: PCA+K-평균)과 비교하여 성능의 우수성을 평가했다.
분석의 핵심은 오토인코더 훈련에 있다. 고차원의 원본 고객 데이터를 입력과 출력으로 동일하게 설정하고 모델을 학습시켜, 인코더가 데이터의 핵심 특징을 잘 포착하도록 만들었다. 훈련이 완료된 후, 모든 고객 데이터를 이 인코더에 통과시켜 각 고객을 대표하는 저차원의 임베딩 벡터 데이터셋을 새로 생성했다.
그런 다음, 이 임베딩 데이터셋에 K-평균 군집분석을 적용하여 고객 세그먼트를 생성했다. 이 방법론의 우수성을 입증하기 위해, 전통적인 선형 차원 축소 기법인 **주성분 분석(PCA)**을 적용하여 얻은 결과와 군집의 품질(예: 실루엣 스코어)을 비교 평가했다.
핵심 결과
오토인코더를 활용한 세분화 방식은 PCA와 같은 전통적인 차원 축소 기법보다 통계적으로 더 유의미하고, 비즈니스적으로도 더 해석하기 쉬운 고객 세그먼트를 생성했다.
연구 결과, 오토인코더 기반의 세분화는 PCA 기반 세분화보다 더 응집력 있고 명확하게 구분되는 군집을 형성했다. 이는 오토인코더가 변수들 간의 비선형적 관계와 복잡한 상호작용을 효과적으로 학습하여 임베딩에 담아냈기 때문이다. 반면, PCA는 데이터의 선형적인 관계만을 포착하므로 복잡한 고객 행동 패턴을 제대로 표현하는 데 한계가 있었다. 결론적으로, 이 연구는 비지도 딥러닝을 활용한 접근법이 고차원 고객 데이터를 위한 세분화에서 기존 방법론보다 우월한 성능을 보임을 실증적으로 증명했다.
시사점
딥러닝은 ‘피처 엔지니어링(Feature Engineering)’의 수고를 덜어주고, 데이터 내에 숨겨진 복잡한 패턴을 스스로 학습하여 유의미한 특징(임베딩)을 추출하는 강력한 도구다.
이 연구는 데이터 분석가와 마케터에게 중요한 시사점을 던진다. 과거에는 분석가들이 더 나은 모델 성능을 위해 수많은 시간을 들여 새로운 변수(Feature)를 수동으로 만들고 테스트해야 했다. 하지만 이제 오토인코더와 같은 딥러닝 모델을 통해 **’자동화된 피처 엔지니어링’**이 가능해졌다. 이는 분석가가 가설을 세우고 변수를 만드는 데 쏟았던 노력을, 모델 아키텍처를 설계하고 결과를 비즈니스적으로 해석하는 더 창의적인 일에 집중할 수 있게 함을 의미한다. 비지도 딥러닝은 이제 고객 세분화의 성능을 한 차원 높일 수 있는 핵심 기술로 자리매김했다.
인사이트
고객을 ‘정의’하려 하지 말고, 데이터가 스스로 ‘고객을 그리게’ 하라.
AI/빅데이터 마케터의 관점에서 이 논문의 핵심 가치는, 인간의 편견이나 한계를 넘어 데이터 속에 숨겨진 ‘진짜’ 고객의 모습을 발견할 수 있게 해준다는 점이다. 기술적 분석 결과를 마케터가 상상할 수 있는 시나리오로 바꾸면 다음과 같다.
- 딥러닝이 발견한 페르소나: ‘주말의 홈카페족’
- 발견 과정: 전통적인 분석으로는 그냥 ‘커피 원두’와 ‘우유’를 가끔 사는 평범한 고객으로 보였다. 하지만 오토인코더는 수백 개의 상품 데이터 속에서 ‘주말 오전 시간대’, ‘고급 원두’, ‘유기농 우유’, ‘예쁜 컵’, ‘소형 베이킹 재료’라는 변수들 사이에 강한 비선형적 상호작용이 있음을 포착했다. 이 패턴을 핵심 특징으로 추출하여, 기존에는 없었던 ‘주말의 홈카페족’이라는 새로운 페르소나를 자동으로 생성해냈다.
- 실질적인 마케팅 액션
- 초개인화 추천: ‘주말의 홈카페족’으로 분류된 고객이 금요일 저녁에 앱에 접속하면, 홈 화면에 신상 원두와 함께 그 원두와 잘 어울리는 디저트 레시피, 그리고 관련 베이킹 재료를 함께 추천한다.
- 자동화된 콘텐츠 마케팅: 이 세그먼트에게는 ‘이번 주말, 나만의 홈카페를 열어보세요!’라는 제목으로, 유명 바리스타의 핸드드립 팁이나 예쁜 라떼 아트 만들기 영상과 같은 정보성 콘텐츠를 담은 푸시 알림을 자동으로 발송한다.
- 잠재고객 예측 및 타겟팅: 새로 가입한 고객이 ‘예쁜 컵’을 장바구니에 담는 행동을 보이자마자, 학습된 오토인코더는 이 고객이 ‘주말의 홈카페족’이 될 확률이 높다고 판단한다. 시스템은 즉시 이 고객에게 ‘첫 구매 원두 10% 할인 쿠폰’을 선제적으로 제공한다.