Transforming Customer Segmentation with Unsupervised Learning Models and Behavioral Data in Digital Commerce 리뷰

고객의 인구통계 정보보다 클릭, 검색 등 실제 ‘행동’ 데이터를 비지도 학습으로 분석하는 것이 훨씬 더 효과적인 고객 세분화 방법임을 제시하며, WEB3 온체인 데이터 분석의 정당성을 강력하게 뒷받침한다.

논문 요약

  • 논문 제목: Transforming Customer Segmentation with Unsupervised Learning Models and Behavioral Data in Digital Commerce
  • 저자: Ishola Bayo Ridwan
  • 게재 학술지: International Journal of Research Publication and Reviews
  • 발행 연도: 2025
  • 핵심 요약: 디지털 커머스 환경에서 고객의 클릭스트림, 검색 기록 등 방대한 행동 데이터를 비지도 학습(군집분석)으로 분석하여, 인구통계 기반의 정적인 세분화보다 훨씬 더 동적이고 예측력 높은 고객 세그먼트를 생성할 수 있음을 보였다.

연구 배경

고객을 이해하는 방식은 ‘그들이 누구인가(Who)’를 묻는 것에서 ‘그들이 무엇을 하는가(What)’를 관찰하는 것으로 진화했으며, 행동 데이터와 비지도 학습은 이 패러다임 전환의 핵심 동력이다.

고객 세분화는 오랫동안 마케팅의 기본이었다. 초기에는 **인구통계학적 세분화(Demographic Segmentation)**가 주를 이루었다. 고객을 나이, 성별, 지역 등 눈에 보이는 정보로 나누는 것은 간단했지만, ‘서울에 사는 30대 남성’이라는 그룹 안에도 너무나 다른 욕구를 가진 사람들이 존재했기에 예측력은 떨어졌다.

이를 보완하기 위해 등장한 것이 **행동적 세분화(Behavioral Segmentation)**이다. 디지털 커머스의 발달로 기업들은 고객의 모든 온라인 발자취, 즉 클릭스트림, 검색 기록, 페이지 체류 시간, 장바구니 활동 등 방대한 양의 행동 데이터를 수집할 수 있게 되었다. 이 데이터는 고객이 누구인지가 아니라, 고객이 ‘무엇을 원하는지’에 대한 직접적인 단서를 담고 있다.

하지만 이 복잡하고 방대한 데이터를 사람이 직접 분석하여 의미 있는 그룹을 찾기란 불가능에 가깝다. 여기서 비지도 학습(Unsupervised Learning), 특히 군집 분석(Clustering)이 해결사로 등장한다. 비지도 학습은 정답 없이 데이터 스스로가 가진 구조와 패턴을 찾아내어, 인간이 미처 발견하지 못했던 새로운 고객 그룹을 식별해낼 수 있다. 이 연구는 바로 이러한 행동 데이터와 비지도 학습의 결합이 어떻게 기존의 세분화 전략을 혁신하고, 기업에 새로운 가치를 제공하는지를 탐구한다.


해결하려는 문제

’30대 남성’이라는 인구통계학적 정보만으로는 고객의 진짜 의도를 알 수 없으며, 이로 인해 발생하는 부정확한 타겟팅과 마케팅 예산 낭비 문제를 해결하고자 한다.

전통적인 인구통계 기반 세분화의 가장 큰 문제는 ‘같은 그룹 내 이질성’과 ‘다른 그룹 간 동질성’이다. 즉, 같은 ’30대 남성’ 그룹 안에도 가격 비교 사이트를 샅샅이 뒤지는 ‘알뜰 쇼핑객’과 신제품이 나오자마자 구매하는 ‘얼리 어답터’가 섞여있다. 반면, 20대 여성과 50대 남성이라도 특정 취미(예: 캠핑) 용품을 구매하는 행동 패턴은 매우 유사할 수 있다.

이 연구는 이러한 부정확성 문제를 해결하는 것을 목표로 한다. 고객의 나이나 성별 같은 고정된 정보가 아니라, 그들의 실시간 행동 데이터를 분석함으로써 ‘지금 이 순간’ 고객이 무엇에 관심을 보이고 어떤 구매 단계에 있는지를 파악하고자 한다. 예를 들어, 특정 상품 페이지를 여러 번 방문하고 관련 리뷰를 꼼꼼히 읽는 행동은 인구통계 정보와 상관없이 강력한 ‘구매 임박’ 신호이다. 이처럼 행동에 기반한 동적 세분화를 통해, 모든 마케팅 활동을 고객의 실제 의도에 맞춰 최적화하고 ROI를 극대화하는 방법을 제시한다.


연구 모형

디지털 커머스 플랫폼에서 발생하는 고객의 행동 데이터(클릭스트림, 검색 기록, 페이지 체류 시간 등)를 수집하고, 이를 비지도 학습(군집 분석) 알고리즘에 적용하여 데이터 기반의 동적 고객 세그먼트를 생성하는 모델을 제시한다.

본 연구는 특정 알고리즘의 우수성을 증명하기보다는, 행동 데이터를 활용한 비지도 학습 기반의 고객 세분화라는 전체적인 ‘프로세스’와 그 효과성을 강조하는 개념적 프레임워크를 제시한다.

  1. 행동 데이터 수집(Behavioral Data Collection): 웹 서버 로그, 클릭스트림 데이터, 검색 로그, 구매 기록, 장바구니 데이터 등 고객의 모든 상호작용 데이터를 수집한다.
  2. 특징 공학(Feature Engineering): 수집된 원본 데이터로부터 의미 있는 변수(Feature)를 추출한다. 예를 들어, 세션 당 페이지 뷰 수, 평균 체류 시간, 검색 키워드의 종류, 구매 전환율 등을 계산한다.
  3. 비지도 학습 적용(Unsupervised Learning Application): K-평균(K-Means), DBSCAN, 계층적 군집 분석(Hierarchical Clustering) 등의 알고리즘을 사용하여, 사전에 정의된 그룹 없이 데이터 포인트 간의 유사성을 기반으로 자연스러운 군집(세그먼트)을 형성한다.
  4. 세그먼트 프로파일링 및 실행(Segment Profiling & Action): 형성된 각 군집이 어떤 행동 특성을 보이는지 분석하여 ‘정보 탐색형’, ‘충동구매형’, ‘브랜드 충성형’ 등과 같이 해석 가능한 페르소나를 부여하고, 각 페르소나에 맞는 마케팅 전략을 수립한다.

데이터 설명

특정 데이터셋을 명시하기보다는, 일반적인 디지털 커머스(이커머스) 플랫폼에서 수집 가능한 대규모 사용자 행동 데이터를 포괄적으로 다룬다.

  • 출처: 논문에 구체적인 출처는 명시되지 않음. Amazon, Shopify와 같은 이커머스 플랫폼의 서버 로그, Google Analytics와 같은 웹 분석 도구, 기업 내부 데이터 웨어하우스(DW) 등을 통해 수집된 데이터를 포괄적으로 지칭하는 것으로 보인다.
  • 수집 방법: 웹 서버 로그 파일 파싱(Parsing), 분석 도구의 API를 통한 데이터 추출, 데이터베이스 쿼리 등 표준적인 데이터 수집 방법을 가정한다.
  • 온체인 여부: 해당 없음 (웹사이트 및 앱 서버에서 수집되는 전통적인 오프체인 데이터이다).
  • 데이터 변수 설명: 이 연구에서 다루는 행동 데이터 변수들은 고객의 온라인 여정(Customer Journey)에 따라 다음과 같이 구조화할 수 있다.
    1. 탐색 및 발견 단계 (Exploration & Discovery Phase)
      • 방문 지표: 방문 빈도, 세션 수, 신규/재방문 여부.
      • 검색 지표: 사용된 검색 키워드, 검색 결과 클릭률, 검색 후 이탈률.
      • 탐색 지표: 세션 당 페이지 뷰(PV), 사이트 평균 체류 시간, 조회한 상품 카테고리의 다양성.
    2. 관심 및 고려 단계 (Interest & Consideration Phase)
      • 참여 지표: 특정 상품 페이지 조회수 및 체류 시간, 리뷰 조회 여부.
      • 의도 지표: 장바구니에 상품을 담는 행동(횟수, 금액), 위시리스트/좋아요 추가.
    3. 구매 및 충성도 단계 (Purchase & Loyalty Phase)
      • 구매 지표: 총 구매 횟수(Frequency), 총 구매액(Monetary), 평균 주문 가치(AOV).
      • 충성도 지표: 재구매율, 마지막 구매 후 경과일(Recency), 할인 쿠폰 사용률.

데이터 분석

방대한 행동 변수들을 사용하여 K-평균 또는 DBSCAN과 같은 군집 분석 알고리즘을 실행하고, 각 군집의 행동 패턴을 분석하여 ‘가격 민감형’, ‘충동구매형’ 등과 같은 새로운 세그먼트를 정의했다.

본 연구에서 제시하는 데이터 분석의 핵심은 ‘발견’에 있다. 분석가는 “우리 고객은 3개의 그룹으로 나뉠 것이다”라고 미리 가정하지 않는다. 대신, 수집된 모든 행동 변수를 군집 분석 알고리즘에 입력하여 데이터가 스스로 ‘말하게’ 한다.

알고리즘은 다차원 공간에서 각 고객의 행동 패턴을 하나의 점으로 표현하고, 서로 가까이 모여 있는 점들의 무리를 찾아낸다. 분석 과정에서 통계적 기법(예: 엘보우 메소드)을 사용하여 최적의 군집 개수를 결정한다. 군집화가 완료되면, 각 군집의 프로필을 분석한다. 예를 들어, 한 군집이 ‘할인 쿠폰 사용률’과 ‘검색 빈도’는 매우 높지만 ‘평균 주문 가치’는 낮은 특성을 보인다면, 이 그룹을 ‘알뜰한 정보 탐색가(Bargain-Hunting Researchers)’로 명명할 수 있다. 이처럼 데이터 기반으로 숨겨진 세그먼트를 발굴하고, 그 특성을 해석하는 것이 분석의 최종 목표이다.


핵심 결과

고객의 실제 행동 데이터 기반 세분화는 인구통계 기반 세분화보다 고객의 구매 의도를 훨씬 더 정확하게 예측했으며, 이는 개인화 추천 및 마케팅 캠페인의 효율을 극대화했다.

본 연구의 핵심 결론은 명확하다. 행동은 인구통계보다 정직하고 강력하다. 고객의 나이나 성별을 아는 것보다, 그들이 어떤 상품을 클릭하고 얼마나 오래 머물렀는지를 아는 것이 그들의 다음 행동을 예측하는 데 훨씬 더 유용했다. 행동 데이터 기반 세분화는 다음과 같은 구체적인 성과를 낳았다.

  • 예측 정확도 향상: 행동 기반 세그먼트는 향후 구매 가능성, 이탈 가능성을 예측하는 모델에서 인구통계 기반 세그먼트보다 월등히 높은 정확도를 보였다.
  • 마케팅 효율 증대: 각 세그먼트의 구체적인 관심사와 행동 패턴에 맞춰 개인화된 상품 추천, 이메일 마케팅, 광고 메시지를 전달함으로써 전환율(CVR)과 마케팅 투자수익률(ROAS)이 크게 향상되었다.
  • 새로운 비즈니스 기회 발견: “특정 카테고리 상품을 장바구니에 자주 담지만 구매는 하지 않는”과 같은 예상치 못한 세그먼트를 발견하고, 이들의 구매 장벽(예: 배송비, 결제 불편)을 해결해 줌으로써 새로운 매출을 창출할 수 있었다.

시사점

기업은 더 이상 고객에게 ‘당신은 누구입니까?’라고 묻는 대신, ‘당신은 무엇을 합니까?’라는 질문에 집중해야 하며, 고객의 모든 행동을 데이터로 수집하고 분석하는 역량을 내재화해야 한다.

이 연구는 현대 디지털 비즈니스의 경쟁 우위가 어디에서 오는지를 명확히 보여준다. 그것은 바로 데이터를 수집하고, 분석하고, 실행하는 능력이다. 좋은 제품을 만드는 것은 이제 기본이다. 진정한 차별화는 고객의 행동을 얼마나 깊이 있게 이해하고, 그 이해를 바탕으로 얼마나 빠르게 개인화된 경험을 제공하느냐에 달려있다. 이를 위해 기업은 마케팅 부서와 데이터 사이언스 부서의 긴밀한 협력을 장려하고, 고객의 모든 디지털 접점에서 발생하는 행동 데이터를 통합적으로 수집하고 분석할 수 있는 데이터 인프라에 적극적으로 투자해야 한다. 고객의 행동 속에 숨겨진 의도를 읽어내는 기업만이 미래 시장의 승자가 될 것이다.


인사이트

고객은 말하지 않는다, 행동으로 보여줄 뿐이다.

AI 빅데이터 마케터의 관점에서 이 논문은 데이터 기반 마케팅의 본질을 꿰뚫는다. 고객은 설문조사에서 거짓말을 할 수 있지만, 그들의 클릭과 검색 기록은 거짓말을 하지 않는다. 이 원칙은 익명성이 특징인 WEB3 세계에서 더욱 강력한 힘을 발휘한다. 우리는 지갑 주인의 나이나 직업을 알 필요가 없다. 그 지갑이 남긴 ‘온체인 행동’이야말로 그들의 페르소나를 보여주는 가장 확실한 증거이기 때문이다.

  • 고객 페르소나 예시 (WEB2 행동을 WEB3에 적용):
    1. ‘온체인 정보 탐색가 (The On-chain Researcher)’: WEB2의 ‘Window Shopper’에 해당한다. 이들은 USDC 거래를 하기 전에 Etherscan에서 컨트랙트 코드를 확인하고, Dune Analytics에서 관련 대시보드를 조회하며, DeBank에서 다른 고래들의 포트폴리오를 분석한다. 실제 거래는 적지만, 분석 활동이 매우 활발하다.
    2. ‘가스비 사냥꾼 (The Gas Fee Hunter)’: WEB2의 ‘Bargain Hunter’에 해당한다. 이들은 항상 가스비가 저렴한 시간대를 노려 거래하거나, DEX 애그리게이터를 통해 1 USDC라도 더 유리한 환율을 찾아낸다. 이들에게는 효율성과 비용 절감이 가장 중요한 가치이다.
    3. ‘프로토콜 맥시멀리스트 (The Protocol Maximalist)’: WEB2의 ‘Brand Loyalist’와 같다. 이들은 다양한 디앱을 시도하기보다는, 자신이 신뢰하는 단 하나의 프로토콜(예: Uniswap, Aave)에서만 대부분의 USDC 거래를 일으킨다. 이들에게는 익숙함과 신뢰가 중요하다.
  • 실질적인 마케팅 액션 제안:
    1. 정보 제공을 통한 신뢰 구축: ‘온체인 정보 탐색가’를 타겟으로 기술 백서, 상세한 로드맵, 투명한 데이터 대시보드를 제공하여 그들의 지적 호기심을 충족시키고 신뢰를 얻는다.
    2. 효율성/비용 혜택 강조: ‘가스비 사냥꾼’에게는 L2(레이어 2) 솔루션으로의 이전을 유도하며 가스비 절감 효과를 강조하거나, 특정 시간대 거래 시 가스비를 환급해주는 ‘가스비 리베이트’ 프로그램을 제공한다.
    3. 충성도 보상 및 커뮤니티 강화: ‘프로토콜 맥시멀리스트’에게는 해당 프로토콜의 거버넌스 토큰을 에어드랍하여 주인의식을 부여하거나, 장기 예치자에게 추가적인 보상을 제공하는 로열티 프로그램을 운영한다.