머신러닝을 활용한 이커머스 환경의 고객 행동 기반 분류 연구 리뷰

이커머스 고객의 행동 데이터를 의사결정나무와 같은 머신러닝 분류 모델로 학습시켜, ‘충동 구매형’, ‘신중 탐색형’ 등 미리 정의된 행동 유형으로 자동 분류하는 방법론을 제안한다.


논문 요약

  • 논문 제목: 머신러닝을 활용한 이커머스 환경의 고객 행동 기반 분류 연구
  • 저자: 성현우
  • 게재 학술지: 중앙대학교 대학원 (석사학위논문)
  • 발행 연도: 2023
  • 핵심 요약: 이커머스 고객의 클릭, 조회, 장바구니 활동, 구매 등 다양한 행동 데이터를 특징으로 삼아, 의사결정나무(Decision Tree)와 같은 지도학습 분류 모델을 구축했다. 이를 통해, 사전에 정의된 고객 행동 유형(예: 충동 구매형, 신중 탐색형)으로 고객을 자동으로 분류하는 시스템을 개발하고, 그 성능과 가능성을 탐색했다.

연구 배경

고객이 웹사이트에 남기는 모든 클릭과 스크롤에는 그들의 숨겨진 의도가 담겨있다. 이 연구는 머신러닝이라는 ‘행동 탐지기’를 통해 고객의 디지털 바디랭귀지를 읽어내고, 그들의 진짜 유형을 파악하고자 한다.

이커머스 기업의 성공은 고객을 얼마나 잘 이해하고, 그 이해를 바탕으로 얼마나 정교한 개인화 경험을 제공하는지에 달려있다. 이를 위해 기업들은 고객 행동 패턴을 분석하여 고객을 여러 유형으로 분류하려는 노력을 계속해왔다. 예를 들어, 어떤 고객은 사이트에 들어오자마자 빠르게 구매를 결정하는 **’충동 구매형’**일 수 있고, 다른 고객은 여러 상품을 오랫동안 비교하고 장바구니에 담았다 빼기를 반복하는 **’신중 탐색형’**일 수 있다.

과거에는 이러한 분류를 마케터의 경험이나 단순한 규칙에 의존했다. 하지만 이는 주관적이고, 대규모 고객에게 일관되게 적용하기 어려운 한계가 있었다.

이러한 문제를 해결하기 위해, 본 연구는 지도학습(Supervised Learning) 기반의 머신러닝 분류 모델을 도입한다. 지도학습은 ‘정답’이 있는 데이터를 학습하는 방식이다. 즉, 먼저 일부 고객 데이터에 전문가가 “이 고객은 충동 구매형”, “저 고객은 신중 탐색형”과 같이 **미리 정의된 라벨(Label)**을 붙여준다. 그러면 머신러닝 모델은 이 ‘정답지’를 보고, 각 유형의 고객들이 어떤 행동 패턴을 보이는지를 스스로 학습한다.

특히, 이 연구에서는 **의사결정나무(Decision Tree)**와 같은 해석 가능한 모델의 활용 가능성을 탐색한다. 의사결정나무는 데이터로부터 “만약 A조건을 만족하고, B조건을 만족하면, 이 고객은 OOO유형이다”와 같은 IF-THEN 형태의 규칙을 자동으로 생성해주어, 마케터가 모델의 판단 근거를 쉽게 이해할 수 있다는 장점이 있다.


해결하려는 문제

수동적인 고객 분석과 획일적인 마케팅에서 벗어나, 고객의 실제 행동 데이터를 기반으로 고객 유형을 자동으로 분류하고, 이를 통해 각 유형에 최적화된 개인화 마케팅을 실현한다.

마케터는 항상 다음과 같은 고민을 안고 있다.

  • 우리 웹사이트에 방문하는 수많은 고객들을 어떻게 효과적으로 그룹화할 수 있을까?
  • 신규 고객이 처음 방문했을 때, 그의 초기 행동 몇 가지만으로 어떤 유형의 고객일지 예측할 수 있을까?
  • 각 고객 유형에 맞춰 어떤 상품을 추천하고 어떤 메시지를 보내야 가장 반응이 좋을까?

이 연구가 해결하고자 하는 핵심 문제는 바로 이러한 **’고객 분류 및 개인화 마케팅의 자동화’**이다. 즉, 고객의 복잡한 행동 데이터를 시스템이 자동으로 분석하여, “이 고객은 ‘신중 탐색형’이니, 서두르지 말고 더 많은 비교 정보와 리뷰를 제공해주자”와 같은 맞춤형 대응을 실시간으로 가능하게 하는 것이다.

이를 위해, 고객의 다양한 행동 로그를 입력받아, 미리 정의된 행동 유형으로 정확하게 분류해내는 머신러닝 모델을 개발하고, 그 유효성을 검증하는 것을 연구의 목표로 삼는다.


연구 모형

이커머스 고객의 다양한 행동 데이터를 특징(Feature)으로, 사전에 정의된 행동 유형을 타겟(Label)으로 하는 지도학습 분류 모델(의사결정나무 등)을 구축하고, 모델의 성능과 변수 중요도를 평가한다.

본 연구는 고객 행동 유형을 분류하기 위해, 다음과 같은 지도학습 기반의 모델링 절차를 따랐다.

  1. 데이터 라벨링 및 준비 (Data Labeling & Preparation):
    • 이커머스 플랫폼에서 고객의 행동 로그 데이터를 수집한다.
    • 가장 중요한 선행 작업으로, 각 고객에게 ‘충동 구매형’, ‘신중 탐색형’ 등과 같이 사전에 정의된 행동 유형 라벨을 부여한다. 이 라벨이 모델이 학습해야 할 ‘정답’이 된다. (이 라벨은 전문가 집단의 합의나 별도의 기준을 통해 생성된다.)
  2. 특징 공학 (Feature Engineering):
    • 수집된 원본 로그 데이터로부터 머신러닝 모델이 학습할 수 있는 수치형 변수, 즉 **특징(Feature)**을 추출한다. 예를 들어, 평균 세션 당 페이지뷰 수, 구매 전환율, 장바구니 이용 횟수 등을 계산한다.
  3. 분류 모델 학습 (Classifier Training):
    • 준비된 특징(X)과 라벨(Y) 데이터를 사용하여 **의사결정나무(Decision Tree)**나 랜덤포레스트, SVM 등 다양한 머신러닝 분류 모델을 학습시킨다.
  4. 모델 평가 및 해석 (Model Evaluation & Interpretation):
    • 학습된 모델이 얼마나 정확하게 고객 유형을 분류하는지 정확도(Accuracy) 등의 지표로 평가한다.
    • 의사결정나무의 경우, 생성된 트리 구조를 직접 분석하거나, 다른 모델의 경우 **변수 중요도(Feature Importance)**를 분석하여 어떤 행동 변수가 고객 유형을 구분하는 데 결정적인 역할을 하는지 파악한다.

데이터 설명

특정 이커머스 플랫폼의 고객 행동 로그 데이터를 활용했으며, 고객의 사이트 내 탐색, 조회, 구매 등 모든 활동 기록을 포함하는 오프체인(Off-chain) 데이터이다.

  • 출처: 논문에 구체적인 출처는 명시되지 않았으나, 국내외 특정 이커머스 기업의 내부 데이터를 활용한 것으로 추정된다. 이는 웹 서버나 분석 툴에 의해 기록되는 오프체인(Off-chain) 데이터이다.
  • 수집 방법: Google Analytics나 Adobe Analytics와 같은 웹 분석 툴 및 기업 내부의 주문 관리 시스템(OMS)에서 데이터를 추출하여, 고객 ID를 기준으로 통합했을 것으로 보인다.
  • 데이터 변수 설명: 본 연구는 지도학습 문제이므로, 데이터는 모델의 입력(X)과 정답(Y)으로 명확히 구분된다.
    • 출력/타겟 변수 (Y, Label):
      • 행동_유형: '충동 구매형', '신중 탐색형', '브랜드 충성형', '가격 민감형' 등과 같이, 사전에 명확하게 정의된 범주형 라벨.
    • 입력 변수 (X, Features): 고객의 행동 패턴을 나타내는 다양한 정량적 지표.
      • 탐색 행동 관련: 평균 세션 당 페이지뷰 수, 평균 세션 체류 시간, 상품 카테고리 탐색 다양성.
      • 상품 관여 행동 관련: 상품 상세 페이지 평균 조회 수, 장바구니 추가 횟수, 장바구니 상품 평균 체류 시간, 장바구니 삭제 횟수.
      • 구매 행동 관련: 구매 전환율, 평균 구매 단가(AOV), 재구매율, 할인 상품 구매 비율.

데이터 분석

의사결정나무 모델을 학습시킨 결과, 고객의 행동 데이터를 바탕으로 고객 유형을 성공적으로 분류할 수 있었으며, ‘세션 당 페이지뷰’나 ‘장바구니 추가 횟수’와 같은 변수들이 유형 분류의 주요 기준으로 사용됨을 확인했다.

본 연구의 데이터 분석은 고객의 다양한 행동 지표들을 조합하여, 사전에 정의된 고객 유형을 얼마나 잘 설명하고 예측할 수 있는지를 검증하는 과정이다.

연구진은 의사결정나무 알고리즘을 사용하여 모델을 학습시켰다. 학습된 의사결정나무 모델은 일련의 IF-THEN 규칙으로 표현된다. 예를 들어, 분석 결과 다음과 같은 규칙을 발견할 수 있었다.

  • IF 세션 당 평균 체류 시간이 3분 미만이고 구매 전환율이 5% 이상이면 → 충동 구매형
  • ELSE IF 세션 당 평균 체류 시간이 10분 이상이고 장바구니 추가 횟수가 5회 이상이지만 구매 전환율이 1% 미만이면 → 신중 탐색형

이처럼, 모델은 데이터로부터 스스로 최적의 분류 기준(예: ‘체류 시간 3분’, ‘전환율 5%’)과 변수의 조합을 찾아냈다. 변수 중요도 분석을 통해, ‘구매 전환율’, ‘평균 세션 체류 시간’, ‘장바구니 관련 행동 지표’ 등이 고객 유형을 구분하는 데 있어 특히 중요한 역할을 한다는 것을 확인했다.


핵심 결과

고객의 웹사이트 내 행동 패턴은 그들의 잠재적인 구매 유형을 예측하는 강력한 신호이며, 의사결정나무와 같은 머신러닝 모델을 통해 이러한 관계를 명확한 ‘규칙’의 형태로 발견하고 자동화할 수 있다.

본 연구의 핵심 결과는 고객의 행동 데이터를 기반으로, 고객의 유형을 자동으로 분류하는 머신러닝 시스템을 구축할 수 있음을 성공적으로 보여준 것이다.

과거에는 마케터가 경험에 의존하여 “이 고객은 아마 신중한 편일거야”라고 추측했다면, 이제는 머신러닝 모델이 고객의 행동 데이터를 입력받아 “이 고객은 ‘신중 탐색형’으로 분류되며, 그 근거는 이러이러한 행동 패턴 때문입니다”라고 데이터 기반의 답변을 제공할 수 있게 되었다.

특히 의사결정나무 모델을 활용함으로써, 모델의 예측 결과를 사람이 이해하기 쉬운 **명시적인 규칙(Explicit Rules)**으로 도출할 수 있다는 점이 중요한 성과이다. 이는 모델의 예측을 신뢰하고, 분석 결과를 실제 마케팅 전략에 적용하는 데 큰 도움을 준다.


시사점

고객 분류 모델을 구축함으로써, 기업은 신규 고객의 초기 행동 몇 가지만으로도 해당 고객의 유형을 예측하고, 즉각적으로 개인화된 경험을 제공하는 ‘실시간 대응 CRM’ 체계를 구축할 수 있다.

이 연구는 기업이 데이터 기반 CRM을 구축하는 데 있어 다음과 같은 실질적인 시사점을 제공한다.

첫째, 고객의 초기 행동이 중요하다. 잘 학습된 분류 모델이 있다면, 신규 고객이 웹사이트에 가입하여 몇 번의 클릭과 탐색을 하는 것만으로도 해당 고객이 어떤 유형에 속할지 높은 확률로 예측할 수 있다. 이는 고객과의 첫 번째 접점부터 개인화된 경험을 제공할 수 있게 해준다.

둘째, 마케팅 시나리오의 자동화가 가능해진다. ‘충동 구매형’으로 분류된 고객에게는 시간 제한이 있는 ‘플래시 세일’ 정보를, ‘신중 탐색형’으로 분류된 고객에게는 그들이 오랫동안 조회한 상품의 ‘상세 리뷰’나 ‘비교 분석’ 콘텐츠를 자동으로 보내주는 마케팅 자동화 시나리오를 설계하고 실행할 수 있다.


인사이트

고객의 첫 ‘클릭’에 그의 ‘성향’이 담겨있다. 그 신호를 읽고 먼저 다가가라.

이 논문은 고객과의 관계를 ‘선제적으로’ 설계하는 것의 중요성을 보여준다. 고객이 자신의 성향을 말해주기를 기다리는 것이 아니라, 고객이 남긴 행동의 흔적을 통해 먼저 그의 성향을 파악하고, 그가 원할 법한 경험을 한발 앞서 제안해야 한다. 머신러닝은 바로 이 ‘선제적 제안’을 가능하게 하는 핵심 기술이다.

  • 페르소나 예시: “에어드랍 헌터, 알파(Alpha)”
    • 특징: 알파는 새로운 프로토콜이 출시될 때마다, 최소한의 조건만 만족시켜 에어드랍(무상 토큰 분배)을 받으려는 뚜렷한 목적을 가진 사용자다. 그는 Swap, Stake 등 필수적인 트랜잭션을 딱 한두 번만 실행하고, 에어드랍이 지급될 때까지 아무런 추가 활동을 하지 않는다. 그의 행동은 **’최소 비용, 최대 이익’**을 추구하는, 매우 목적 지향적인 ‘체리피커(Cherry-picker)’ 유형으로 분류될 수 있다.
    • 데이터 기반 행동: 에어드랍 공지 직후 유입, 최소한의 트랜잭션(1~2회) 후 장기간 비활성 상태.
  • 실질적인 마케팅 액션 제안:
    1. 행동 기반 유형 자동 분류: ‘알파’와 같이, 에어드랍 공지 직후에만 활동하고 최소 조건만 충족시키는 지갑들을 머신러닝 모델을 통해 ‘에어드랍 헌터’ 유형으로 자동으로 분류한다.
    2. 맞춤형 참여 유도 프로그램: 이 ‘에어드랍 헌터’ 그룹에게는 단순한 추가 에어드랍 대신, 그들이 진정한 생태계 기여자로 전환될 수 있는 맞춤형 프로그램을 제안한다. 예를 들어, “에어드랍 받은 토큰을 3개월간 스테이킹하면, 거버넌스 투표권 가중치 2배 부여”와 같이, 단기 이익을 장기적인 참여로 전환시키는 인센티브를 설계하여 제공한다.
    3. 생태계 기여도에 따른 차등 보상 시스템: 이들이 단순한 ‘헌터’에서 ‘기여자’로 발전하도록, 프로토콜에 실질적인 가치(예: 장기 유동성 제공, 활발한 거버넌스 투표 참여)를 제공했을 때 훨씬 더 큰 보상을 주는 시스템(예: 보상 부스팅)을 도입하여, 이들의 행동 패턴 변화를 긍정적으로 유도한다.