User Profiling through Cluster Investigation enriched by a Pre-User-Profiling Method 리뷰

단순한 규칙 기반의 사전 프로파일링과 정교한 군집분석을 결합한 하이브리드 방법론을 제안하여, 사용자 세분화의 정확도와 해석력을 동시에 높이는 혁신적인 접근법을 제시한다.

논문 요약

  • 논문 제목: User Profiling through Cluster Investigation enriched by a Pre-User-Profiling Method
  • 저자: Eleni Siampali
  • 게재 학술지: Tilburg University (학위논문)
  • 발행 연도: 2020
  • 핵심 요약: 사용자 프로파일링의 정확도를 높이기 위해, 먼저 간단한 규칙 기반으로 사용자를 1차 분류(Pre-profiling)하고, 그 다음 각 그룹 내에서 정교한 군집분석을 수행하는 2단계 하이브리드 접근법을 제안했다.

연구 배경

최고의 머신러닝 모델은 순수한 데이터의 힘만으로 만들어지는 것이 아니라, 인간의 도메인 지식과 기계의 계산 능력이 결합될 때 탄생한다.

사용자 프로파일링과 고객 세분화는 현대 데이터 과학의 핵심적인 과제 중 하나이다. K-평균 군집분석과 같은 머신러닝 알고리즘은 대규모 데이터에서 인간이 발견하기 어려운 패턴을 찾는 데 매우 유용하다. 하지만 순수한 머신러닝 접근법은 몇 가지 한계를 가진다. 첫째, 데이터에 노이즈가 많거나 매우 이질적인 그룹이 섞여 있으면, 알고리즘이 의미 있는 군집을 찾아내지 못하고 결과를 해석하기 어려워지는 경우가 많다. 둘째, 생성된 군집이 통계적으로는 유의미할지 몰라도, 비즈니스적으로는 전혀 쓸모없는 무의미한 그룹일 수 있다.

이러한 한계를 극복하기 위해 하이브리드 모델(Hybrid Models) 이라는 접근법이 주목받고 있다. 하이브리드 모델은 인간 전문가의 **도메인 지식(Domain Knowledge)**을 반영한 **규칙 기반 시스템(Rule-based System)**과, 데이터 자체의 패턴을 학습하는 **머신러닝(Machine Learning)**을 결합하는 방식이다. 이 연구는 사용자 프로파일링 문제에 바로 이 하이브리드 접근법을 적용하여, 기존 방법론의 단점을 보완하고 정확성과 해석 가능성을 모두 높이는 새로운 길을 모색한다.


해결하려는 문제

순수 군집분석만으로는 생성된 고객 그룹의 특성이 모호하고 해석하기 어려우며, 때로는 비즈니스 상식에 맞지 않는 결과가 나오는 문제를 해결하고자 한다.

전체 고객 데이터를 하나의 거대한 용광로에 넣고 군집분석을 실행하면 어떤 일이 벌어질까? 알고리즘은 데이터를 몇 개의 그룹으로 나누어 주겠지만, 그 그룹의 정체가 불분명할 때가 많다. 예를 들어, 서비스에 막 가입한 ‘초보 사용자’와 5년 동안 활동한 ‘헤비 유저’가 같은 데이터셋에 섞여 있다면, 군집분석은 단순히 이 둘을 구분하는 데만 집중하고, 정작 우리가 알고 싶었던 ‘헤비 유저들 사이의 미묘한 행동 차이’는 발견하지 못할 수 있다.

이 연구가 해결하려는 문제는 바로 이 분석의 초점과 효율성 문제이다. 전체를 한 번에 분석하려는 시도는 오히려 중요한 세부 패턴을 놓치게 만들 수 있다. 따라서 이 연구는 전체 문제를 더 작고 관리하기 쉬운 여러 개의 하위 문제로 나누어 접근하는 ‘분할 정복(Divide and Conquer)’ 전략을 제안한다. 즉, 비즈니스적으로 명확하게 구분되는 그룹을 먼저 나누고, 그 안에서 데이터 기반의 탐색을 수행함으로써 분석의 깊이를 더하고자 한다.


연구 모형

전체 사용자를 먼저 명확한 규칙(예: 활동 빈도, 주요 사용 기능)에 따라 몇 개의 대분류로 나눈 뒤(Pre-profiling), 각 대분류 그룹 내에서만 별도로 군집분석을 수행하는 2단계 하이브리드 모델을 제안한다.

본 연구가 제안하는 하이브리드 프로파일링 모델은 다음과 같은 2단계로 구성된다.

  1. 1단계: 사전 프로파일링 (Pre-profiling)
    • 방법: 머신러닝을 사용하지 않고, 비즈니스 도메인 전문가가 정의한 명확하고 단순한 **규칙(Rules)**을 기반으로 전체 사용자를 몇 개의 의미 있는 대분류로 나눈다.
    • 예시: IF 총 구매 횟수 > 50 AND 최근 접속일 < 30일 THEN 사용자 등급 = 'VIP' 와 같이, 직관적으로 이해할 수 있는 기준으로 사용자를 1차 분류한다. 이 단계에서는 ‘VIP’, ‘일반 회원’, ‘초보자’, ‘비활성 회원’ 등과 같은 넓은 범위의 세그먼트가 생성된다.
  2. 2단계: 심층 군집 조사 (Cluster Investigation)
    • 방법: 1단계에서 생성된 각 대분류 그룹(예: ‘VIP’ 그룹) 내에서만, 해당 그룹에 속한 사용자들의 상세 행동 데이터를 사용하여 K-평균 군집분석과 같은 머신러닝 알고리즘을 실행한다.
    • 예시: ‘VIP’ 그룹 내에서 군집분석을 수행하여, 이들을 다시 ‘할인 상품을 주로 구매하는 VIP’, ‘신제품을 가장 먼저 구매하는 VIP’ 등과 같은 더 세분화되고 구체적인 하위 그룹으로 나눈다.

이러한 2단계 접근을 통해, 분석의 전체적인 틀은 인간의 지식으로 잡고, 세부적인 패턴은 기계의 능력으로 발견하는 상호보완적인 모델을 구축한다.


데이터 설명

특정 데이터셋을 지정하지 않고, 일반적인 사용자 활동 로그 데이터를 대상으로 하는 방법론을 제시했다.

  • 출처: 논문에 구체적인 데이터 출처는 명시되지 않음. 본 연구는 특정 데이터에 국한되지 않고, 이커머스, 소셜 미디어, 온라인 게임 등 사용자의 행동이 기록되는 모든 디지털 서비스에 범용적으로 적용될 수 있는 방법론을 제안하고 있다.
  • 수집 방법: 일반적인 기업 환경과 마찬가지로, 서버 로그, 내부 데이터베이스, 웹 분석 도구 등에서 데이터를 추출하는 것을 가정한다.
  • 온체인 여부: 해당 없음 (일반적인 오프체인 사용자 데이터를 가정한다).
  • 데이터 변수 설명: 본 연구의 2단계 접근법에 따라, 각 단계에서 활용되는 변수의 성격이 다르다.
    1. 1단계: 사전 프로파일링을 위한 핵심 성과 변수 (KPI-driven Features for Pre-profiling):
      • 사용자의 전반적인 상태를 나타내는, 해석이 용이한 소수의 핵심 변수.
      • 활동성 지표: 총 로그인 횟수, 총 서비스 이용 시간, 최근 접속일.
      • 기여도 지표: 총 구매액, 콘텐츠 생성 수, 타인과의 상호작용 수.
    2. 2단계: 심층 군집분석을 위한 세부 행동 변수 (Granular Behavioral Features for Clustering):
      • 사용자의 구체적인 행동 패턴과 선호를 나타내는 다차원의 상세 변수.
      • 기능 사용 패턴: 사용한 기능의 종류와 빈도 분포.
      • 시간대별 활동 패턴: 주중/주말 활동량, 주간/야간 활동량.
      • 콘텐츠 소비 패턴: 주로 소비하는 콘텐츠 카테고리, 평균 소비 시간.
      • 네트워크 지표: 팔로워 수, 팔로잉 수, 소셜 네트워크 내 중심성.

데이터 분석

먼저 전체 사용자를 규칙 기반으로 ‘초보자’, ‘중급자’, ‘전문가’ 등으로 사전 분류하고, 이후 각 그룹 내에서만 K-평균 군집분석을 실행하여 그룹별 세부 프로필(예: ‘소셜형 전문가’, ‘분석형 전문가’)을 도출했다.

본 연구의 분석 과정은 ‘분할 정복(Divide and Conquer)’ 전략을 따른다. 전체 사용자라는 거대한 데이터셋을 한 번에 분석하는 대신, 먼저 도메인 지식을 활용하여 명확한 그룹으로 나눈다. 예를 들어, 총 서비스 이용 시간이라는 변수를 기준으로 ‘초보자'(10시간 미만), ‘중급자'(10~100시간), ‘전문가'(100시간 이상)라는 세 개의 그룹으로 1차 분류한다.

그 다음, ‘전문가’ 그룹에 속한 사용자들의 데이터만을 따로 추출한다. 그리고 이들의 세부 행동 변수들(예: 기능 사용 패턴, 시간대별 활동 등)을 사용하여 K-평균 군집분석을 수행한다. 그 결과, 같은 ‘전문가’ 그룹 안에서도, 다른 사용자와의 소통 기능을 주로 사용하는 ‘소셜형 전문가’와, 데이터 분석 기능을 주로 사용하는 ‘분석형 전문가’라는 두 개의 하위 그룹을 발견할 수 있다. 이러한 방식으로 각 대분류 그룹에 대해 개별적인 군집분석을 수행하여, 전체 고객을 나무(Tree) 구조와 같은 계층적 세그먼트로 구성한다.


핵심 결과

사전 프로파일링을 결합한 하이브리드 방식은 단일 군집분석을 적용했을 때보다 훨씬 더 명확하고, 해석하기 쉬우며, 비즈니스적으로 유용한 세그먼트를 생성했다.

이 연구의 2단계 하이브리드 접근법은 기존의 단일 단계 군집분석에 비해 여러 가지 뚜렷한 장점을 보였다.

  1. 해석 가능성 향상(Improved Interpretability): 1단계에서 규칙 기반으로 생성된 대분류 그룹(예: ‘VIP’)은 그 자체로 명확한 비즈니스적 의미를 가지므로, 결과를 이해하고 공유하기가 매우 용이하다.
  2. 정밀도 향상(Higher Resolution): 이미 유사한 특성을 가진 사용자들로 구성된 그룹 내에서 군집분석을 수행하므로, 알고리즘이 더 미세하고 의미 있는 차이점을 발견하여 훨씬 더 정교한 하위 그룹을 찾아낼 수 있다.
  3. 노이즈 감소 및 안정성 증대(Noise Reduction & Stability): 전체 데이터에 섞여 있던 극단적인 값이나 이질적인 그룹(예: 비활성 사용자)이 1단계에서 분리되므로, 2단계 군집분석이 훨씬 더 안정적이고 일관된 결과를 도출한다.

결론적으로, 인간의 지식으로 ‘숲’을 먼저 정의하고 기계의 능력으로 그 안의 ‘나무’들을 탐색하는 방식이 훨씬 더 효과적임을 증명했다.


시사점

데이터 과학 프로젝트의 성공은 최고의 알고리즘을 사용하는 것뿐만 아니라, 비즈니스 도메인 지식을 활용하여 분석 문제를 현명하게 구조화하는 것에 달려있다.

이 연구는 데이터 과학자와 현업 전문가 간의 협업이 왜 중요한지를 명확하게 보여준다. 데이터 과학자는 강력한 머신러닝 도구를 가지고 있지만, 어떤 문제가 정말로 중요한지, 어떤 변수가 비즈니스적으로 의미 있는지는 현업 전문가가 가장 잘 알고 있다. 본 연구에서 제안된 ‘사전 프로파일링’ 단계는 바로 이러한 현업의 지식을 분석 과정에 공식적으로 통합하는 절차이다. 이처럼 인간의 직관과 경험을 데이터 분석의 출발점으로 삼고, 머신러닝을 통해 그 직관을 검증하고 더 깊은 패턴을 탐색하게 할 때, 비로소 분석 결과는 실제 비즈니스 가치로 이어질 수 있다. 기술만으로는 충분하지 않으며, 현명한 문제 정의와 구조화가 선행되어야 한다.


인사이트

숲을 먼저 보고, 나무를 분석하라: 현명한 사전 분류가 분석의 격을 높인다.

AI 빅데이터 마케터의 관점에서 이 하이브리드 방법론은 매우 실용적이고 강력한 전략이다. 모든 고객을 한 번에 이해하려는 것은 비효율적이다. 가장 가치 있는 고객 그룹을 먼저 정의하고, 그들의 니즈를 깊이 파고드는 것이 현명하다. 이 원칙을 WEB3 CRM에 적용하면, 한정된 마케팅 자원을 가장 효과적으로 배분할 수 있다.

  • 고객 페르소나 예시 (하이브리드 모델 적용):
    • 1단계: 사전 프로파일링 (숲 보기)
      • 고래(Whales): 총 USDC 거래액 > $1M 인 그룹.
      • 돌고래(Dolphins): 총 거래액 $100K ~ $1M 인 그룹.
      • 치어(Minnows): 총 거래액 < $100K 인 그룹.
    • 2단계: 심층 군집분석 (나무 분석)
      • 고래 그룹 내에서 세부 행동을 분석하니, 이들은 다시 ‘디파이 고래’(랜딩/대출 위주), ‘NFT 고래’(고가 NFT 거래 위주), ‘인프라 고래’(브릿지, L2 등 인프라 투자 위주)로 나뉘었다.
      • 치어 그룹 내에서 분석하니, 이들은 ‘에어드랍 파머’(다양한 디앱에 소액 트랜잭션 발생), ‘게임 아이템 구매자’, ‘신규 진입 탐색가’ 등으로 나뉘었다.
  • 실질적인 마케팅 액션 제안:
    1. 계층별 차등 CRM 전략: ‘고래’ 그룹에게는 전담 VIP 매니저를 배정하여 1:1 맞춤 케어를 제공한다. ‘치어’ 그룹에게는 자동화된 온보딩 가이드와 튜토리얼을 제공하여 셀프 학습을 유도한다.
    2. 초정밀 타겟 마케팅: 같은 ‘고래’라도, ‘디파이 고래’에게는 새로운 고수익 이자농사 전략을, ‘NFT 고래’에게는 유명 아티스트와의 비공개 AMA(Ask Me Anything) 링크를 보낸다. 같은 ‘치어’라도, ‘에어드랍 파머’에게는 다음 에어드랍 유망 프로젝트 리스트를, ‘게임 아이템 구매자’에게는 신규 게임 런칭 소식을 전달한다.