User Profiling Based on Financial Transaction Patterns: A Clustering Approach for User Segmentation 리뷰

개인의 금융 거래 데이터를 K-평균 군집분석하여 소비 패턴 기반의 사용자 프로필을 생성하는 연구로, WEB3 온체인 거래 데이터 분석을 위한 완벽한 청사진을 제공한다.

논문 요약

  • 논문 제목: User Profiling Based on Financial Transaction Patterns: A Clustering Approach for User Segmentation
  • 저자: Satrya Fajri Pratama, Nadya Awali Putri
  • 게재 학술지: International Journal for Applied Information Management (IJAIM)
  • 발행 연도: 2024
  • 핵심 요약: 개인의 금융 거래 내역(소비 카테고리, 금액, 시간 등)을 기반으로 군집분석을 수행하여, ‘온라인 쇼핑 주도형’, ‘오프라인 외식 주도형’ 등과 같은 뚜렷한 소비 패턴을 가진 사용자 프로필 그룹을 식별했다.

연구 배경

한 사람의 신용카드 내역서는 그의 자서전과 같다. 데이터 과학은 그 자서전을 해석하여 그의 라이프스타일을 읽어내는 기술이다.

**사용자 프로파일링(User Profiling)**은 사용자의 특성, 행동, 선호를 이해하여 개인화된 경험을 제공하기 위한 모든 활동을 의미한다. 금융 산업에서 사용자 프로파일링은 특히 중요하다. 고객의 소비 습관을 이해하면 그들에게 가장 적합한 신용카드, 대출 상품, 투자 포트폴리오를 추천해 줄 수 있기 때문이다.

과거에는 고객의 소득 수준이나 직업과 같은 정적인 정보에 의존했지만, 현대에는 고객의 금융 거래 데이터(Financial Transaction Data) 자체가 가장 풍부하고 정확한 정보 소스로 주목받고 있다. 어디서, 언제, 얼마를 쓰는지를 보면 그 사람의 라이프스타일을 거의 정확하게 유추할 수 있다.

이 연구는 바로 이 금융 거래 데이터에 K-평균(K-means) 군집분석이라는 비지도 머신러닝 기법을 적용한다. K-평균은 데이터를 K개의 그룹(군집)으로 나누는 알고리즘으로, 유사한 데이터 포인트들을 같은 그룹으로 묶어준다. 이 연구는 이 기법을 활용하여, 수많은 고객의 복잡한 거래 패턴 속에서 자연스럽게 형성되는 라이프스타일 그룹을 자동으로 찾아내고, 이를 통해 금융 기관의 CRM 전략을 고도화하는 것을 목표로 한다.


해결하려는 문제

금융기관이 보유한 방대한 고객 거래 데이터 속에서, 각 고객의 숨겨진 라이프스타일과 소비 성향을 어떻게 발견하여 맞춤형 금융 상품 추천과 마케팅에 활용할 것인가의 문제를 다룬다.

은행은 고객의 나이, 직업, 대출 이력 등은 알고 있지만, 그 고객이 주말에 주로 무엇을 하는지, 온라인 쇼핑을 즐기는지, 아니면 맛집 탐방을 좋아하는지는 알기 어렵다. 이러한 고객의 라이프스타일을 이해하지 못하면, 모든 고객에게 거의 동일한 금융 상품을 추천하게 되고, 이는 낮은 전환율과 고객 만족도 저하로 이어진다.

이 연구가 해결하고자 하는 문제는 바로 이 정보의 비대칭성이다. 고객의 거래 명세서에는 그들의 모든 삶이 기록되어 있지만, 금융 기관은 이를 체계적으로 분석하여 인사이트를 얻는 데 어려움을 겪는다. 이 연구는 머신러닝을 통해 수백만 건의 거래 데이터를 분석하여, ‘온라인 쇼핑에 지출이 집중된 그룹’, ‘외식 및 여가 활동에 지출이 큰 그룹’ 등과 같이 명확한 특징을 가진 고객 세그먼트를 자동으로 생성하는 방법론을 제시한다. 이를 통해 막연한 추측이 아닌, 데이터에 기반한 정교한 개인화 마케팅의 길을 열고자 한다.


연구 모형

각 사용자의 금융 거래 데이터를 거래 유형, 시간, 금액 등의 특징으로 변환하고, 이를 K-평균 군집분석 알고리즘에 적용하여 유사한 금융 행동 패턴을 가진 사용자 그룹을 자동으로 분류하는 모델을 제시한다.

본 연구는 데이터 마이닝의 표준적인 절차를 따르는 실용적인 분석 모델을 제안한다.

  1. 데이터 수집 및 전처리: 익명화된 개인들의 금융 거래(카드 사용 내역 등) 데이터를 수집한다. 각 거래 기록에는 거래 일시, 금액, 가맹점 정보(업종 카테고리 포함) 등이 포함된다.
  2. 특징 공학(Feature Engineering): 사용자별로 거래 데이터를 집계하여 분석에 사용할 특징(Feature)을 생성한다. 예를 들어, 각 사용자에 대해 총 소비액, 카테고리별 소비액 비율(예: 쇼핑, 외식, 교통), 주중/주말 소비 비율 등을 계산하여 각 사용자를 하나의 벡터(Vector)로 표현한다.
  3. K-평균 군집분석(K-means Clustering): 생성된 사용자 벡터들을 K-평균 알고리즘에 적용한다. 알고리즘은 다차원 공간에서 각 사용자의 위치를 기반으로, 서로 가까운 사용자들을 동일한 군집으로 묶어준다. 통계적 방법(예: 엘보우 메소드)을 사용하여 최적의 군집 개수(K)를 결정한다.
  4. 프로파일링 및 해석: 생성된 각 군집이 어떤 특징(높은 소비 카테고리 등)을 보이는지 분석하여, 각 군집에 ‘온라인 쇼핑족’, ‘미식가 클럽’ 등과 같은 직관적인 프로필을 부여한다.

데이터 설명

특정 금융기관의 고객 거래 내역 데이터를 익명화하여 활용한 것으로 보이며, 구체적인 출처는 명시되지 않았다.

  • 출처: 논문에 구체적인 데이터 출처는 명시되지 않았다. 연구의 특성상, 특정 은행의 신용카드 거래 데이터나 핀테크 기업의 결제 기록 데이터를 비식별화하여 제공받았을 것으로 추정된다.
  • 수집 방법: 금융 기관의 내부 데이터베이스에서 직접 데이터를 추출(extraction)했을 가능성이 높다.
  • 온체인 여부: 해당 없음 (은행이나 핀테크 기업의 중앙화된 서버에 저장된 오프체인 데이터이다).
  • 데이터 변수 설명: 이 연구의 핵심은 개별 거래 기록을 각 사용자의 라이프스타일을 나타내는 특징 벡터로 변환하는 것이다.
    1. 원본 거래 데이터 속성 (Raw Transaction Attributes)
      • 거래 ID, 사용자 ID, 거래 일시, 거래 금액, 가맹점명, 가맹점 업종 카테고리.
    2. 사용자별 파생 특징 변수 (Derived User-level Features):
      • 소비 총량 지표: 월 평균 총 소비액, 월 평균 총 거래 횟수.
      • 소비 카테고리 지표: (카테고리 A 지출액 / 총 지출액), (카테고리 B 지출액 / 총 지출액) … 등 각 소비 카테고리별 지출 비율. (예: 쇼핑 비율, 외식 비율, 교통 비율, 문화생활 비율)
      • 소비 시간 패턴 지표: 주중 소비액 vs 주말 소비액 비율, 주간 소비액 vs 야간 소비액 비율.

데이터 분석

각 사용자를 다차원의 소비 벡터로 표현한 뒤, K-평균 알고리즘을 사용하여 벡터 공간에서 서로 가까운 사용자들을 동일한 군집으로 묶고, 각 군집의 평균 소비 벡터를 분석하여 프로필을 정의했다.

데이터 분석 과정은 기하학적인 관점에서 쉽게 이해할 수 있다. 예를 들어, 사용자의 특징을 ‘온라인 쇼핑 지출액’과 ‘오프라인 외식 지출액’이라는 2개의 축으로 단순화한다고 가정해보자. 그러면 각 사용자는 2차원 평면 위의 한 점으로 표현될 것이다. 어떤 사용자들은 (온라인 쇼핑, 외식) = (100만원, 10만원) 근처에, 다른 사용자들은 (10만원, 100만원) 근처에 모여있을 것이다.

K-평균 알고리즘은 바로 이러한 ‘점들의 구름’의 중심점을 찾아내는 역할을 한다. 알고리즘이 2개의 중심점을 찾아냈다면, 각 점(사용자)은 더 가까운 중심점에 속하게 되어 전체 사용자가 두 개의 그룹으로 나뉜다. 분석의 마지막 단계는 이 중심점의 좌표를 해석하는 것이다. 첫 번째 그룹의 중심점은 ‘온라인 쇼핑’ 축의 값이 매우 높으므로 ‘온라인 쇼핑 주도형’으로, 두 번째 그룹은 ‘오프라인 외식’ 축의 값이 높으므로 ‘오프라인 외식 주도형’으로 프로파일링할 수 있다. 실제 분석에서는 수십 개의 차원에서 이 과정이 동일하게 수행된다.


핵심 결과

군집분석을 통해 전체 고객을 ‘온라인 쇼핑 중독자’, ‘주말 외식 미식가’, ‘실용적 생활비 사용자’ 등과 같이 직관적으로 이해 가능하고 마케팅에 즉시 활용할 수 있는 여러 개의 뚜렷한 라이프스타일 그룹으로 성공적으로 분류했다.

본 연구는 금융 거래 데이터와 K-평균 군집분석의 조합이 매우 효과적임을 입증했다. 이 방법론을 통해, 단순히 거래액이 많은 고객을 ‘우수 고객’으로 분류하는 수준을 넘어, 그들의 소비 패턴에 담긴 구체적인 라이프스타일을 기반으로 한 정교한 세분화가 가능해졌다. 예를 들어, 같은 100만원을 쓰더라도, 그 돈이 주로 온라인 쇼핑몰에서 사용되었는지, 아니면 고급 레스토랑에서 사용되었는지에 따라 전혀 다른 프로필의 고객으로 분류할 수 있었다. 이러한 결과는 금융 기관이 각 세그먼트의 니즈에 정확히 부합하는 상품과 서비스를 제안할 수 있는 데이터 기반의 근거를 마련했다는 점에서 큰 의의를 가진다.


시사점

고객의 금융 거래 데이터는 단순한 회계 기록이 아니라, 그들의 삶의 방식을 담고 있는 가장 강력한 마케팅 데이터 소스이며, 이를 활용한 초개인화 서비스는 금융 산업의 핵심 경쟁력이 된다.

이 연구는 금융 데이터를 바라보는 관점을 근본적으로 바꾸어야 함을 시사한다. 고객의 거래 내역은 이제 리스크 관리나 회계 처리를 위한 데이터를 넘어, 새로운 가치를 창출하는 핵심적인 ‘자산’이다. 이 데이터를 분석함으로써 은행은 더 이상 단순한 자금 중개 기관이 아니라, 고객의 라이프스타일을 이해하고 그에 맞는 최적의 솔루션을 제공하는 ‘금융 컨설턴트’로 거듭날 수 있다. 예를 들어, 해외 출장 관련 지출이 잦은 고객 그룹에게는 항공 마일리지 혜택이 큰 카드를, 주말 레저 활동 지출이 많은 그룹에게는 주유 할인 혜택이 있는 카드를 추천하는 식의 초개인화 마케팅이 가능해진다. 이는 고객 만족도와 충성도를 높이는 동시에, 은행의 수익성을 제고하는 강력한 선순환을 만들 수 있다.


인사이트

돈의 흐름은 곧 삶의 흐름이다: 고객의 지갑이 그들의 페르소나를 말해준다.

AI 빅데이터 마케터의 관점에서 이 연구는 가장 확실하고 진실된 데이터 소스가 무엇인지를 보여준다. 그것은 바로 ‘금융 거래 데이터’이다. 이 원칙은 WEB3 세계에 그대로 적용될 수 있으며, 여기서 ‘금융 거래 데이터’는 바로 ‘온체인 트랜잭션 데이터’이다. 익명의 지갑 주소 뒤에 숨은 사용자의 페르소나는, 그 지갑의 USDC가 어디로 흘러가는지를 추적하면 명확하게 드러난다.

  • 고객 페르소나 예시 (WEB2 금융 프로필을 WEB3에 적용):
    1. ‘디파이 파워 유저 (The DeFi Power User)’: WEB2의 ‘금융 상품 헤비 유저’에 해당한다. 이들의 USDC는 주로 랜딩, 유동성 공급, 이자 농사 등 다양한 디파이 프로토콜 사이를 오간다. 이들은 WEB3 생태계의 ‘전문 금융 투자자’이다.
    2. ‘NFT 컬렉터 (The NFT Collector)’: WEB2의 ‘쇼핑/엔터테인먼트 헤비 유저’와 유사하다. 이들의 USDC는 OpenSea, Blur와 같은 NFT 마켓플레이스에서 디지털 아트를 구매하거나, 특정 PFP 프로젝트의 커뮤니티에 참여하는 데 주로 사용된다.
    3. ‘게임파이 플레이어 (The GameFi Player)’: WEB2의 ‘게임 아이템 결제 유저’에 해당한다. 이들의 USDC는 P2E(Play-to-Earn) 게임 내의 아이템, 캐릭터, 가상 부동산 등을 구매하는 데 집중적으로 사용된다.
  • 실질적인 마케팅 액션 제안:
    1. 페르소나 기반 상품 추천: ‘디파이 파워 유저’에게는 복잡한 투자 전략을 자동화하는 새로운 디파이 볼트(Vault) 상품을, ‘NFT 컬렉터’에게는 유명 아티스트의 신규 드랍 정보를, ‘게임파이 플레이어’에게는 인기 게임의 희귀 아이템 정보를 우선적으로 제공한다.
    2. 맞춤형 수수료 및 보상 정책: ‘디파이 파워 유저’에게는 거래량에 따른 수수료 할인 혜택을, ‘NFT 컬렉터’에게는 특정 컬렉션 보유 시 추가적인 혜택(에어드랍 등)을, ‘게임파이 플레이어’에게는 게임 내 활동에 대한 보상을 강화한다.