Behavior Pattern Clustering in Blockchain Networks 리뷰

블록체인 사용자의 거래 이력을 행동 패턴 ‘시퀀스’로 보고, 새로운 시퀀스 유사도 측정 기반의 군집분석 알고리즘(BPC)을 통해 유사한 행동을 보이는 사용자들을 자동으로 그룹화하는 선구적인 방법론을 제안한다.


논문 요약

  • 논문 제목: Behavior Pattern Clustering in Blockchain Networks
  • 저자: Butian Huang 외 6인
  • 게재 학술지: Multimedia Tools and Applications (Springer)
  • 발행 연도: 2017
  • 핵심 요약: 블록체인 네트워크상의 익명 사용자들을 행동 패턴에 기반하여 자동으로 그룹화하기 위한 새로운 비지도학습 방법론을 제시했다. 이 연구는 사용자의 거래 이력을 하나의 ‘행동 시퀀스’로 정의하고, 이러한 시퀀스 간의 유사도를 측정하여 군집화하는 BPC(Behavior Pattern Clustering) 알고리즘을 제안했다. 실험 결과, 제안된 알고리즘은 기존의 일반적인 군집분석 기법에 비해, 블록체인 데이터의 순차적 특성을 더 잘 반영하여 의미론적으로 더 일관성 있는 사용자 그룹을 형성함을 보였다.

연구 배경

블록체인 위의 모든 거래는 투명하게 기록되지만, 그 주체는 익명의 가면 뒤에 숨어있다. 이 연구는 DeFi나 NFT와 같은 개념이 대중화되기 훨씬 이전인 2017년, 머신러닝이라는 탐정 도구를 사용해 이 익명의 참여자들이 남긴 행동 패턴을 분석하고, 그들의 숨겨진 그룹을 찾아내려는 초기이자 중요한 시도를 담고 있다.

2017년 당시, 비트코인과 이더리움으로 대표되는 블록체인 기술은 주로 암호화폐라는 자산적 측면에서 주목받았다. 하지만 데이터 과학자들은 블록체인이 가진 또 다른 가능성, 즉 **모든 거래 기록이 영구적으로 저장되는 거대한 ‘행동 데이터베이스’**라는 점에 주목하기 시작했다.

하지만 이 데이터를 활용하는 데에는 큰 어려움이 있었다. 바로 익명성이다. 우리는 0x...로 시작하는 주소들이 어떻게 상호작용하는지는 볼 수 있지만, 그 주소들이 어떤 유형의 사용자인지(개인, 거래소, 사기꾼 등) 알 수 없었다. 따라서 대부분의 분석은 전체 네트워크의 총 거래량이나 평균 수수료와 같은 거시적인 지표에 머물렀다.

이러한 상황에서, 개별 사용자들의 특성을 파악하기 위한 자연스러운 접근법은 비지도학습(Unsupervised Learning), 그 중에서도 **군집분석(Clustering)**이다. 군집분석은 미리 정해진 정답(라벨) 없이, 데이터의 내재된 구조를 기반으로 유사한 데이터들을 하나의 그룹으로 묶어주는 기법이다. 이를 통해 “어떤 유형의 사용자들이 존재하는지”를 데이터로부터 직접 발견할 수 있다.

그러나 블록체인 거래 데이터는 단순한 숫자들의 집합이 아닌, 시간의 흐름에 따라 발생하는 **시퀀스 데이터(Sequence Data)**라는 특징이 있다. 전통적인 군집분석 알고리즘(예: K-평균)은 이러한 순차적인 데이터를 직접 다루기 어렵다. 본 연구는 바로 이 문제에 도전하여, 블록체인 거래 ‘시퀀스’를 직접 비교하고 군집화할 수 있는 새로운 알고리즘을 제안하는 선구적인 연구이다.


해결하려는 문제

기존의 군집분석 알고리즘이 처리하기 어려운 블록체인의 순차적인 거래 데이터(Transaction Sequence)를 효과적으로 분석하여, 행동 패턴이 유사한 사용자들을 자동으로 그룹화하는 새로운 비지도학습 방법론을 개발한다.

전통적인 군집분석 알고리즘인 K-평균은 각 데이터 포인트를 다차원 공간의 한 ‘점’으로 보고, 점들 사이의 ‘거리’를 기반으로 그룹을 나눈다. 이를 위해서는 모든 데이터가 동일한 차원의 벡터로 표현되어야 한다.

하지만 블록체인 사용자의 거래 이력은 그 길이가 제각각이며, 이벤트의 순서가 매우 중요하다.

  • 사용자 A의 거래 이력: [거래1, 거래2, 거래3]
  • 사용자 B의 거래 이력: [거래X, 거래Y, 거래Z, 거래W, 거래V]

이 두 사용자의 행동이 얼마나 유사한지를 어떻게 정량적으로 측정할 수 있을까? 단순히 거래 횟수나 총액을 비교하는 것은 순서와 패턴에 담긴 중요한 정보를 잃어버리게 된다.

이 연구가 해결하고자 하는 핵심 문제는 바로 이것이다. 길이가 다른 행동 시퀀스 간의 유사도를 어떻게 효과적으로 측정하고, 이를 기반으로 어떻게 사용자들을 의미 있는 그룹으로 군집화할 것인가? 이 문제를 해결하기 위해, 연구진은 블록체인 거래 시퀀스의 특성을 반영한 새로운 군집분석 알고리즘을 개발하는 것을 목표로 삼았다.


연구 모형

사용자의 거래 이력을 ‘행동 시퀀스’로 정의하고, 두 시퀀스 간의 유사도를 측정하는 새로운 방식을 결합한 BPC(Behavior Pattern Clustering)라는 군집분석 알고리즘을 제안하여, 이를 통해 사용자들을 행동 기반으로 그룹화한다.

본 연구는 블록체인 네트워크의 사용자들을 군집화하기 위해, **BPC(Behavior Pattern Clustering)**라는 새로운 알고리즘을 제안했다. 이 알고리즘의 핵심적인 아이디어는 다음과 같다.

  1. 행동 시퀀스 정의 (Behavior Sequence Definition):
    • 네트워크의 각 사용자(노드)를, 그가 참여한 트랜잭션들의 시간순 시퀀스로 표현한다.
    • 각 트랜잭션(이벤트)은 ‘어떤 주소들로부터 자금을 받아서(Input Set), 어떤 주소들로 자금을 보냈는가(Output Set)’로 정의된다.
    • 즉, 각 사용자는 사용자 A = <이벤트1, 이벤트2, 이벤트3, ...> 와 같은 시퀀스 데이터로 변환된다.
  2. 시퀀스 유사도 측정 (Sequence Similarity Measurement):
    • 이 연구의 가장 핵심적인 기술적 제안이다. 두 사용자의 행동 시퀀스가 얼마나 유사한지를 측정하기 위한 새로운 유사도 척도를 개발했다.
    • 이 유사도는 두 시퀀스에서 **공통적으로 나타나는 하위 시퀀스(Common Subsequence)**의 길이와 빈도를 기반으로 계산된다. 이는 두 사용자가 얼마나 비슷한 거래 ‘습관’이나 ‘패턴’을 공유하는지를 정량화하는 방식이다.
  3. BPC 군집분석 알고리즘 (BPC Algorithm):
    • K-평균과 달리, 사전에 군집의 개수를 정할 필요가 없는 밀도 기반(Density-based) 군집 방식을 사용한다.
    • 먼저, 모든 사용자 쌍(Pair)에 대해 2단계에서 정의한 시퀀스 유사도를 계산한다.
    • 특정 사용자 A에 대해, 유사도 점수가 정해진 임계값(Threshold) 이상인 다른 사용자들을 ‘이웃’으로 간주한다.
    • 충분히 많은 수의 ‘이웃’을 가진 사용자를 ‘핵심 객체(Core Object)’로 정의하고, 이 핵심 객체들을 서로 연결하여 최종적인 군집(Cluster)을 형성한다.

데이터 설명

초기 비트코인 네트워크로 추정되는 블록체인의 실제 거래 데이터를 활용했으며, 특정 기간 동안의 주소 간 거래 기록 전체를 포함하는 온체인(On-chain) 데이터이다.

  • 출처: 논문에 구체적인 블록체인 이름(비트코인, 이더리움 등)은 명시되지 않았으나, 논문의 발표 시점(2017년)과 데이터 구조를 고려할 때, 초기 비트코인 네트워크의 공개 거래 데이터를 사용했을 가능성이 높다. 이는 블록체인 원장에 기록된 온체인(On-chain) 데이터이다.
  • 수집 방법: 연구진은 비트코인 코어(Bitcoin Core)와 같은 풀노드 클라이언트를 통해 블록체인 데이터를 직접 다운로드 및 동기화하거나, 공개된 블록체인 데이터 파일을 활용하여 트랜잭션 정보를 추출했을 것으로 추정된다.
  • 데이터 변수 설명: 본 연구의 데이터는 주소(노드)와 거래(엣지)로 구성된 거대한 그래프이다.
    • 노드 (Nodes): Address (사용자의 고유 지갑 주소).
    • 엣지 (Edges): Transaction (A 주소에서 B 주소로 자금이 이동한 거래).
    • 분석용 데이터 구조:
      • Address를 기준으로, 해당 주소가 관여된 모든 트랜잭션을 시간순으로 정렬한 행동 시퀀스(Behavior Sequence).
      • 각 트랜잭션 이벤트는 (Input Address Set, Output Address Set) 형태로 구성된다. 이는 한 트랜잭션이 여러 개의 입력과 여러 개의 출력을 가질 수 있는 비트코인의 UTXO 모델 구조를 반영한 것이다.

데이터 분석

제안된 BPC 알고리즘을 실제 블록체인 데이터에 적용한 결과, 유사한 거래 패턴(예: 동일한 주소와 반복적으로 거래, 여러 주소로 자금 분산)을 가진 노드들을 성공적으로 동일한 군집으로 묶어냈다.

연구진은 제안한 BPC 알고리즘을 실제 블록체인 거래 데이터에 적용하여, 자동으로 사용자 그룹을 형성하는 실험을 수행했다.

알고리즘은 먼저 모든 사용자들 간의 행동 시퀀스 유사도를 계산했다. 그 다음, 유사도가 높은 사용자들을 서로 연결하고, 빽빽하게 연결된 그룹들을 하나의 ‘군집’으로 식별했다.

분석 결과, BPC 알고리즘은 의미 있는 사용자 그룹들을 성공적으로 찾아냈다. 예를 들어,

  • 허브 앤 스포크(Hub-and-Spoke) 패턴: 하나의 중앙 주소가 수많은 다른 주소들과 거래하는 패턴을 보이는 그룹 (거래소의 핫 월렛이나 믹싱 서비스로 추정).
  • 체인(Chain) 패턴: A→B→C→D 와 같이 자금이 순차적으로 이동하는 패턴을 보이는 그룹 (자금 세탁이나 다단계 사기와 관련될 수 있음).
  • 소규모 그룹 거래 패턴: 소수의 정해진 주소들끼리만 폐쇄적으로 거래를 반복하는 그룹 (특정 서비스 사용자 또는 소규모 집단).

이러한 결과는 사용자의 거래 ‘시퀀스’ 속에 그들의 역할과 성향을 유추할 수 있는 중요한 정보가 담겨 있음을 보여준다.


핵심 결과

제안된 BPC 알고리즘은 기존의 일반적인 군집분석 기법들에 비해, 블록체인 거래 데이터의 순차적 특성을 더 잘 반영하여, 의미론적으로 더 일관성 있고 정확한 사용자 행동 패턴 군집을 형성할 수 있음을 확인했다.

이 연구의 핵심 결과는 블록체인 거래 데이터와 같은 시퀀스 데이터에는, 그 특성에 맞게 설계된 맞춤형 군집분석 알고리즘이 필요하며, 실제로 더 나은 성능을 보인다는 것을 입증한 것이다.

단순히 거래 횟수나 총액과 같은 집계된 특징을 사용하는 K-평균 군집분석과 비교했을 때, BPC 알고리즘은 거래의 ‘순서’와 ‘패턴’을 고려하기 때문에 훨씬 더 정교하고 의미 있는 군집을 형성했다. 예를 들어, 총 거래액이 같더라도, 한 번에 큰 금액을 거래한 사용자와 여러 번에 걸쳐 작은 금액을 거래한 사용자를 서로 다른 군집으로 명확하게 구분해낼 수 있었다.

이는 블록체인 사용자를 이해하기 위해서는, 단순히 ‘무엇을 했는가’를 넘어 **’어떤 순서로, 어떻게 했는가’**를 분석하는 것이 매우 중요하다는 것을 시사하는 선구적인 발견이다.


시사점

블록체인 거래 데이터는 고객의 행동 성향을 파악할 수 있는 새로운 데이터 자원이며, 행동 패턴 기반의 군집분석은 익명의 사용자들을 이해하고 이들에게 맞는 서비스를 제공하기 위한 CRM의 효과적인 첫걸음이 될 수 있다.

2017년에 발표된 이 연구는 Web3 CRM의 가능성을 일찍이 제시한 중요한 시사점을 담고 있다.

첫째, 온체인 데이터는 그 자체로 강력한 CRM 데이터이다. 기업은 사용자의 개인정보(이름, 이메일 등) 없이도, 공개된 블록체인 위의 행동 데이터만으로 고객을 유형별로 분류하고, 각 유형의 니즈를 추론할 수 있다. 이는 프라이버시를 존중하면서도 개인화 서비스를 제공할 수 있는 새로운 마케팅의 가능성을 연다.

둘째, 비지도학습(Unsupervised Learning)의 중요성이다. 대부분의 블록체인 사용자는 그 유형이 알려져 있지 않다. 이 연구에서 제안한 군집분석과 같은 비지도학습 기법은, 이처럼 라벨이 없는 미지의 데이터 속에서 의미 있는 구조와 그룹을 ‘스스로 발견’해내는 유일하고도 가장 강력한 접근법이다.


인사이트

당신의 거래 내역이, 당신의 부족(Tribe)을 결정한다.

이 논문은, 모든 개인이 자신의 고유한 ‘행동 리듬’을 가지고 있으며, 비슷한 리듬을 가진 사람들이 모여 하나의 ‘부족(Tribe)’을 형성한다는 것을 보여준다. 온체인 세계에서 지갑 주소는 단순한 계좌번호가 아니라, 그 사람의 행동 리듬과 정체성이 기록되는 고유한 악보와 같다. 우리의 임무는 그 악보를 읽고, 비슷한 리듬을 가진 사람들을 찾아내어, 그들의 박자에 맞는 서비스를 제공하는 것이다.

  • 페르소나 예시: “DeFi 전략가, 프로토콜 포터(Protocol Porter)”
    • 특징: 포터는 여러 DeFi 프로토콜을 넘나들며 최적의 수익률을 찾는다. 그의 행동 패턴은 1. CEX에서 USDC 입금 → 2. Uniswap에서 WETH로 스왑 → 3. Aave에 WETH 예치 및 USDC 대출 → 4. 대출한 USDC를 다른 Yield Farming 프로토콜에 예치와 같은, 매우 전형적이고 반복적인 ‘DeFi 레시피’ 시퀀스를 따른다. 그는 혼자가 아니다. 수많은 다른 사용자들이 그와 매우 유사한 행동 시퀀스를 보이며, 이들은 **’DeFi 알파 파머’**라는 하나의 강력한 부족(Tribe)을 형성한다.
    • 데이터 기반 행동: 여러 DeFi 프로토콜을 특정 순서에 따라 체계적으로 상호작용하는 반복적인 트랜잭션 시퀀스.
  • 실질적인 마케팅 액션 제안:
    1. 행동 시퀀스 기반 세그먼트 식별: 이 논문의 BPC 알고리즘이나 더 발전된 시퀀스 클러스터링 기법을 사용하여, ‘프로토콜 포터’와 같이 유사한 ‘DeFi 레시피’ 시퀀스를 따르는 사용자 그룹을 하나의 정교한 세그먼트로 묶어낸다.
    2. ‘다음 행동’ 예측 및 선제적 제안: 이 세그먼트에 속한 사용자들이 Uniswap에서 WETH로 스왑하는 행동(레시피 2단계)을 감지했을 때, 그들의 가장 가능성 높은 다음 행동인 “Aave에 WETH를 예치하고 최대 5%의 이자를 받으세요!”(레시피 3단계)와 같은 맞춤형 메시지를 dApp 인터페이스나 연동된 지갑에 노출시켜, 그들의 다음 여정을 자연스럽게 안내한다.
    3. ‘원클릭 레시피’ 솔루션 제공: 이들이 반복적으로 실행하는 복잡한 ‘DeFi 레시피'(예: 4단계에 걸친 알파 파밍 전략)를, 여러 트랜잭션을 하나의 스마트 컨트랙트로 묶어 **”원클릭 알파 파밍 시작”**과 같은 기능을 제공한다. 이는 사용자 경험을 획기적으로 개선하고, 해당 솔루션(dApp)에 대한 강력한 락인(Lock-in) 효과를 창출한다.