Leveraging Clustering Algorithms for Predictive Analytics in Blockchain Networks 리뷰

블록체인 지갑 주소들을 거래 패턴에 따라 군집분석으로 그룹화하고, 각 그룹의 미래 트랜잭션 활동을 시계열 모델로 예측하는 2단계 분석 프레임워크를 제시하여, 온체인 데이터 분석의 활용 범위를 확장한다.

논문 요약

  • 논문 제목: Leveraging Clustering Algorithms for Predictive Analytics in Blockchain Networks
  • 저자: Rahul K. Patel 외
  • 게재 학술지: Taylor & Francis
  • 발행 연도: 2023
  • 핵심 요약: 블록체인상의 주소들을 거래 패턴에 따라 K-평균 등 군집분석으로 그룹화한 후(예: ‘고빈도 거래자’, ‘스마트 컨트랙트 사용자’), 각 군집의 미래 활동을 시계열 모델로 예측하는 2단계 분석 프레임워크를 제시했다.

연구 배경

블록체인 데이터는 투명하게 공개되어 누구나 접근할 수 있지만, 그 자체로는 단순한 거래 기록의 나열에 불과하다. 이 방대하고 혼란스러운 데이터 속에서 의미 있는 신호를 찾아내고, 더 나아가 미래를 예측하는 것은 Web3 시대의 핵심 과제 중 하나다. 특히, 수많은 익명의 지갑 주소들이 어떤 행동 패턴을 보이며, 이들의 집단적인 행동이 네트워크 전체에 어떤 영향을 미칠지 예측하는 것은 프로토콜 개발자, 투자자, 마케터 모두에게 매우 중요한 정보다.

이러한 배경에서, 본 연구는 **온체인 데이터 분석(On-chain Data Analysis)**을 한 단계 발전시키고자 한다. 과거의 데이터를 설명하는 ‘기술적 분석(Descriptive Analytics)’을 넘어, 미래를 예측하는 **’예측 분석(Predictive Analytics)’**으로 나아가기 위한 방법론을 제안한다. 이를 위해, 먼저 **군집분석(Clustering)**을 통해 유사한 행동을 보이는 지갑들을 그룹화하고, 그 다음 각 그룹의 과거 활동 패턴을 시계열 예측(Time-Series Forecasting) 모델로 학습시켜 미래를 전망하는 접근법을 채택했다.


해결하려는 문제

개별 지갑 주소의 무질서한 거래 기록 속에서 의미 있는 사용자 그룹을 식별하고, 나아가 각 그룹의 집단적인 미래 행동을 예측함으로써 블록체인 네트워크 분석의 깊이를 더하고자 했다.

블록체인 네트워크를 분석하는 것은 마치 모든 차량의 움직임이 기록되는 도시의 교통 데이터를 분석하는 것과 같다. 개별 차량(개별 지갑)의 움직임 하나하나는 큰 의미를 갖기 어렵다. 이 연구는 두 가지 핵심 문제를 순차적으로 해결하고자 한다.

  1. 누가 이 도시를 이용하는가? (세분화 문제): 매일 출퇴근하는 ‘직장인’ 그룹, 주말에만 나타나는 ‘쇼핑객’ 그룹, 도시 곳곳을 누비는 ‘배달 트럭’ 그룹처럼, 유사한 이동 패턴을 가진 차량들을 그룹화할 수 있는가?
  2. 다음 주 교통량은 어떨 것인가? (예측 문제): ‘직장인’ 그룹의 다음 주 월요일 출근 시간대 교통량은 얼마나 될 것인가? ‘쇼핑객’ 그룹의 다음 달 주말 교통량은 증가할 것인가, 감소할 것인가?

이처럼, 먼저 사용자 그룹을 식별하고, 그 다음 각 그룹의 미래 행동을 예측함으로써 네트워크에 대한 이해와 예측력을 동시에 높이는 것이 이 연구의 핵심 목표다.


연구 모형

1단계에서 온체인 거래 데이터를 기반으로 K-평균 군집분석을 수행하여 지갑 주소들을 행동 기반으로 세분화하고, 2단계에서 각 세그먼트의 과거 활동 데이터를 시계열 예측 모델에 학습시켜 미래 활동량을 예측하는 2단계 프레임워크를 적용했다.

이 연구가 제안하는 모델은 **’군집화 후 예측(Clustering-then-Forecasting)’**이라는 명확한 2단계 프레임워크를 따른다.

  1. 1단계: 행동 기반 군집분석 (Behavioral Clustering):
    • 각 블록체인 지갑 주소의 과거 트랜잭션 데이터를 분석하여, 해당 지갑의 행동 특성을 나타내는 여러 피처(Feature)를 추출한다. (예: 총 트랜잭션 수, 평균 거래액, 상호작용한 컨트랙트 수 등)
    • 이 피처들을 기반으로 K-평균 군집분석과 같은 알고리즘을 사용하여, 유사한 행동 패턴을 가진 지갑들을 하나의 세그먼트로 묶는다. (예: ‘고래’, ‘DEX 트레이더’, ‘NFT 콜렉터’)
  2. 2단계: 시계열 활동 예측 (Time-Series Activity Forecasting):
    • 1단계에서 생성된 각 세그먼트별로, 과거의 집단적인 활동 기록을 시계열 데이터로 구성한다. (예: ‘DEX 트레이더’ 세그먼트의 일별 총 거래량)
    • ARIMA, Prophet과 같은 시계열 예측 모델을 사용하여 이 시계열 데이터의 패턴(추세, 계절성 등)을 학습하고, 이를 바탕으로 미래의 활동량(예: 다음 주 ‘DEX 트레이더’ 세그먼트의 총 거래량)을 예측한다.

데이터 설명

이더리움과 같은 주요 퍼블릭 블록체인의 공개 거래 데이터를 활용했다.

  • 출처: 논문에 구체적인 출처는 명시되지 않았으나, 일반적으로 구글 빅쿼리(Google BigQuery)에 저장된 공개 블록체인 데이터셋이나 이더스캔(Etherscan)과 같은 블록체인 탐색기의 API를 통해 데이터를 수집했을 것으로 추정된다.
  • 온체인 여부: 분석에 사용된 데이터는 모두 블록체인 원장에 기록된 온체인(On-chain) 데이터이다.
  • 수집 방법: 특정 기간(예: 수년) 동안의 블록체인 트랜잭션 데이터를 블록체인 노드나 공개 API를 통해 일괄적으로 추출한 후, 각 지갑 주소(address)를 기준으로 관련 피처들을 집계하여 분석용 데이터셋을 생성했다.
  • 데이터 변수 설명: 이 연구는 2단계 분석을 위해 다음과 같이 구조화된 데이터를 활용한다.
    • 1단계 군집분석용 피처 (Clustering Features): 각 지갑 주소의 종합적인 행동 특성을 나타내는 변수.
      • 활동성 지표: 총 트랜잭션 횟수, 총 활성 기간, 평균 트랜잭션 발생 주기.
      • 경제적 지표: 총 송금/수신액, 평균 거래 가치, 현재 지갑 잔고.
      • 네트워크 상호작용 지표: 상호작용한 고유 주소(EOA/CA)의 수, 직접 배포한 스마트 컨트랙트 수.
    • 2단계 시계열 예측용 데이터 (Time-Series Data):
      • 타임스탬프 (Timestamp): 분석의 시간 단위 (예: 일, 주).
      • 집계된 활동 지표 (Aggregate Activity Metric): 특정 세그먼트에 속한 모든 지갑의 해당 기간 동안의 총 트랜잭션 수 또는 총 거래량. 이 변수가 시계열 예측의 대상(Target)이 된다.

데이터 분석

각 지갑 주소별로 거래 패턴을 나타내는 피처들을 추출하여 K-평균 군집분석으로 그룹화했다. 이후, 각 그룹의 일별 총 트랜잭션 양과 같은 시계열 데이터를 구축하고, 이를 ARIMA와 같은 시계열 예측 모델에 적용하여 미래의 트랜잭션 양을 예측했다.

분석 과정은 연구 모형에 따라 체계적으로 진행되었다. 먼저, 각 지갑 주소의 전체 활동 이력을 요약하는 수치형 피처들을 추출하는 피처 엔지니어링(Feature Engineering) 작업을 수행했다. 이렇게 생성된 피처 데이터셋을 K-평균 군집분석 알고리즘에 적용하여 각 지갑에 세그먼트 ID를 할당했다.

그 다음, 원본 트랜잭션 데이터로 돌아가, 동일한 세그먼트 ID를 가진 지갑들의 트랜잭션들을 날짜별로 합산했다. 예를 들어, ‘세그먼트 1’의 1월 1일 총 거래량, 1월 2일 총 거래량 등을 계산하여 시계열 데이터셋을 구축했다. 마지막으로, 이 시계열 데이터를 ARIMA와 같은 전통적인 통계 기반 예측 모델에 입력하여, 미래 시점의 거래량을 예측하고 모델의 정확도를 평가했다.


핵심 결과

블록체인 주소들을 거래 행동 패턴에 따라 의미 있는 그룹으로 성공적으로 분류할 수 있었으며, 각 그룹의 미래 활동량을 예측하는 모델 또한 통계적으로 유의미한 성능을 보였다.

이 연구는 제안된 2단계 프레임워크의 실효성을 성공적으로 입증했다. K-평균 군집분석을 통해, 익명의 지갑 주소들을 ‘고빈도 소액 거래자’, ‘저빈도 고래 거래자’, ‘스마트 컨트랙트 개발자’ 등과 같이 뚜렷한 행동 특성을 가진 그룹으로 분류할 수 있었다.

더 중요한 발견은, 이렇게 분류된 각 그룹의 집단적 행동이 완전히 무작위가 아니라, 시계열 예측 모델이 학습할 수 있는 일정한 패턴(예: 특정 요일이나 특정 시장 상황에서 활동량이 증가하는 경향)을 가지고 있다는 점이다. 이는 온체인 데이터의 복잡성 속에서도 미래를 예측할 수 있는 신호가 존재함을 의미한다.


시사점

온체인 데이터 분석은 단순히 과거를 설명하는 것을 넘어, 사용자 그룹을 식별하고 이들의 미래 행동을 예측하는 ‘예지적 분석’으로 발전할 수 있다.

이 연구는 온체인 데이터 분석의 패러다임을 한 단계 끌어올린다. 이제 온체인 분석은 “과거에 무슨 일이 있었는가?”를 보여주는 대시보드를 넘어, “미래에 무슨 일이 일어날 것인가?”를 예측하는 예측 모델링의 영역으로 확장될 수 있다. DeFi 프로토콜은 이 방법론을 활용하여 미래의 트랜잭션 수수료 수익을 예측할 수 있고, 투자자는 특정 사용자 그룹(예: 고래)의 활동량 변화를 예측하여 시장의 흐름을 한발 앞서 읽을 수 있다. 이는 온체인 분석이 사후적인 ‘리포팅’ 도구에서, 선제적인 ‘의사결정’ 도구로 진화할 수 있음을 시사한다.


인사이트

과거의 거래 기록에서, 미래의 시장 흐름을 읽어내라.

AI/빅데이터 마케터의 관점에서 이 논문은, 온체인 데이터를 활용한 예측적 CRM의 구체적인 청사진을 제공한다. 기술적 분석 결과를 실무에 즉시 적용할 수 있는 페르소나와 전략으로 변환하면 다음과 같다.

  • 온체인 페르소나 (세그먼트): ‘DeFi 농부(Yield Farmer)’ 그룹
    • 정의: 이 그룹의 지갑들은 주로 Uniswap, Aave, Compound와 같은 여러 DeFi 프로토콜 간에 자금을 이동시키며, 새로운 유동성 풀이 생기면 초기에 진입하는 패턴을 보인다. 이들의 집단적인 자금 이동은 전체 DeFi 시장의 유동성과 TVL(총 예치 자산)에 큰 영향을 미친다.
  • 실질적인 마케팅 액션 (예측 기반 전략)
    1. 예측 기반 리소스 계획: 시계열 예측 모델이 다음 주 ‘DeFi 농부’ 그룹의 특정 블록체인 네트워크(예: Arbitrum)에서의 활동량이 50% 급증할 것으로 예측한다면, 해당 네트워크를 지원하는 브릿지(Bridge) 프로토콜은 서버 용량을 선제적으로 증설하여 트랜잭션 지연을 방지하고, 이들을 대상으로 한 마케팅 예산을 미리 증액할 수 있다.
    2. 선제적 경쟁 대응: 모델이 경쟁 프로토콜 A에 대한 ‘DeFi 농부’ 그룹의 활동량이 이례적으로 증가하기 시작하는 것을 감지하면, 우리 프로토콜 B는 이탈을 막기 위해 해당 그룹만을 대상으로 “지금 자산을 예치하면 한 달간 APY 1% 추가 지급!”과 같은 타겟 리텐션 캠페인을 즉시 실행할 수 있다.
    3. 시장 선행 지표로 활용: 전체 시장이 하락세일 때, ‘DeFi 농부’ 그룹의 스테이블코인 보유량이 급증할 것으로 예측된다면, 이는 시장 참여자들이 관망세로 돌아섰음을 의미하는 중요한 선행 지표가 될 수 있다. 이를 투자 전략이나 프로토콜의 위험 관리 정책에 반영할 수 있다.