Defining user spectra to classify Ethereum users based on their behavior 리뷰

이더리움 사용자의 거래 이력을 다변량 시계열 ‘행동 스펙트럼’으로 표현하고, 이를 기반으로 한 새로운 유사도 측정 방식을 통해 사용자를 거래소, DEX 등 특정 유형으로 자동 분류하는 독창적인 방법론을 제시한다.


논문 요약

  • 논문 제목: Defining user spectra to classify Ethereum users based on their behavior
  • 저자: Gianluca Bonifazi, Enrico Corradini, Domenico Ursino, Luca Virgili
  • 게재 학술지: Journal of Big Data (SpringerOpen)
  • 발행 연도: 2022
  • 핵심 요약: 이더리움 블록체인 사용자를 행동 기반으로 자동 분류하기 위한 새로운 프레임워크를 제안했다. 이 연구는 사용자의 거래 이력을 시간과 상호작용 카테고리에 따른 다변량 시계열인 ‘행동 스펙트럼(Behavior Spectrum)’으로 표현하고, 이를 비교하기 위한 변형된 거리 측정 방식(Eros Distance)을 적용했다. 실험 결과, 제안된 방법론은 기존의 수동 라벨링 방식의 한계를 극복하고, 알려지지 않은 사용자까지도 높은 정확도(95% 이상)로 특정 유형으로 분류할 수 있음을 증명했다.

연구 배경

블록체인 위 모든 거래는 투명하게 공개되지만, 정작 그 거래를 일으키는 지갑 주소의 정체는 익명성에 가려져 있다. 이 연구는 익명의 지갑 주소들이 남긴 행동의 ‘궤적’을 분석하여, 그들의 숨겨진 페르소나를 밝혀내는 기술적 탐정 기법을 제시한다.

이더리움과 같은 퍼블릭 블록체인은 모든 거래 기록이 원장에 투명하게 공개된다는 특징을 가진다. 이는 데이터 분석가에게 전례 없는 기회의 장을 열어주었지만, 동시에 한 가지 근본적인 도전에 직면하게 했다. 바로 **’익명성’**이다. 우리는 0xAb...와 같은 수많은 지갑 주소가 누구와, 언제, 얼마를 거래했는지 알 수 있지만, 그 주소의 소유자가 누구인지, 어떤 성향을 가진 사용자인지는 알 수 없다.

기존에는 이러한 사용자 분류를 위해 수동 라벨링(Manual Labeling) 방식에 크게 의존해왔다. Etherscan과 같은 블록체인 탐색기나 Nansen, Arkham과 같은 온체인 분석 플랫폼은, 잘 알려진 거래소(예: Binance, Upbit), DeFi 프로토콜(예: Uniswap, Aave), 혹은 유명인(“Vitalik Buterin”)의 지갑 주소에 수동으로 태그를 붙여왔다. 이 방식은 정확도가 높지만, 다음과 같은 명백한 한계가 있다.

  • 확장성 부족: 매일 생성되는 수백만 개의 새로운 지갑 주소를 모두 수동으로 라벨링하는 것은 불가능하다.
  • 비용 및 시간: 전문가가 직접 분석하고 라벨링해야 하므로 많은 비용과 시간이 소요된다.
  • 편향성: 잘 알려진 ‘고래’나 프로토콜에만 분석이 집중되고, 대다수를 차지하는 일반 사용자, 즉 ‘롱테일(Long Tail)’에 대한 이해는 부족해진다.

이러한 한계를 극복하기 위해, 본 연구는 머신러닝을 활용한 자동화된 사용자 분류 방법론을 제안한다. 특히, 사용자의 행동을 시간에 따라 변화하는 다변량 시계열(Multivariate Time Series) 데이터로 간주하고, 이를 통해 사용자의 유형을 식별하는 새로운 접근법을 탐구한다.


해결하려는 문제

수동적인 라벨링에 의존하는 기존 이더리움 사용자 분석의 한계를 극복하고, 사용자의 전체 거래 행동 패턴을 정량적인 ‘스펙트럼’으로 표현하여, 알려지지 않은 주소까지도 특정 유형으로 자동 분류하는 확장 가능한 방법론을 개발한다.

기존의 온체인 분석은 “A 지갑이 B 지갑에게 10 이더를 보냈다”와 같은 개별 트랜잭션 분석에 집중하거나, 특정 지갑의 총 거래량이나 거래 횟수와 같은 단순 집계 지표에 의존하는 경향이 있었다. 하지만 이러한 분석은 사용자의 복합적인 행동 패턴을 제대로 포착하지 못한다.

이 연구가 해결하고자 하는 핵심 문제는, 사용자의 **시간에 따른 행동의 전체적인 ‘리듬’과 ‘궤적’**을 어떻게 정량적으로 표현하고 비교할 것인가이다. 연구진은 다음과 같은 구체적인 질문에 답하고자 한다.

  • 사용자의 복잡한 거래 이력을 어떻게 유의미한 데이터 구조로 표현할 수 있는가?
  • 서로 다른 두 사용자의 행동 패턴이 얼마나 유사한지를 어떻게 객관적으로 측정할 수 있는가?
  • 이러한 유사도 측정을 기반으로, 미지의 사용자를 이미 알려진 사용자 유형(예: 거래소, DEX 유저)으로 정확하게 분류할 수 있는가?

궁극적으로는 대규모의 이더리움 사용자들을 대상으로, 확장 가능하고 자동화된 방식으로 행동 기반의 페르소나를 부여하는 것을 목표로 한다.


연구 모형

사용자의 거래 이력을 시간대별/카테고리별 다변량 시계열인 ‘행동 스펙트럼’으로 변환하고, 이를 기반으로 특정 클래스(예: DEX)의 대표 스펙트럼과의 유사도를 변형된 Eros 거리 척도로 측정하여 사용자를 분류한다.

본 연구는 새로운 사용자 분류를 위해 다음과 같은 독창적인 4단계의 연구 모형을 설계했다.

  1. 카테고리 정의 및 학습 데이터 구축:
    • 먼저, 의미 있는 사용자 유형(클래스)을 정의한다. (예: 거래소(CEX), 탈중앙화거래소(DEX), 디파이(DeFi), NFT, 게임 등)
    • Etherscan 등에서 이미 라벨링된 주소들을 활용하여, 각 카테고리별로 소수의 ‘대표 선수'(학습 데이터)를 확보한다.
  2. 행동 스펙트럼 생성 (Behavior Spectrum Generation):
    • 이 연구의 핵심 아이디어이다. 각 사용자(지갑 주소)에 대해, 그의 전체 거래 이력을 하나의 ‘행동 스펙트럼’ 행렬로 변환한다.
      • 행(Rows): 시간을 일정한 간격(예: 24시간)으로 나눈 시간 구간(t).
      • 열(Columns): 상호작용한 상대 주소의 카테고리(c) (예: CEX, DEX, DeFi…).
      • 값(Value): 해당 시간 구간(t)에, 해당 카테고리(c)의 주소와 주고받은 거래량(v).
    • 이 행렬은 특정 사용자가 언제, 어떤 유형의 활동에 집중했는지를 한눈에 보여주는 ‘행동 지도’와 같다.
  3. 클래스별 대표 스펙트럼 생성:
    • 각 카테고리(예: DEX)에 속한 모든 학습 데이터 사용자들의 행동 스펙트럼을 평균내어, 해당 클래스를 대표하는 하나의 **’프로토타입 스펙트럼(Prototype Spectrum)’**을 생성한다.
  4. 유사도 기반 분류 (Similarity-based Classification):
    • 분류하고 싶은 미지의 사용자(Unknown User)의 행동 스펙트럼을 생성한다.
    • 이 미지 사용자의 스펙트럼과, 각 클래스의 프로토타입 스펙트럼 간의 **’거리(Distance)’**를 계산한다. 거리가 가까울수록 두 스펙트럼은 더 유사한 행동 패턴을 의미한다.
    • 본 연구에서는 다변량 시계열 비교에 특화된 Eros 거리(Eros Distance) 척도를 변형하여 사용했다.
    • 최종적으로, 미지의 사용자는 가장 거리가 가까운(가장 유사한) 클래스로 분류된다.

데이터 설명

이더리움 메인넷의 전체 거래(Transaction) 및 내부 거래(Internal Transaction) 데이터를 활용했으며, 이는 블록체인에 공개적으로 기록된 방대한 양의 온체인(On-chain) 데이터이다.

  • 출처: **Google BigQuery의 공개 이더리움 데이터셋(crypto_ethereum project)**을 사용했다. 이는 이더리움 블록체인의 모든 기록이 담겨있는, 대표적인 온체인(On-chain) 데이터 소스이다.
  • 수집 방법: BigQuery 플랫폼에서 SQL 쿼리를 사용하여, 특정 기간(2017년~2021년) 동안의 transactions 테이블과 internal_transactions 테이블에서 데이터를 추출했다. 또한, Etherscan에서 라벨링된 주소 데이터를 추가로 활용했다.
  • 데이터 변수 설명: 본 연구는 원본 온체인 데이터와 이를 가공한 파생 데이터로 구성된다.
    • 원본 온체인 데이터:
      • block_timestamp: 트랜잭션이 포함된 블록의 생성 시간.
      • from_address: 보내는 주소.
      • to_address: 받는 주소.
      • value: 전송된 이더(ETH)의 양.
    • 라벨링된 주소 데이터 (Ground Truth):
      • Address: Etherscan에서 라벨링된 주소.
      • Category: 해당 주소의 카테고리 (예: CEX, DEX, DeFi, NFT, Game).
    • 핵심 파생 데이터: 행동 스펙트럼 (Behavior Spectrum):
      • 시간 차원 (Temporal Dimension, t): 시간을 고정된 간격(24시간)으로 분할한 인덱스.
      • 카테고리 차원 (Categorical Dimension, c): 사전에 정의된 행동 카테고리.
      • 측정값 (Value, v): 특정 시간(t)에 특정 카테고리(c)와 주고받은 거래량(ETH).

데이터 분석

제안된 행동 스펙트럼과 변형 Eros 거리 기반의 분류 모델을 실제 이더리움 데이터에 적용한 결과, 기존 거리 척도(유클리드, DTW)에 비해 월등히 높은 분류 정확도(95% 이상)를 달성했다.

본 연구의 데이터 분석은 제안된 방법론의 성능을 입증하기 위한 비교 실험으로 이루어졌다. 연구진은 ‘행동 스펙트럼’이라는 동일한 데이터 표현 방식을 사용하되, 스펙트럼 간의 유사성을 측정하는 ‘거리 척도’를 세 가지로 나누어 성능을 비교했다.

  1. 유클리드 거리 (Euclidean Distance): 가장 기본적인 거리 측정 방식으로, 시간적 순서를 무시하고 전체 스펙트럼의 값 차이만을 계산한다.
  2. DTW (Dynamic Time Warping): 두 시계열 간의 시간 축을 비선형적으로 왜곡하여 유사도를 측정하는 방식으로, 시퀀스의 길이가 다르거나 시간적 편차가 있을 때 강점이 있다.
  3. 변형 Eros 거리 (Modified Eros Distance): 본 연구에서 제안한 방식으로, 다변량 시계열의 각 변수(카테고리)별로 시간적 패턴의 유사성을 측정하고 이를 종합한다.

분석 결과, 변형 Eros 거리를 사용한 분류 모델이 95%가 넘는 압도적인 정확도를 기록하며, 유클리드 거리나 DTW를 사용한 모델보다 훨씬 뛰어난 성능을 보였다. 이는 단순히 값의 크기나 단순한 시퀀스 매칭을 넘어, 각 카테고리별로 시간에 따른 행동 ‘리듬’의 유사성을 비교하는 Eros 거리 방식이 이더리움 사용자 행동 패턴을 분류하는 데 가장 적합함을 의미한다.


핵심 결과

사용자의 다변량 시계열 행동 패턴을 ‘스펙트럼’으로 표현하고, 이를 위해 특별히 고안된 유사도 측정 방식을 사용하는 것이 이더리움 사용자를 효과적으로 분류하는 매우 정확한 방법임을 증명했다.

이 연구의 핵심 결과는 온체인 사용자 행동을 분석하는 새롭고 강력한 방법론을 개발하고, 그 실효성을 높은 정확도로 입증했다는 점이다.

  • ‘행동 스펙트럼’의 유효성: 사용자의 복잡한 거래 이력을 시간 X 카테고리라는 2차원 행렬로 표현하는 ‘행동 스펙트럼’은, 사용자의 행동 패턴을 풍부하게 담아내는 매우 효과적인 데이터 구조임이 확인되었다.
  • 맞춤형 유사도 측정의 중요성: 모든 문제에 맞는 만능 거리 척도는 없으며, 분석하려는 데이터의 특성(본 연구에서는 다변량 시계열)에 맞는 적절한 유사도 측정 방식을 사용하는 것이 모델의 성능에 결정적인 영향을 미친다는 것을 보여주었다.

이러한 결과는, 온체인 사용자 행동이 결코 무작위가 아니라, 각자의 유형에 따라 뚜렷하고 측정 가능한 **시공간적 패턴(Spatio-temporal Pattern)**을 가지고 있음을 의미한다. 이 연구는 그 패턴을 성공적으로 포착하고 분류하는 방법을 제시한 것이다.


시사점

온체인 데이터 분석은 단순히 개별 트랜잭션을 보는 것을 넘어, 사용자의 전체적인 행동 ‘궤적’과 ‘리듬’을 시계열로 분석하는 방향으로 나아가야 하며, 이를 통해 익명의 지갑 주소에 의미 있는 페르소나를 부여할 수 있다.

이 연구는 Web3 데이터 분석 분야에 다음과 같은 중요한 시사점을 제공한다.

첫째, 차원 높은 특징 공학(Feature Engineering)의 중요성이다. 원본 트랜잭션 로그를 그대로 사용하기보다, ‘행동 스펙트럼’과 같이 시간과 맥락을 모두 담아내는 고차원의 데이터 구조로 가공했을 때, 훨씬 더 깊이 있는 분석이 가능해진다.

둘째, 확장 가능한 자동화된 사용자 분류의 가능성이다. 이 연구에서 제안된 방법론은 수동 라벨링에 의존하지 않고도 수백만 개의 새로운 지갑 주소를 자동으로 분류할 수 있는 길을 열었다. 이는 Web3 비즈니스가 고객을 이해하고 소통하는 방식을 근본적으로 바꿀 수 있는 잠재력을 가진다. 예를 들어, dApp은 새로운 사용자가 접속했을 때, 그의 지갑 주소 트랜잭션 이력을 바탕으로 실시간으로 행동 스펙트럼을 생성하고, 그가 어떤 유형의 사용자인지 예측하여 맞춤형 온보딩 경험을 제공할 수 있다.


인사이트

지갑 주소는 익명이지만, 행동은 결코 익명이 아니다.

이 논문의 가장 큰 가치는, 모든 것이 투명하게 기록되는 블록체인 위에서 ‘행동’은 곧 그 사람의 ‘정체성’이라는 사실을 기술적으로 증명했다는 점이다. 우리는 사용자의 이름이나 나이는 모르지만, 그가 남긴 거래의 궤적, 즉 행동 스펙트럼을 통해 그가 어떤 사람인지 놀라울 정도로 정확하게 유추할 수 있다. 이는 마케터에게 전례 없는 수준의 타겟팅 가능성을 열어준다.

  • 페르소나 예시: “온체인 데이터 과학자, 대니(Danny)”
    • 특징: 대니는 Web3 마케팅 에이전시에서 일한다. 그의 임무는 특정 DeFi 프로토콜의 잠재 고객을 찾는 것이다. 그는 더 이상 Etherscan의 수동 라벨에만 의존하지 않는다. 그는 이 논문에서 제안된 행동 스펙트럼 방법론을 사용하여, 아직 라벨링되지 않은 수백만 개의 활성 지갑을 분석한다. 그는 경쟁 프로토콜인 Aave의 사용자 ‘대표 스펙트럼’을 생성하고, 이와 가장 유사한 행동 스펙트럼을 가진 알려지지 않은 지갑들을 찾아내 **”Aave 잠재 고객”**으로 분류하여 타겟 마케팅 리스트를 만든다.
    • 데이터 기반 행동: Google BigQuery나 Dune Analytics와 같은 데이터 플랫폼을 통해 대량의 온체인 데이터를 분석, 특정 스마트 컨트랙트와 상호작용한 지갑 주소 목록을 추출하여 유사도 분석을 수행.
  • 실질적인 마케팅 액션 제안:
    1. 경쟁사 고객 뺏어오기 (Competitor Conquesting): 이 방법론을 사용하여, 우리의 직접적인 경쟁 프로토콜(예: Aave)의 사용자와 매우 유사한 행동 스펙트럼을 보이는 지갑 그룹을 정확히 식별한다. 이들에게 “Aave보다 높은 이자율과 낮은 수수료를 경험해보세요”와 같이, 직접적인 전환을 유도하는 타겟 에어드랍이나 인센티브 캠페인을 실행하여 마케팅 ROI를 극대화한다.
    2. 페르소나 기반 dApp UI/UX 동적 최적화: 행동 스펙트럼 분석을 통해, ‘고빈도 DEX 트레이더’, ‘장기 NFT 컬렉터’, ‘안정형 DeFi 파머’ 등 주요 사용자 유형을 실시간으로 식별한다. 각 유형의 대표 스펙트럼을 분석하여 이들의 핵심 활동 시간대와 선호 카테고리를 파악하고, dApp의 인터페이스를 각 페르소나에 맞게 동적으로 최적화하여 보여준다. (예: DEX 트레이더에게는 실시간 차트와 거래창을, NFT 컬렉터에게는 갤러리와 신규 민팅 정보를 먼저 노출)
    3. 담합 및 시빌 공격 탐지: 비정상적으로 동일하거나 유사한 행동 스펙트럼을 보이는 대규모 지갑 그룹이 특정 시점에 동시에 발견될 경우, 이를 특정 거버넌스 투표를 조작하거나 에어드랍을 노리는 조직적인 **’시빌 공격(Sybil Attack)’**의 징후로 보고, 해당 그룹을 식별하여 투표 가중치를 조정하거나 에어드랍 대상에서 제외하는 등 어뷰징 방지에 활용한다.