FE-GNN: 이더리움 계정 분류를 위한 특징 강화 그래프 신경망 리뷰

이더리움의 복잡한 거래 네트워크를 ‘그래프’로 보고, 최신 딥러닝 기법인 그래프 신경망(GNN)을 활용하여, 각 지갑 주소의 ‘관계’와 ‘행동’을 동시에 학습시켜 유형을 분류하는 새로운 SOTA(최첨단) 방법론을 제시한다.


논문 요약

  • 논문 제목: FE-GNN: Feature Enhanced Graph Neural Networks for Account Classification in Ethereum
  • 저자: Zhaowei Liu 외 6인
  • 게재 학술지: ICLR 2025 Conference (Submission under review on OpenReview)
  • 발행 연도: 2024
  • 핵심 요약: 이더리움 지갑 주소의 유형을 자동으로 분류하기 위해, 거래 데이터를 이종 그래프(Heterogeneous Graph)로 구성하고, 이를 학습하기 위한 새로운 그래프 신경망 모델인 FE-GNN을 제안했다. FE-GNN은 GCN과 GAT라는 두 가지 GNN 아키텍처를 결합하여 노드의 특징을 강화하고, 메타패스(Metapath) 개념을 활용하여 복잡한 관계 정보를 효과적으로 학습한다. 실험 결과, 제안된 모델은 기존의 머신러닝 및 표준 GNN 모델들을 능가하는 SOTA(State-of-the-Art) 성능을 달성하며 이더리움 주소 분류의 새로운 기준을 제시했다.

연구 배경

당신의 지갑은 당신이 누구와 거래하는지에 따라 정의된다. 이 연구는 개별 지갑의 행동 분석을 넘어, 지갑들 간의 ‘관계’ 네트워크를 분석하는 그래프 딥러닝을 통해, 블록체인 위 익명성의 завеса를 한 꺼풀 더 벗겨낸다.

이더리움과 같은 블록체인 데이터를 분석할 때, 전통적인 머신러닝 기법들은 각 지갑 주소(계정)를 독립적인 개체로 간주하는 경향이 있었다. 즉, A 지갑의 총 거래량, 평균 가스비 등 A 지갑 자체의 특징만을 분석했다. 하지만 이러한 접근법은 블록체인 데이터가 가진 가장 중요한 정보 중 하나를 놓치게 된다. 바로 ‘관계’, 즉 네트워크 구조이다.

블록체인 위의 모든 거래는 본질적으로 주소와 주소를 연결하는 거대한 **그래프(Graph)**를 형성한다.

  • 노드 (Nodes): 각 지갑 주소(EOA) 또는 스마트 컨트랙트 주소(CA).
  • 엣지 (Edges): 주소 간의 트랜잭션 (ETH 또는 토큰 전송).

이러한 그래프 구조 안에서, 한 노드의 정체성은 그 노드 자체의 특징뿐만 아니라, 그 노드가 어떤 이웃 노드들과 연결되어 있는지에 의해 크게 영향을 받는다. 예를 들어, 어떤 미지의 주소가 이미 알려진 여러 개의 ‘피싱’ 주소와 거래한 이력이 있다면, 그 주소 역시 ‘피싱’과 관련되었을 확률이 매우 높다.

이러한 관계형 데이터를 효과적으로 학습하기 위해 탄생한 딥러닝 기술이 바로 **그래프 신경망(Graph Neural Network, GNN)**이다. GNN은 각 노드의 특징을 학습할 때, 그 이웃 노드들의 특징 정보를 함께 집계하여 반영한다. 이를 통해 ‘A는 B, C와 친구이므로, A는 B, C와 비슷한 성향일 것이다’라는 관계적 추론을 가능하게 한다. 본 연구는 바로 이 GNN 기술을 이더리움 주소 분류 문제에 적용하여, 기존 방법론의 한계를 뛰어넘고자 한다.


해결하려는 문제

개별 지갑의 독립적인 특징만 분석하는 기존 머신러닝 분류의 한계를 넘어, 지갑 간의 ‘거래 관계’라는 네트워크 구조 정보를 함께 학습하여, 이더리움 주소 분류의 정확도를 한 단계 끌어올린다.

이전에 제안된 머신러닝 기반 주소 분류 모델들(예: XGBoost, 랜덤포레스트 활용)은 각 주소의 통계적 특징(거래 횟수, 평균 금액 등)을 사용하여 준수한 성능을 보였다. 하지만 이 모델들은 다음과 같은 근본적인 한계를 가진다.

  • 관계 정보의 손실: A 지갑과 B 지갑이 서로 거래했다는 중요한 ‘관계’ 정보를 모델의 입력으로 직접 활용하지 못하고, 단지 ‘총 거래 상대방 수’와 같은 집계된 정보로만 변환하여 사용한다.
  • 맥락의 부재: A 지갑이 누구에게 ETH를 보냈는지에 따라 그 의미가 완전히 달라짐에도 불구하고, 기존 모델들은 이 ‘맥락’을 파악하기 어렵다. (예: 바이낸스로 보낸 ETH vs 토네이도 캐시로 보낸 ETH)

이 연구가 해결하고자 하는 문제는 바로 이러한 **’관계와 맥락 정보의 부재’**이다. 이더리움 트랜잭션 데이터를 거대한 그래프로 모델링하고, GNN을 통해 각 지갑의 특징과 그 주변의 네트워크 구조를 동시에 학습함으로써, 훨씬 더 정확하고 정교한 주소 분류 모델을 구축하는 것을 목표로 한다.


연구 모형

이더리움 거래 데이터를 이종 그래프(Heterogeneous Graph)로 구성하고, 메타패스 기반으로 특징을 추출한 뒤, GCN과 GAT를 결합한 FE-GNN 모델을 통해 각 노드(주소)의 임베딩을 학습하고 유형을 분류한다.

본 연구는 이더리움 주소 분류의 정확도를 극대화하기 위해, 다음과 같은 고도로 정교화된 딥러닝 파이프라인을 제안한다.

  1. 이종 그래프 생성 (Heterogeneous Graph Construction):
    • 단순한 거래 그래프를 넘어, 노드와 엣지의 ‘유형’을 구분하는 이종 그래프를 구축한다. 예를 들어, 일반 사용자 지갑(EOA)과 컨트랙트 주소(CA)를 서로 다른 유형의 노드로, ETH 전송과 스마트 컨트랙트 호출을 서로 다른 유형의 엣지로 정의한다.
  2. 메타패스 기반 특징 강화 (Metapath-based Feature Enhancement):
    • **메타패스(Metapath)**는 사용자 → 컨트랙트 호출 → DeFi 프로토콜 → 상호작용 → 다른 사용자와 같이, 서로 다른 유형의 노드와 엣지를 번갈아 통과하는 경로를 의미한다. 이러한 메타패스를 통해, 단순한 직접 거래를 넘어선 더 복잡하고 고차원적인 관계 정보를 추출하여 노드의 초기 특징을 강화한다.
  3. FE-GNN (Feature Enhanced Graph Neural Network) 모델:
    • 본 논문의 핵심 제안 모델이다. 이 모델은 두 가지 주요 GNN 아키텍처를 결합하여 시너지를 낸다.
      • GCN (Graph Convolutional Network): 이웃 노드들의 특징을 평균 내어 집계함으로써, 노드의 지역적인 ‘구조적 정보’를 학습한다.
      • GAT (Graph Attention Network): ‘어텐션 메커니즘’을 사용하여, 여러 이웃 노드들 중에서 현재 노드와 더 관련성이 높은 중요한 이웃에게 더 높은 가중치를 부여하여 정보를 집계한다.
    • FE-GNN은 이 두 가지 방식으로 학습된 특징을 원래 노드의 특징과 결합하여, 더욱 풍부하고 정제된 노드 임베딩(Node Embedding), 즉 각 주소를 대표하는 고차원 벡터를 생성한다.
  4. 노드 분류 (Node Classification):
    • 마지막으로, 생성된 노드 임베딩을 분류기(Softmax Layer)에 입력하여, 각 주소가 어떤 유형(거래소, DEX, 피싱 등)에 속할 확률을 계산하고 최종적으로 분류한다.

데이터 설명

112만 개의 주소(노드)와 375만 개의 거래(엣지)로 구성된 대규모 이더리움 트랜잭션 그래프를 데이터로 활용했으며, Etherscan에서 라벨링된 주소를 정답으로 사용한 온체인(On-chain) 데이터이다.

  • 출처: 본 연구는 Google BigQuery의 공개 이더리움 데이터셋Etherscan.io의 주소 라벨을 결합하여 데이터셋을 구축했다. 이는 100% 공개된 데이터를 활용한 온체인(On-chain) 데이터 기반 연구이다.
  • 수집 방법: BigQuery에서 대규모 트랜잭션 데이터를 추출하여 이를 네트워크 분석에 적합한 그래프(Graph) 형태로 재구성했다. Etherscan에서 수집한 라벨 정보는 모델 학습과 성능 평가를 위한 정답지로 사용되었다.
  • 데이터 변수 설명: 본 연구의 데이터는 노드, 엣지, 그리고 각 노드의 특징으로 구성된 그래프 데이터이다.
    • 그래프 구성 요소:
      • 노드 (Nodes, V): 약 112만 개의 이더리움 주소. 각 노드는 EOA(사용자 지갑) 또는 CA(컨트랙트 지갑) 유형을 가진다.
      • 엣지 (Edges, E): 약 375만 개의 트랜잭션. 각 엣지는 노드 간의 ETH 또는 토큰 전송을 나타낸다.
    • 노드 특징 (Node Features):
      • 각 노드(주소)는 그 자체의 행동 특성을 나타내는 특징 벡터를 가진다. 이 연구에서는 이전 연구들에서 사용된 통계적 특징(예: 거래 횟수, 평균 거래액, 가스비 패턴, 지갑 나이 등)을 초기 특징으로 활용했다.
    • 타겟 변수 (Node Labels):
      • Etherscan에서 라벨링된 주소의 유형 (예: CEX, DEX, DeFi, NFT, Phishing). 모델이 최종적으로 맞춰야 하는 정답이다.

데이터 분석

제안된 FE-GNN 모델의 성능을 기존의 머신러닝(XGBoost 등) 및 표준 GNN(GCN, GAT) 모델과 비교한 결과, 모든 평가지표(정확도, F1-Score)에서 가장 뛰어난 성능을 보이며 SOTA(State-of-the-Art)를 달성했다.

본 연구의 데이터 분석은 제안된 FE-GNN 모델이 기존 방법론들보다 얼마나 우수한지를 증명하기 위한 엄격한 비교 실험으로 진행되었다. 연구진은 동일한 데이터셋과 분류 과제에 대해 다음과 같은 모델들의 성능을 비교했다.

  • 비-그래프 머신러닝 모델: XGBoost, 랜덤포레스트 등 (관계 정보를 사용하지 않고 각 노드의 특징만 사용)
  • 표준 GNN 모델: GCN, GAT
  • 제안 모델: FE-GNN

성능 평가 결과, 예상대로 그래프 정보를 활용하는 GNN 모델들(GCN, GAT)이 비-그래프 머신러닝 모델들보다 일관되게 더 높은 성능을 보였다. 이는 ‘관계’ 정보가 주소 분류에 매우 중요하다는 것을 의미한다.

더 나아가, GCN과 GAT의 장점을 결합하고 특징을 강화한 FE-GNN 모델이 표준 GNN 모델들보다도 더 높은 정확도와 F1-Score를 기록하며, 이더리움 주소 분류 분야에서 새로운 SOTA(최첨단) 성능을 달성했다. 이는 제안된 모델 아키텍처의 혁신성과 우수성을 명확하게 입증하는 결과이다.


핵심 결과

이더리움 주소를 분류할 때, 해당 주소의 개별적인 행동 특징뿐만 아니라, 거래 관계를 통해 형성되는 ‘네트워크 구조’ 정보를 그래프 신경망으로 함께 학습시키는 것이 분류 정확도를 획기적으로 향상시킨다.

이 연구의 가장 중요한 발견은 **’관계가 행동만큼, 혹은 그 이상으로 중요하다’**는 것을 데이터로 증명한 것이다. 한 지갑의 정체성은 그 지갑이 독립적으로 수행한 행동의 총합만으로 정의되지 않는다. 오히려 그 지갑이 이더리움 생태계라는 거대한 소셜 네트워크 안에서 누구와 연결되어 있고, 어떤 커뮤니티에 속해 있는지가 그 정체성을 규정하는 더 강력한 신호일 수 있다.

그래프 신경망(GNN)은 이러한 관계 기반의 추론을 가능하게 하는 가장 적합한 도구이다. GNN은 “A가 B와 거래하고, B가 C와 거래했다”는 정보를 단순히 따로따로 보는 것이 아니라, “A-B-C”로 이어지는 경로 전체의 의미를 학습한다. 본 연구에서 제안된 FE-GNN은 이러한 관계 정보를 매우 효과적으로 학습하여, 주소 분류의 정확도를 새로운 수준으로 끌어올렸다.


시사점

블록체인 데이터 분석은 개별 주소나 트랜잭션을 분석하는 단계를 넘어, 전체 생태계를 하나의 거대한 ‘그래프’로 보고, 그 속의 관계와 구조를 분석하는 ‘네트워크 과학’의 관점으로 진화해야 한다.

이 연구는 Web3 데이터 분석의 패러다임을 한 단계 진화시키는 중요한 시사점을 제공한다.

첫째, 모든 온체인 데이터는 그래프 데이터이다. 고객을 분류하든, 사기를 탐지하든, 특정 프로토콜의 영향력을 분석하든, 모든 분석은 개별 주소들을 ‘노드’로, 트랜잭션을 ‘엣지’로 하는 그래프를 구축하는 것에서 시작해야 한다. 이러한 그래프 관점은 기존에는 볼 수 없었던 새로운 차원의 인사이트를 제공한다.

둘째, GNN은 Web3 데이터 분석의 핵심 기술이 될 것이다. 관계와 연결이 본질인 블록체인 데이터의 특성상, GNN은 이 데이터를 분석하는 데 가장 자연스럽고 강력한 도구이다. 앞으로 고객 세분화, 사기 탐지(FDS), 추천 시스템, LTV 예측 등 다양한 Web3 CRM 및 분석 문제에 GNN이 핵심적으로 활용될 것으로 예상된다.


인사이트

당신이 누구인지는, 당신이 ‘무엇’을 했는가뿐만 아니라, 당신이 ‘누구와’ 거래했는가로 결정된다.

이 논문은 고객을 이해하는 가장 진보된 방법을 제시한다. 고객의 개별 행동을 넘어, 고객의 ‘사회적 관계망’을 함께 분석할 때 비로소 그 고객의 진짜 모습과 영향력을 파악할 수 있다. GNN은 수백만 명의 고객과 그들의 상호작용을 한눈에 보고, 그 속에서 ‘핵심 인싸’와 ‘숨은 실력자’를 찾아내는 궁극의 ‘인맥 분석기’이다.

  • 페르소나 예시: “Web3 네트워크 분석가, 노드 노아(Node Noah)”
    • 특징: 노아는 대규모 투자 펀드에서 일하며, 잠재적 투자 대상을 찾는다. 그는 단순히 특정 프로토콜의 TVL이나 사용자 수만 보지 않는다. 그는 GNN 모델을 사용하여 전체 DeFi 생태계의 **’지갑-프로토콜 상호작용 그래프’**를 분석한다. 그는 이 분석을 통해, 현재는 작지만 가장 영향력 있는 ‘고래’ 투자자들과 ‘핵심 빌더’들이 최근 집중적으로 상호작용하기 시작한 신생 프로토콜을 발견하고, 이를 ‘차세대 블루칩’ 후보로 식별하여 선제적으로 투자한다.
    • 데이터 기반 행동: 그래프 데이터베이스(예: Neo4j)와 GNN 라이브러리(예: PyTorch Geometric)를 활용, 온체인 데이터의 네트워크 구조를 분석하고 시각화하여 투자 리포트를 작성.
  • 실질적인 마케팅 액션 제안 (Web3 프로젝트 관점):
    1. GNN 기반 핵심 인플루언서 식별: 프로젝트의 사용자-dApp 상호작용 그래프를 구축하고, GNN을 통해 각 사용자의 **영향력 점수(Influence Score) 또는 중심성(Centrality)**을 계산한다. 단순히 팔로워 수가 많은 트위터 인플루언서가 아닌, 온체인 상에서 실제로 다른 많은 고가치 지갑들과 연결되어 있는 **’숨겨진 온체인 인플루언서’**를 찾아내고, 이들을 대상으로 집중적인 파트너십 및 앰버서더 프로그램을 진행한다.
    2. ‘관계’ 기반의 추천 시스템 (Social Recommendation): 사용자가 A 프로토콜을 사용했을 때, 단순히 A와 유사한 B를 추천하는 것을 넘어, GNN을 통해 “A를 사용하는 다른 많은 ‘고래’ 투자자들이 B와 C도 함께 사용하고 있습니다” 와 같이, 네트워크상의 이웃들의 행동 패턴에 기반한 ‘소셜 추천’을 제공하여 추천의 신뢰도와 전환율을 획기적으로 높인다.
    3. 커뮤니티 및 서브그래프 자동 탐지: GNN 기반의 커뮤니티 탐지 알고리즘을 사용하여, 전체 사용자 네트워크 내에 자연스럽게 형성된 하위 그룹(서브그래프)들을 자동으로 발견한다. (예: ‘SushiSwap 초기 유동성 공급자 그룹’, ‘BAYC 홀더이면서 ApeCoin 스테이커인 그룹’). 각 커뮤니티의 특성을 분석하고, 이들의 고유한 니즈에 맞는 맞춤형 이벤트나 거버넌스 제안을 진행하여 커뮤니티 참여를 극대화한다.