TSGN: Transaction Subgraph Networks for Identifying Ethereum Phishing Accounts 논문 리뷰

이더리움 계정의 트랜잭션 서브그래프를 추출하고 그래프 대비 학습 기반의 GNN(Directed-TSGN, Temporal-TSGN)을 활용하여 피싱 계정을 식별하며, 높은 정확도와 시간 효율성을 달성했다.

논문 요약

  • 논문 제목: TSGN: Transaction Subgraph Networks for Identifying Ethereum Phishing Accounts
  • 저자: Jinhuan Wang, Pengtao Chen, Shanqing Yu, Xinyao Xu
  • 게재 학술지: Springer, Lecture Notes in Computer Science (CCIS), Vol. 1490 / arXiv:2104.08767v2
  • 발행 연도: 2021
  • 핵심 요약: 이더리움 계정의 트랜잭션 서브그래프를 추출하고 매핑한 후, 그래프 대비 학습(contrastive learning) 기반의 GNN 모델(Directed-TSGN, Temporal-TSGN 포함)을 활용하여 피싱 계정을 식별하는 프레임워크를 제안했다. Directed-TSGN은 거래 방향성 및 시간 정보를 보존하며 피싱 계정 식별 정확도 93.9%를 달성했다.

해결하려는 문제

본 연구는 이더리움 블록체인 네트워크에서 피싱(Phishing) 계정을 효과적으로 식별하고 탐지하는 데 따르는 어려움을 해결하고자 했다. 피싱은 사용자의 자산을 탈취하는 심각한 보안 위협이며, 온체인 데이터의 복잡한 연결성과 익명성으로 인해 기존의 탐지 방식으로는 한계가 있었다. 특히, 거래의 방향성이나 시간적 순서와 같은 중요한 정보를 간과하는 문제점을 극복하고자 했다.


연구 모형

본 연구는 이더리움 계정의 트랜잭션 데이터를 기반으로 Transaction Subgraph Networks (TSGN) 프레임워크를 제안한다. 이는 각 계정(노드) 주변의 거래 기록을 포함하는 **트랜잭션 서브그래프(Transaction Subgraph)**를 추출하고 이를 그래프 표현으로 매핑한 후, 그래프 대비 학습(Graph Contrastive Learning) 기반의 GNN(Graph Neural Network) 모델을 훈련하여 피싱 계정을 분류한다. 특히, Directed-TSGN은 거래의 방향성을, Temporal-TSGN은 시간 정보를 보존하도록 설계되어 피싱 계정 식별의 정확도를 높였다. DiffPool 기반의 그래프 표현 기법을 사용하여 GNN 학습에 적합한 구조화된 데이터를 생성한다.


데이터 설명

  • 출처: 이더리움 온체인 거래 기록 데이터를 사용했다. 이 데이터는 노드(계정)와 엣지(거래)로 구성되며, 각 엣지에는 거래 방향, 거래 금액, 트랜잭션 타임스탬프 등의 속성이 포함된다.
  • 수집 방법: 이더리움 블록체인에서 원시 거래 기록을 수집하고, 이를 특정 계정 중심의 트랜잭션 서브그래프 형태로 구성했다. 이 서브그래프는 DiffPool과 같은 기법을 통해 GNN이 학습할 수 있는 그래프 표현으로 변환되었다.
  • 데이터 변수 설명:
    • 노드 (계정): 이더리움 지갑 주소를 나타낸다.
    • 엣지 (거래): 두 계정 간의 트랜잭션을 나타낸다.
    • 엣지 속성:
      • 방향성: 자금 전송의 시작 계정과 끝 계정.
      • 금액: 전송된 암호화폐의 양.
      • 타임스탬프: 트랜잭션이 발생한 시간.
    • 서브그래프 속성: 특정 계정을 중심으로 하는 로컬 네트워크 구조 및 그 안의 거래 속성들의 요약.

데이터 분석

본 연구는 이더리움 거래 기록으로부터 구성된 트랜잭션 서브그래프를 기반으로 Directed-TSGN 및 Temporal-TSGN을 포함한 GNN 모델을 훈련하고 피싱 계정 분류 성능을 평가했다. 모델의 성능은 주로 피싱 계정 식별 정확도와 F1-score, Precision, Recall 등의 분류 지표를 통해 측정되었으며, 기존 GNN 모델들과 비교 분석했다.


핵심 결과

본 연구의 핵심 결과는 Directed-TSGN 모델이 거래 방향성 및 시간 정보를 효과적으로 보존하면서 피싱 계정 식별 정확도 93.9%를 달성했다는 점이다. 또한, TSGN 기반 분류 모델이 기존 방법론 대비 높은 정밀도(F1-score 0.93 이상)를 보여주며 시간 복잡도를 낮추었다. 이는 그래프 대비 학습과 GNN의 결합이 온체인 피싱 탐지에 매우 효과적임을 입증한다.


시사점

본 연구는 이더리움 블록체인에서 피싱과 같은 악성 계정을 탐지하는 데 트랜잭션 서브그래프와 GNN, 그리고 그래프 대비 학습의 결합이 매우 효과적인 방법론임을 시사한다. 특히 거래의 방향성과 시간적 정보를 고려하는 것이 탐지 정확도를 높이는 데 중요하며, 이는 거래소, 지갑 서비스 등에서 피싱 지갑을 사전에 탐지할 수 있는 고성능 이상 탐지 백엔드 시스템 설계에 활용될 수 있다. 또한, AML(자금세탁방지) 시스템과의 연동 가능성도 높다.


인사이트

AI 빅데이터 마케터 관점에서 본 논문의 **’트랜잭션 서브그래프 기반 GNN 및 그래프 대비 학습을 통한 피싱 계정 식별’**은 WEB3 CRM의 **고객 분류(Segmentation)**에 깊은 통찰을 제공한다. 제 연구 목표인 듄 애널리틱스(Dune Analytics)에서 수집한 USDC 스테이블 코인 트랜잭션 데이터를 활용한 고객 분류 모델 개발 시, 단순히 개별 지갑의 속성이나 시계열 패턴을 넘어 **’고객 지갑 간의 연결 관계 및 네트워크 행동’**을 분석하여 고객을 분류할 수 있게 해준다. 🌐

USDC 트랜잭션 데이터는 본 논문처럼 **’USDC 거래 네트워크’**로 모델링될 수 있다. 여기서 각 **지갑은 노드(Node)**가 되고, **USDC 전송은 방향성 있는 엣지(Edge)**가 되며, 엣지에는 금액, 타임스탬프 등의 속성을 부여할 수 있다. 이 네트워크에 GNN그래프 대비 학습을 적용한다면:

  • 고객 커뮤니티 식별: 유사한 USDC 거래 패턴을 보이거나, 특정 DeFi 프로토콜에 USDC를 예치하는 등 **동일한 관심사/행동을 공유하는 고객 지갑 그룹(커뮤니티)**을 식별하여 타겟 마케팅에 활용할 수 있다. 이는 WEB2의 소셜 네트워크 분석 기반 고객 그룹핑과 유사하다.
  • 영향력 있는 고객 식별: USDC 거래 네트워크 내에서 **중심성(Centrality)**이 높거나, 많은 고객 지갑과 연결되어 있는 ‘핵심 고객(Hub)’을 식별하여 인플루언서 마케팅 또는 앰버서더 프로그램에 활용할 수 있다.
  • 이상 행동 및 리스크 고객 탐지: 본 논문의 피싱 계정 탐지처럼, 비정상적인 USDC 트랜잭션 패턴(예: 급작스러운 대규모 자금 이동, 비정형적인 거래 빈도)을 보이는 지갑을 ‘고위험 고객’ 또는 **’이탈 징후 고객’**으로 분류하여 선제적인 리스크 관리 및 리텐션 마케팅에 활용할 수 있다.

Directed-TSGN이 거래의 방향성을 보존하여 정확도를 높인 점은, USDC 거래 흐름(어디에서 와서 어디로 가는지)을 분석하여 고객 행동의 의도를 파악하고 고객 생애 주기(LTV) 및 이탈 예측 모델을 고도화하는 데 결정적인 역할을 할 것이다. 궁극적으로, TSGN과 같은 그래프 기반 학습 프레임워크는 WEB3 환경에서 고객을 네트워크의 일부로 이해하게 하여, 더욱 심층적이고 동적인 개인화된 CRM 전략퍼포먼스 마케팅을 가능하게 한다.