Detecting Illicit Ethereum Accounts Based on Their Transaction History and Properties and Using Machine Learning 논문 리뷰

이더리움 주소의 온체인 거래 속성을 추출하여 XGBoost 기반 지도 학습 모델로 악성 지갑을 탐지하는 프레임워크를 제안하고, 우수한 탐지 성능과 주요 특징을 규명했다.

논문 요약

  • 논문 제목: Detecting Illicit Ethereum Accounts Based on Their Transaction History and Properties and Using Machine Learning
  • 저자: Amel Bella Baci, Kei Brousmiche, Ilias Amal, Fatma Abdelhédi, Lionel Rigaud
  • 게재 학술지: Springer, Lecture Notes in Networks and Systems, DBB 2023 (Book Chapter)
  • 발행 연도: 2022
  • 핵심 요약: 이더리움 블록체인 주소의 온체인 거래 속성(시점, 금액, 빈도, 구조 등)을 추출하여 지도 학습(XGBoost, SVM, 로지스틱 회귀)을 적용했다. 특징 선택 과정을 거쳐 26개의 피처를 활용한 악성 지갑 탐지 모델을 구축하고 그 성능을 분석했다.

해결하려는 문제

본 연구는 이더리움 블록체인 네트워크 내에서 발생하는 **악성 활동(불법 자금 이동, 사기 등)**을 효과적으로 탐지하고 식별하는 데 따르는 어려움을 해결하고자 했다. 기존의 탐지 방식이 복잡한 온체인 활동을 모두 포착하지 못하거나, 수동적인 분석에 의존하여 확장성이 부족하다는 한계를 극복하고, 머신러닝 기반의 자동화된 악성 지갑 탐지 시스템을 구축하는 데 기여하고자 했다.


연구 모형

본 연구는 이더리움 주소의 온체인 거래 기록과 속성을 기반으로 지도 학습(Supervised Learning) 분류 모형을 구축했다. 약 2,500개 이상의 라벨링된 주소 데이터를 활용하여 XGBoost, SVM(Support Vector Machine), 로지스틱 회귀(Logistic Regression) 등 다양한 머신러닝 알고리즘을 적용하고, 최적의 특징 선택(Feature Selection)을 통해 26개의 주요 피처를 도출했다. 이 모델은 이 피처들을 입력으로 받아 특정 이더리움 주소가 악성인지 정상인지를 분류한다.


데이터 설명

  • 출처: 약 2,500개 이상의 이더리움 주소 데이터셋을 기반으로 했으며, 이는 Farrugia et al. (2021) 연구의 데이터를 참조 및 확장한 것으로 보인다. 각 주소에는 악성/비악성 라벨이 포함되어 있다.
  • 수집 방법: 이더리움 블록체인의 트랜잭션 기록을 분석하여 각 주소의 활동 데이터를 추출하고, 사전에 정의된 기준 또는 외부 정보를 통해 악성 여부를 라벨링한 것으로 추정된다.
  • 데이터 변수 설명: 각 이더리움 주소에 대해 총 26개의 특징(피처)이 사용되었다. 주요 특징들은 다음과 같다.
    • 총 거래 수: 특정 주소와 관련된 전체 트랜잭션의 수.
    • 총 이체 금액: 특정 주소에서 이체되거나 수신된 총 암호화폐 금액.
    • 평균 전송량: 트랜잭션당 평균 이체되는 암호화폐의 양.
    • 타임스탬프 간격: 연속적인 트랜잭션들 사이의 시간적 간격 패턴.
    • 상대 주소 통계: 트랜잭션을 주고받은 상대방 주소의 수, 유형, 특성 등.
    • 구조적 그래프 요약: 주소 간의 트랜잭션 연결을 그래프 형태로 모델링하여 도출된 특징(예: 중심성 지표, 군집 계수 등).

데이터 분석

본 연구는 26개의 선정된 특징을 사용하여 XGBoost, SVM, Logistic Regression 모델을 훈련하고, 악성 이더리움 주소 탐지 성능을 비교 분석했다. 모델의 성능은 주로 F1-score를 비롯하여 Precision, Recall 등의 분류 평가 지표를 통해 측정되었다. 특히, 각 피처의 중요도를 분석하여 악성 활동 탐지에 가장 기여하는 요소를 파악했다.


핵심 결과

본 연구의 핵심 결과는 XGBoost 기반 모델이 평균 F1-score 0.9654를 달성하며 가장 우수한 악성 지갑 탐지 성능을 보였다는 점이다. 또한, 피처 중요도 분석 결과 ‘총거래량(Total Transaction Amount)’, ‘최소 수신 가치(Min Received Value)’, ‘처음 트랜잭션부터 마지막 트랜잭션까지의 시간 차이(Time Difference between First and Last Transaction)’ 가 악성 지갑 탐지에 가장 중요한 인자로 확인되었다.


시사점

본 연구는 이더리움 온체인 거래 속성을 활용한 머신러닝 기반 모델이 악성 이더리움 지갑 탐지에 매우 효과적임을 시사한다. 특히, XGBoost와 같은 앙상블 학습 모델의 높은 성능은 AML(자금세탁방지), 사기 탐지 시스템, 그리고 지갑 서비스 보안 강화에 직접적으로 기여할 수 있는 인프라로 활용될 가능성을 보여준다. 악성 계정을 높은 신뢰도로 조기 탐지할 수 있는 기반을 마련했다는 점에서 큰 의미를 가진다.


인사이트

AI 빅데이터 마케터 관점에서 본 논문의 ‘온체인 거래 속성 기반 지도 학습 분류’ 접근 방식은 WEB3 CRM의 **고객 분류(Segmentation)**에 매우 중요한 통찰을 제공한다. 제 연구 목표인 듄 애널리틱스(Dune Analytics)에서 수집한 USDC 스테이블 코인 트랜잭션 데이터를 활용한 고객 분류 모델 개발 시, 이 논문에서처럼 ‘정의된 기준(예: 악성/정상)’에 따라 고객 지갑을 분류하는 ‘지도 학습’ 개념을 적용할 수 있다.

예를 들어, USDC 트랜잭션 데이터에서 고객의 ‘활동 빈도’, ‘거래 금액’, ‘거래 시간 간격’, ‘상호작용한 프로토콜 유형’ 등을 피처(Feature)로 추출하고, 이를 기반으로 고객의 ‘가치 등급(고가치/중가치/저가치)’, ‘충성도(충성 고객/이탈 가능 고객)’, ‘제품 선호도(DeFi 사용자/NFT 투자자)’ 등 마케팅 목적에 맞는 라벨을 부여하여 지도 학습 모델을 훈련할 수 있다. 이는 WEB2 CRM에서 고객의 구매 이력이나 행동 데이터를 기반으로 고객 가치를 분류하는 RFM 분석의 확장 또는 타겟 고객 분류와 유사하다.

특히, 본 연구에서 XGBoost가 우수한 성능을 보였다는 점은, 고객 분류 모델 개발 시 이 알고리즘이 효과적인 선택지가 될 수 있음을 시사한다. 이 모델은 **피처 중요도(Feature Importance)**를 제공하여, 마케터가 **’왜 이 고객이 특정 세그먼트에 속하는지’**에 대한 해석 가능한 인사이트를 얻을 수 있게 한다. 이는 개인화된 마케팅 전략 수립 시 고객 행동의 핵심 동인을 파악하고, 퍼포먼스 마케팅 캠페인의 효율성을 높이는 데 결정적인 역할을 할 것이다. 궁극적으로 본 논문의 접근 방식은 WEB3 온체인 데이터를 활용하여 고객을 세분화하고, 특정 행동에 대한 미래 예측 기반의 CRM 전략을 수립하는 데 강력한 기반이 된다.