이더리움 블록체인 주소를 대상으로 지도 학습(랜덤 포레스트, XGBoost 등)을 적용하여 정상/악성 활동을 분류하고, 그 성능을 분석함으로써 블록체인 보안 및 자금세탁방지에 기여했다.
논문 요약
- 논문 제목: Classifying Transactional Ethereum Addresses using Supervised Learning Approaches over Ethereum
- 저자: 저자 정보 확인 불가
- 게재 학술지: Procedia Computer Science, Vol. TBD
- 발행 연도: 2023
- 핵심 요약: 이더리움 블록체인 주소를 정상 및 악성 활동으로 분류하기 위해 랜덤 포레스트, XGBoost, SVM, 로지스틱 회귀 등 다양한 지도 학습 모델을 적용하고 그 분류 성능을 분석했다. 이는 피싱, 사기 대응 및 자금세탁방지(AML)에 활용될 수 있음을 보여준다.
해결하려는 문제
본 연구는 이더리움 블록체인 네트워크 내에서 발생하는 악성 활동(피싱, 사기, 자금세탁 등)을 탐지하고 분류하는 데 어려움이 있다는 문제를 해결하고자 했다. 기존의 수동적인 탐지 방식의 한계를 극복하고, 온체인 데이터를 기반으로 자동화된 악성 주소 분류 시스템을 구축하여 블록체인 생태계의 보안을 강화하는 데 기여하고자 했다.
연구 모형
본 연구는 이더리움 블록체인 주소의 활동 데이터를 기반으로 지도 학습(Supervised Learning) 접근 방식을 활용한 분류 모형을 구축했다. 정상 및 악성으로 라벨링된 대규모 온체인 트랜잭션 데이터를 사용하여 랜덤 포레스트(Random Forest), XGBoost, SVM(Support Vector Machine), 로지스틱 회귀(Logistic Regression) 등 다양한 머신러닝 분류 알고리즘을 훈련하고 비교 분석했다. 이 모형은 주소 단위의 다양한 특징(피처)들을 입력으로 사용하여 특정 주소가 정상 활동을 하는지, 아니면 악성 활동을 하는지를 예측한다.
데이터 설명
- 출처: 악성/비악성 주소 라벨이 포함된 대규모 온체인 트랜잭션 데이터를 사용했다. 이 데이터는 이더리움 블록체인에서 직접 수집된 것으로 추정된다.
- 수집 방법: 온체인 트랜잭션 데이터를 파싱하여 주소 단위로 집계하고, 사전에 정의된 기준 또는 외부 정보를 통해 각 주소에 악성/비악성 라벨을 부여한 것으로 보인다.
- 데이터 변수 설명: 데이터는 주소 단위의 다양한 특징(피처)들로 구성된다.
- 트랜잭션 횟수: 특정 주소가 발생시킨 총 트랜잭션의 수.
- 트랜잭션 금액: 특정 주소와 관련된 총 트랜잭션 금액 또는 평균 금액.
- 시간 간격: 트랜잭션들 사이의 시간 간격 패턴.
- 트랜잭션 상대: 특정 주소가 상호작용한 다른 주소들의 특성 또는 네트워크 구조.
데이터 분석
본 연구는 이더리움 블록체인에서 수집된 라벨링된 트랜잭션 데이터를 사용하여 Random Forest, XGBoost, SVM, Logistic Regression 등의 지도 학습 모델을 훈련하고 평가했다. 모델의 성능은 F1-score, Precision, Recall 등의 분류 성능 지표를 통해 비교 분석했다.
핵심 결과
본 연구의 핵심 결과는 다양한 지도 학습 기법 중에서 랜덤 포레스트(Random Forest)와 XGBoost가 F1-score, Precision, Recall 등의 지표에서 상대적으로 우수한 성능을 나타냈다는 점이다. 이는 온체인 트랜잭션 데이터를 활용하여 악성 활동을 효과적으로 탐지할 수 있는 지도 학습 기반 분류 모델 개발의 가능성을 입증한다.
시사점
본 연구는 온체인 트랜잭션 데이터를 기반으로 한 지도 학습 분류 모델이 블록체인 보안 및 자금세탁방지(AML) 분야에서 실질적으로 활용될 수 있음을 시사한다. 특히, 악성 주소의 조기 탐지를 통해 피싱 및 사기와 같은 범죄 활동에 대한 대응력을 강화하고, 거래소 및 지갑 서비스의 리스크 관리 체계를 고도화하는 데 직접적인 기여를 할 수 있다.
인사이트
AI 빅데이터 마케터 관점에서 본 논문의 ‘온체인 데이터 기반 지도 학습을 통한 주소 분류’ 접근 방식은 WEB3 CRM의 **고객 분류(Segmentation)**에 매우 중요한 통찰을 제공한다. 제 연구 목표인 듄 애널리틱스(Dune Analytics)에서 수집한 USDC 스테이블 코인 트랜잭션 데이터를 활용한 고객 분류 모델 개발 시, 이 논문에서처럼 ‘정의된 기준(예: 악성/정상)’에 따라 고객 지갑을 분류하는 ‘지도 학습’ 개념을 적용할 수 있다.
예를 들어, USDC 트랜잭션 데이터에서 고객의 ‘활동 빈도’, ‘거래 금액’, ‘거래 시간 간격’, ‘상호작용한 프로토콜 유형’ 등을 피처(Feature)로 추출하고, 이를 기반으로 고객의 ‘가치 등급(고가치/중가치/저가치)’, ‘충성도(충성 고객/이탈 가능 고객)’, ‘제품 선호도(DeFi 사용자/NFT 투자자)’ 등 마케팅 목적에 맞는 라벨을 부여하여 지도 학습 모델을 훈련할 수 있다. 이는 WEB2 CRM에서 고객의 구매 이력이나 행동 데이터를 기반으로 고객 가치를 분류하는 RFM 분석의 확장 또는 타겟 고객 분류와 유사하다.
특히, 본 연구에서 Random Forest와 XGBoost가 우수한 성능을 보였다는 점은, 고객 분류 모델 개발 시 이들 알고리즘이 효과적인 선택지가 될 수 있음을 시사한다. 이들 모델은 **피처 중요도(Feature Importance)**를 제공하여, 마케터가 **’왜 이 고객이 특정 세그먼트에 속하는지’**에 대한 해석 가능한 인사이트를 얻을 수 있게 한다. 이는 개인화된 마케팅 전략 수립 시 고객 행동의 핵심 동인을 파악하고, 퍼포먼스 마케팅 캠페인의 효율성을 높이는 데 결정적인 역할을 할 것이다. 궁극적으로 본 논문의 접근 방식은 WEB3 온체인 데이터를 활용하여 고객을 세분화하고, 특정 행동에 대한 미래 예측 기반의 CRM 전략을 수립하는 데 강력한 기반이 된다.