CEAT: 앙상블 머신러닝 알고리즘을 활용한 이더리움 주소의 거래 행동 분류 리뷰

이더리움 지갑 주소의 거래 이력 데이터만으로 해당 주소가 거래소, 피싱/스캠, ICO 지갑 등 어떤 유형에 속하는지, XGBoost와 같은 앙상블 머신러닝 모델을 통해 높은 정확도로 자동 분류하는 방법론을 제시한다.


논문 요약

  • 논문 제목: CEAT: Categorising Ethereum Addresses’ Transaction Behaviour with Ensemble Machine Learning Algorithms
  • 저자: Maria A. Vensuslaus 외
  • 게재 학술지: Inventions (MDPI)
  • 발행 연도: 2023
  • 핵심 요약: 블록체인의 익명성을 넘어 사용자의 유형을 식별하기 위해, Etherscan에 라벨링된 4,371개의 이더리움 주소와 그 거래 데이터를 학습 데이터로 사용했다. 각 주소의 거래 횟수, ETH 송수신량, 가스비 패턴 등 다양한 특징을 추출하여 XGBoost, 랜덤포레스트 등 여러 앙상블 머신러닝 분류 모델의 성능을 비교했다. 그 결과, XGBoost 모델이 약 75%의 가장 높은 정확도를 기록하며, 온체인 행동만으로 주소의 유형을 효과적으로 분류할 수 있음을 실험적으로 증명했다.

연구 배경

블록체인 위의 모든 지갑은 0x...로 시작하는 익명의 가면을 쓰고 있다. 하지만 그들이 남기는 거래의 발자국은 결코 거짓말을 하지 않는다. 이 연구는 머신러닝이라는 최첨단 프로파일링 기술을 통해, 익명의 가면 뒤에 숨겨진 지갑의 진짜 정체를 밝혀내고자 한다.

블록체인 기술의 핵심적인 특징 중 하나는 투명성과 **익명성(엄밀히는 가명성, Pseudonymity)**의 양면성이다. 모든 거래 기록은 누구나 볼 수 있도록 투명하게 공개되지만, 그 거래의 주체인 지갑 주소는 현실 세계의 누구와도 직접적으로 연결되지 않는다. 이러한 특성은 프라이버시를 보호하는 순기능도 있지만, 동시에 자금 세탁, 피싱, 사기 등 불법적인 활동의 온상이 되기도 한다.

따라서 블록체인 생태계의 건전한 성장을 위해서는 익명의 주소들을 유형별로 분류하고 이해하는 것이 매우 중요하다.

  • 규제 및 보안 관점: 사기(Scam), 피싱(Phishing), 해킹과 관련된 주소를 식별하여 투자자 피해를 예방하고 자금세탁방지(AML)에 활용해야 한다.
  • 비즈니스 및 마케팅 관점: 중앙화 거래소(CEX), 탈중앙화 거래소(DEX) 사용자, NFT 컬렉터, DeFi 고래(Whale) 등 고가치 고객 유형을 식별하여 맞춤형 서비스를 제공해야 한다.

기존에는 Etherscan과 같은 블록체인 탐색기나 Nansen과 같은 온체인 분석 플랫폼의 전문가들이 잘 알려진 주소에 수동으로 라벨을 부여하는 방식에 크게 의존해왔다. 하지만 이 방식은 확장성이 떨어지고, 대다수의 알려지지 않은 주소들을 분석하는 데 한계가 있다.

본 연구는 이러한 한계를 극복하기 위해, 순수한 온체인 거래 데이터와 **머신러닝(Machine Learning)**을 활용하여, 대규모의 지갑 주소들을 자동으로 분류하는 방법론을 제안하고 그 가능성을 탐구한다.


해결하려는 문제

수동 라벨링의 한계를 넘어, 이더리움 지갑 주소의 순수 거래 데이터만으로 해당 주소의 유형(거래소, ICO, 피싱 등)을 자동으로 식별하는 머신러닝 모델을 개발하고, 그 가능성과 정확도를 검증한다.

블록체인 위의 모든 지갑은 고유한 행동 패턴을 남긴다.

  • 거래소(CEX)의 입금 주소: 수많은 사용자로부터 소액의 입금을 받은 뒤, 이를 모아 하나의 거대한 콜드 월렛으로 전송하는 패턴을 보인다.
  • 피싱(Phishing) 주소: 불특정 다수로부터 자산을 탈취한 뒤, 짧은 시간 안에 믹서(Mixer)나 다른 거래소로 자금을 세탁하려는 패턴을 보인다.
  • 개인 투자자: 거래 빈도가 상대적으로 낮고, 특정 DeFi 프로토콜이나 NFT 마켓플레이스와 주로 상호작용하는 패턴을 보인다.

이 연구가 해결하고자 하는 핵심 문제는, 과연 머신러닝 모델이 이러한 미묘한 행동 패턴의 차이를 학습하여, 지갑 주소의 유형을 정확하게 구별해낼 수 있는가이다. 즉, “이 지갑 주소의 거래 내역을 보니, 이것은 거래소 주소일 확률이 80%이다”와 같이, 데이터 기반으로 주소의 정체를 자동으로 분류하는 시스템을 구축하는 것을 목표로 한다. 이는 블록체인의 익명성을 기술적으로 어느 정도까지 극복할 수 있는지에 대한 중요한 실험이기도 하다.


연구 모형

라벨링된 이더리움 주소 데이터셋을 구축하고, 각 주소의 거래 이력으로부터 통계적, 네트워크적 특징을 추출한 뒤, XGBoost 등 다양한 앙상블 분류 모델을 학습시켜 최적의 주소 분류 모델을 찾는다.

본 연구는 주소 유형을 분류하기 위해, 지도학습(Supervised Learning) 기반의 다음과 같은 표준적인 머신러닝 파이프라인을 따랐다.

  1. 데이터 수집 및 라벨링: Etherscan.io에서 이미 ‘거래소’, ‘ICO 지갑’, ‘피싱’ 등으로 라벨링된 주소 목록을 수집한다. 이 주소들과 그들의 거래 기록이 모델을 학습시키기 위한 ‘정답 데이터’가 된다.
  2. 특징 공학 (Feature Engineering): 이 연구의 핵심적인 부분이다. 각 지갑 주소의 전체 거래 이력으로부터, 해당 주소의 행동 특성을 나타내는 수십 개의 정량적 변수(특징)를 추출한다. 예를 들어, 총 거래 횟수, 평균 거래 금액, 거래한 상대방 주소의 수, 지갑의 나이 등을 계산한다.
  3. 모델 학습 (Model Training): 2단계에서 생성된 특징 데이터를 입력(X)으로, 1단계의 주소 유형 라벨을 정답(Y)으로 하여 다양한 머신러닝 분류 모델을 학습시킨다. 특히, 높은 성능으로 널리 알려진 XGBoost, 랜덤포레스트, AdaBoost와 같은 앙상블 모델들을 주로 사용한다.
  4. 성능 비교 및 평가: 10-겹 교차검증(10-fold Cross-validation)과 같은 엄격한 평가 방법을 사용하여, 각 모델이 얼마나 정확하게 주소 유형을 분류하는지 성능(정확도, F1-Score 등)을 비교하고, 가장 우수한 모델을 최종적으로 선정한다.

데이터 설명

Etherscan에서 라벨링된 4,371개의 이더리움 주소와 이들의 거래 데이터를 활용했으며, 이는 라벨이 존재하는 정형화된 온체인(On-chain) 데이터이다.

  • 출처: 본 연구는 Etherscan.io에서 공개적으로 제공하는 주소 라벨 정보를 기반으로 한다. 해당 주소들의 실제 거래 데이터는 이더리움 블록체인에서 직접 추출했다. 따라서 이는 온체인(On-chain) 데이터에 해당한다.
  • 수집 방법: 연구진은 Etherscan 웹사이트를 스크레이핑하여 라벨링된 주소 4,371개를 수집했다. 이후, 이 주소 목록을 사용하여 이더리움 노드나 데이터 인덱싱 서비스(예: Google BigQuery)를 통해 각 주소와 관련된 모든 거래 내역을 추출했다.
  • 데이터 변수 설명: 본 연구는 온체인 데이터를 정교하게 가공하여, 각 지갑 주소의 행동 특성을 나타내는 다양한 특징 변수들을 생성했다.
    • 종속 변수 (Target Variable):
      • Address_Category: Etherscan에서 정의된 주소의 유형. (예: Exchange, Token Contract, ICO Wallet, Mining Pool, Phishing/Scam 등 총 9개 카테고리)
    • 독립 변수 (Input Features):
      • 기본 통계 특징: 수신/송신 트랜잭션 수, 총 수신/송신 ETH 금액, 지갑의 최종 잔액, 거래한 고유 주소 수(Degree).
      • 시간적 특징: 지갑의 나이(생성 후 경과 시간), 첫 거래와 마지막 거래 사이의 기간, 평균 트랜잭션 간 시간 간격.
      • 가스 관련 특징: 평균 가스 가격, 평균 가스 한도, 총 가스비 지출액.
      • 계약 관련 특징: 생성한 스마트 컨트랙트 수, ERC20/ERC721 토큰 거래 여부 및 횟수.

데이터 분석

다양한 머신러닝 분류기를 학습하고 10-겹 교차검증으로 성능을 비교한 결과, 모든 모델이 70% 이상의 높은 정확도를 보였으며, 특히 XGBoost 모델이 약 75%의 정확도로 가장 우수한 성능을 나타냈다.

본 연구의 데이터 분석은 어떤 머신러닝 알고리즘이 온체인 주소 분류 문제에 가장 적합한지를 가리기 위한 ‘성능 경쟁’의 형태로 진행되었다. 로지스틱 회귀, SVM, 의사결정나무, 랜덤포레스트, AdaBoost, XGBoost 등 다양한 분류 모델들이 동일한 특징 데이터셋을 사용하여 학습되고, 그 성능이 10-겹 교차검증을 통해 객관적으로 평가되었다.

분석 결과, 모든 머신러닝 모델들이 단순히 추측하는 것보다 훨씬 높은, 70% 이상의 준수한 분류 정확도를 보였다. 이는 온체인 거래 데이터 속에 주소의 유형을 구별할 수 있는 유의미한 패턴이 존재함을 의미한다.

그 중에서도 특히, 그래디언트 부스팅 앙상블 기법의 일종인 XGBoost가 평균 75%의 정확도를 기록하며 가장 뛰어난 성능을 보였다. 이는 XGBoost가 다차원의 정형 데이터 속에서 변수 간의 복잡한 상호작용을 학습하는 데 매우 효과적인 알고리즘임을 다시 한번 증명한 결과이다.


핵심 결과

이더리움 지갑 주소의 거래 행동 데이터는 해당 주소의 유형을 식별할 수 있는 충분한 정보를 담고 있으며, 특히 XGBoost와 같은 그래디언트 부스팅 앙상블 모델이 이러한 패턴을 가장 효과적으로 학습하여 분류할 수 있음을 증명했다.

이 연구의 핵심 결과는 온체인 데이터만으로, 머신러닝을 통해 익명의 지갑 주소를 높은 정확도로 자동 분류하는 것이 가능하다는 것을 명확하게 입증했다는 점이다.

이는 블록체인의 익명성이 완벽하지 않으며, ‘행동의 흔적’을 통해 그 주체의 성격을 충분히 유추할 수 있음을 시사한다. 예를 들어, 이 모델은 수많은 주소들 중에서 불법적인 ‘피싱’이나 ‘스캠’과 관련된 주소를 70% 이상의 정확도로 식별해낼 수 있었다.

이러한 결과는 더 이상 소수의 전문가에 의한 수동적인 라벨링에만 의존하지 않고, 대규모의 이더리움 생태계 전체를 대상으로 확장 가능한 자동화된 주소 분류 시스템을 구축할 수 있는 기술적 토대를 마련했다는 점에서 매우 큰 의미를 가진다.


시사점

온체인 데이터에 기반한 자동화된 주소 분류 기술은 금융 규제 당국의 AML/KYC 업무를 효율화하고, 기업의 CRM 및 리스크 관리를 고도화하는 데 핵심적으로 활용될 수 있으며, 이는 블록체인의 ‘익명성’이 절대적이지 않음을 보여준다.

이 연구 결과는 Web3 생태계의 다양한 참여자들에게 중요한 시사점을 제공한다.

  • 금융 규제 기관: 자금세탁방지(AML) 및 고객확인제도(KYC)를 온체인 상에서 구현하는 데 이 기술을 활용할 수 있다. 의심스러운 거래 패턴을 보이는 주소를 자동으로 식별하고 모니터링하여 규제 효율성을 높일 수 있다.
  • Web3 기업 (dApp, 거래소 등): 고객 관계 관리(CRM)와 리스크 관리에 이 기술을 적용할 수 있다. 신규 사용자의 지갑 활동을 분석하여 ‘고래 투자자’나 ‘DeFi 전문가’와 같은 고가치 고객을 식별하거나, 반대로 ‘사기꾼’이나 ‘어뷰저’의 지갑을 식별하여 서비스 이용을 제한하는 등 선제적인 대응이 가능해진다.
  • 일반 사용자: 자신의 온체인 활동이 자신의 성향과 유형을 드러내는 ‘디지털 족적’임을 인지하고, 프라이버시 보호에 대한 새로운 인식을 가질 필요가 있다.

인사이트

당신의 지갑은 당신이 누구인지 말해준다.

이 논문은 Web3 시대의 CRM이 나아가야 할 방향을 명확하게 보여준다. 더 이상 고객의 이름이나 이메일 주소를 알 필요가 없다. 우리는 이제 고객의 ‘지갑 주소’만으로 그가 어떤 사람인지, 무엇에 관심이 있는지, 우리에게 얼마나 가치 있는 고객이 될 수 있는지를 데이터 기반으로 파악할 수 있게 되었다. 지갑 주소는 Web3 시대의 가장 강력한 CRM 식별자이다.

  • 페르소나 예시: “Web3 리스크 관리자, 리스크 레귤레이터 레이(Ray)”
    • 특징: 레이는 대형 암호화폐 거래소(CEX)의 컴플라이언스 팀에서 일한다. 그의 임무는 자사 플랫폼으로 입금되는 자금이 불법적인 출처(해킹, 스캠, 다크넷 마켓 등)와 연관되지 않았는지 실시간으로 모니터링하는 것이다. 그는 이 논문의 분류 모델을 활용하여, 자사 거래소로 USDC를 입금하는 새로운 지갑 주소의 과거 온체인 활동을 실시간으로 분석하고, **”이 주소는 과거 Etherscan에 등록된 ‘피싱/스캠’ 유형의 지갑들과 85%의 행동적 유사도를 보입니다”**라는 위험 점수를 계산하여 해당 자금을 즉시 동결하거나 추가 조사를 진행한다.
    • 데이터 기반 행동: 의심스러운 주소가 탐지되면, 해당 주소의 모든 과거 트랜잭션을 분석하여 자금의 출처와 흐름을 추적하고, 위험도를 정량화하여 보고서를 작성.
  • 실질적인 마케팅 액션 제안:
    1. 실시간 리스크 스코어링 서비스 제공: 이 논문의 분류 모델을 기반으로, 특정 지갑 주소가 불법/위험 활동과 연관될 확률을 계산해주는 API 기반의 ‘지갑 신용/위험 평가’ 서비스를 개발한다. 이 서비스를 다른 DeFi 프로토콜이나 거래소에 B2B 솔루션으로 판매하여, 생태계 전체의 안정성을 높이고 새로운 수익을 창출한다.
    2. 온체인 CRM을 위한 잠재고객 자동 식별: 이 분류기를 활용하여, 라벨링되지 않은 수많은 지갑들을 대상으로 ‘DeFi 고래’, ‘NFT 고래’ 등 고가치 고객 유형과 유사한 행동을 보이는 지갑들을 자동으로 식별한다. 이 잠재적 VIP 리스트를 대상으로 타겟 에어드랍이나 개인화된 마케팅 캠페인을 진행하여 신규 고객을 효과적으로 유치한다.
    3. 개인화된 보안 알림 서비스: 특정 사용자의 지갑이, 최근 유행하는 ‘피싱/스캠’ 지갑 유형과 유사한 스마트 컨트랙트와 상호작용하는 것이 감지되면, 해당 사용자에게 즉시 **”경고: 현재 상호작용 중인 주소는 스캠과 연관되었을 수 있으니 즉시 승인을 취소(Revoke)하십시오”**와 같은 선제적인 보안 알림을 보내 사용자의 자산을 보호하고 서비스에 대한 신뢰를 높인다.