이더리움 지갑 주소의 거래 이력 데이터만으로 해당 주소가 거래소, 피싱/스캠, ICO 지갑 등 어떤 유형에 속하는지, XGBoost와 같은 앙상블 머신러닝 모델을 통해 높은 정확도로 자동 분류하는 방법론을 제시한다.
논문 요약
- 논문 제목: CEAT: Categorising Ethereum Addresses’ Transaction Behaviour with Ensemble Machine Learning Algorithms
- 저자: Maria A. Vensuslaus 외
- 게재 학술지: Inventions (MDPI)
- 발행 연도: 2023
- 핵심 요약: 블록체인의 익명성을 넘어 사용자의 유형을 식별하기 위해, Etherscan에 라벨링된 4,371개의 이더리움 주소와 그 거래 데이터를 학습 데이터로 사용했다. 각 주소의 거래 횟수, ETH 송수신량, 가스비 패턴 등 다양한 특징을 추출하여 XGBoost, 랜덤포레스트 등 여러 앙상블 머신러닝 분류 모델의 성능을 비교했다. 그 결과, XGBoost 모델이 약 75%의 가장 높은 정확도를 기록하며, 온체인 행동만으로 주소의 유형을 효과적으로 분류할 수 있음을 실험적으로 증명했다.
연구 배경
블록체인 위의 모든 지갑은
0x...
로 시작하는 익명의 가면을 쓰고 있다. 하지만 그들이 남기는 거래의 발자국은 결코 거짓말을 하지 않는다. 이 연구는 머신러닝이라는 최첨단 프로파일링 기술을 통해, 익명의 가면 뒤에 숨겨진 지갑의 진짜 정체를 밝혀내고자 한다.
블록체인 기술의 핵심적인 특징 중 하나는 투명성과 **익명성(엄밀히는 가명성, Pseudonymity)**의 양면성이다. 모든 거래 기록은 누구나 볼 수 있도록 투명하게 공개되지만, 그 거래의 주체인 지갑 주소는 현실 세계의 누구와도 직접적으로 연결되지 않는다. 이러한 특성은 프라이버시를 보호하는 순기능도 있지만, 동시에 자금 세탁, 피싱, 사기 등 불법적인 활동의 온상이 되기도 한다.
따라서 블록체인 생태계의 건전한 성장을 위해서는 익명의 주소들을 유형별로 분류하고 이해하는 것이 매우 중요하다.
- 규제 및 보안 관점: 사기(Scam), 피싱(Phishing), 해킹과 관련된 주소를 식별하여 투자자 피해를 예방하고 자금세탁방지(AML)에 활용해야 한다.
- 비즈니스 및 마케팅 관점: 중앙화 거래소(CEX), 탈중앙화 거래소(DEX) 사용자, NFT 컬렉터, DeFi 고래(Whale) 등 고가치 고객 유형을 식별하여 맞춤형 서비스를 제공해야 한다.
기존에는 Etherscan과 같은 블록체인 탐색기나 Nansen과 같은 온체인 분석 플랫폼의 전문가들이 잘 알려진 주소에 수동으로 라벨을 부여하는 방식에 크게 의존해왔다. 하지만 이 방식은 확장성이 떨어지고, 대다수의 알려지지 않은 주소들을 분석하는 데 한계가 있다.
본 연구는 이러한 한계를 극복하기 위해, 순수한 온체인 거래 데이터와 **머신러닝(Machine Learning)**을 활용하여, 대규모의 지갑 주소들을 자동으로 분류하는 방법론을 제안하고 그 가능성을 탐구한다.
해결하려는 문제
수동 라벨링의 한계를 넘어, 이더리움 지갑 주소의 순수 거래 데이터만으로 해당 주소의 유형(거래소, ICO, 피싱 등)을 자동으로 식별하는 머신러닝 모델을 개발하고, 그 가능성과 정확도를 검증한다.
블록체인 위의 모든 지갑은 고유한 행동 패턴을 남긴다.
- 거래소(CEX)의 입금 주소: 수많은 사용자로부터 소액의 입금을 받은 뒤, 이를 모아 하나의 거대한 콜드 월렛으로 전송하는 패턴을 보인다.
- 피싱(Phishing) 주소: 불특정 다수로부터 자산을 탈취한 뒤, 짧은 시간 안에 믹서(Mixer)나 다른 거래소로 자금을 세탁하려는 패턴을 보인다.
- 개인 투자자: 거래 빈도가 상대적으로 낮고, 특정 DeFi 프로토콜이나 NFT 마켓플레이스와 주로 상호작용하는 패턴을 보인다.
이 연구가 해결하고자 하는 핵심 문제는, 과연 머신러닝 모델이 이러한 미묘한 행동 패턴의 차이를 학습하여, 지갑 주소의 유형을 정확하게 구별해낼 수 있는가이다. 즉, “이 지갑 주소의 거래 내역을 보니, 이것은 거래소 주소일 확률이 80%이다”와 같이, 데이터 기반으로 주소의 정체를 자동으로 분류하는 시스템을 구축하는 것을 목표로 한다. 이는 블록체인의 익명성을 기술적으로 어느 정도까지 극복할 수 있는지에 대한 중요한 실험이기도 하다.
연구 모형
라벨링된 이더리움 주소 데이터셋을 구축하고, 각 주소의 거래 이력으로부터 통계적, 네트워크적 특징을 추출한 뒤, XGBoost 등 다양한 앙상블 분류 모델을 학습시켜 최적의 주소 분류 모델을 찾는다.
본 연구는 주소 유형을 분류하기 위해, 지도학습(Supervised Learning) 기반의 다음과 같은 표준적인 머신러닝 파이프라인을 따랐다.
- 데이터 수집 및 라벨링: Etherscan.io에서 이미 ‘거래소’, ‘ICO 지갑’, ‘피싱’ 등으로 라벨링된 주소 목록을 수집한다. 이 주소들과 그들의 거래 기록이 모델을 학습시키기 위한 ‘정답 데이터’가 된다.
- 특징 공학 (Feature Engineering): 이 연구의 핵심적인 부분이다. 각 지갑 주소의 전체 거래 이력으로부터, 해당 주소의 행동 특성을 나타내는 수십 개의 정량적 변수(특징)를 추출한다. 예를 들어,
총 거래 횟수
,평균 거래 금액
,거래한 상대방 주소의 수
,지갑의 나이
등을 계산한다. - 모델 학습 (Model Training):
2단계
에서 생성된 특징 데이터를 입력(X)으로,1단계
의 주소 유형 라벨을 정답(Y)으로 하여 다양한 머신러닝 분류 모델을 학습시킨다. 특히, 높은 성능으로 널리 알려진 XGBoost, 랜덤포레스트, AdaBoost와 같은 앙상블 모델들을 주로 사용한다. - 성능 비교 및 평가: 10-겹 교차검증(10-fold Cross-validation)과 같은 엄격한 평가 방법을 사용하여, 각 모델이 얼마나 정확하게 주소 유형을 분류하는지 성능(정확도, F1-Score 등)을 비교하고, 가장 우수한 모델을 최종적으로 선정한다.
데이터 설명
Etherscan에서 라벨링된 4,371개의 이더리움 주소와 이들의 거래 데이터를 활용했으며, 이는 라벨이 존재하는 정형화된 온체인(On-chain) 데이터이다.
- 출처: 본 연구는 Etherscan.io에서 공개적으로 제공하는 주소 라벨 정보를 기반으로 한다. 해당 주소들의 실제 거래 데이터는 이더리움 블록체인에서 직접 추출했다. 따라서 이는 온체인(On-chain) 데이터에 해당한다.
- 수집 방법: 연구진은 Etherscan 웹사이트를 스크레이핑하여 라벨링된 주소 4,371개를 수집했다. 이후, 이 주소 목록을 사용하여 이더리움 노드나 데이터 인덱싱 서비스(예: Google BigQuery)를 통해 각 주소와 관련된 모든 거래 내역을 추출했다.
- 데이터 변수 설명: 본 연구는 온체인 데이터를 정교하게 가공하여, 각 지갑 주소의 행동 특성을 나타내는 다양한 특징 변수들을 생성했다.
- 종속 변수 (Target Variable):
Address_Category
: Etherscan에서 정의된 주소의 유형. (예:Exchange
,Token Contract
,ICO Wallet
,Mining Pool
,Phishing/Scam
등 총 9개 카테고리)
- 독립 변수 (Input Features):
- 기본 통계 특징:
수신/송신 트랜잭션 수
,총 수신/송신 ETH 금액
,지갑의 최종 잔액
,거래한 고유 주소 수(Degree)
. - 시간적 특징:
지갑의 나이(생성 후 경과 시간)
,첫 거래와 마지막 거래 사이의 기간
,평균 트랜잭션 간 시간 간격
. - 가스 관련 특징:
평균 가스 가격
,평균 가스 한도
,총 가스비 지출액
. - 계약 관련 특징:
생성한 스마트 컨트랙트 수
,ERC20/ERC721 토큰 거래 여부 및 횟수
.
- 기본 통계 특징:
- 종속 변수 (Target Variable):
데이터 분석
다양한 머신러닝 분류기를 학습하고 10-겹 교차검증으로 성능을 비교한 결과, 모든 모델이 70% 이상의 높은 정확도를 보였으며, 특히 XGBoost 모델이 약 75%의 정확도로 가장 우수한 성능을 나타냈다.
본 연구의 데이터 분석은 어떤 머신러닝 알고리즘이 온체인 주소 분류 문제에 가장 적합한지를 가리기 위한 ‘성능 경쟁’의 형태로 진행되었다. 로지스틱 회귀, SVM, 의사결정나무, 랜덤포레스트, AdaBoost, XGBoost 등 다양한 분류 모델들이 동일한 특징 데이터셋을 사용하여 학습되고, 그 성능이 10-겹 교차검증을 통해 객관적으로 평가되었다.
분석 결과, 모든 머신러닝 모델들이 단순히 추측하는 것보다 훨씬 높은, 70% 이상의 준수한 분류 정확도를 보였다. 이는 온체인 거래 데이터 속에 주소의 유형을 구별할 수 있는 유의미한 패턴이 존재함을 의미한다.
그 중에서도 특히, 그래디언트 부스팅 앙상블 기법의 일종인 XGBoost가 평균 75%의 정확도를 기록하며 가장 뛰어난 성능을 보였다. 이는 XGBoost가 다차원의 정형 데이터 속에서 변수 간의 복잡한 상호작용을 학습하는 데 매우 효과적인 알고리즘임을 다시 한번 증명한 결과이다.
핵심 결과
이더리움 지갑 주소의 거래 행동 데이터는 해당 주소의 유형을 식별할 수 있는 충분한 정보를 담고 있으며, 특히 XGBoost와 같은 그래디언트 부스팅 앙상블 모델이 이러한 패턴을 가장 효과적으로 학습하여 분류할 수 있음을 증명했다.
이 연구의 핵심 결과는 온체인 데이터만으로, 머신러닝을 통해 익명의 지갑 주소를 높은 정확도로 자동 분류하는 것이 가능하다는 것을 명확하게 입증했다는 점이다.
이는 블록체인의 익명성이 완벽하지 않으며, ‘행동의 흔적’을 통해 그 주체의 성격을 충분히 유추할 수 있음을 시사한다. 예를 들어, 이 모델은 수많은 주소들 중에서 불법적인 ‘피싱’이나 ‘스캠’과 관련된 주소를 70% 이상의 정확도로 식별해낼 수 있었다.
이러한 결과는 더 이상 소수의 전문가에 의한 수동적인 라벨링에만 의존하지 않고, 대규모의 이더리움 생태계 전체를 대상으로 확장 가능한 자동화된 주소 분류 시스템을 구축할 수 있는 기술적 토대를 마련했다는 점에서 매우 큰 의미를 가진다.
시사점
온체인 데이터에 기반한 자동화된 주소 분류 기술은 금융 규제 당국의 AML/KYC 업무를 효율화하고, 기업의 CRM 및 리스크 관리를 고도화하는 데 핵심적으로 활용될 수 있으며, 이는 블록체인의 ‘익명성’이 절대적이지 않음을 보여준다.
이 연구 결과는 Web3 생태계의 다양한 참여자들에게 중요한 시사점을 제공한다.
- 금융 규제 기관: 자금세탁방지(AML) 및 고객확인제도(KYC)를 온체인 상에서 구현하는 데 이 기술을 활용할 수 있다. 의심스러운 거래 패턴을 보이는 주소를 자동으로 식별하고 모니터링하여 규제 효율성을 높일 수 있다.
- Web3 기업 (dApp, 거래소 등): 고객 관계 관리(CRM)와 리스크 관리에 이 기술을 적용할 수 있다. 신규 사용자의 지갑 활동을 분석하여 ‘고래 투자자’나 ‘DeFi 전문가’와 같은 고가치 고객을 식별하거나, 반대로 ‘사기꾼’이나 ‘어뷰저’의 지갑을 식별하여 서비스 이용을 제한하는 등 선제적인 대응이 가능해진다.
- 일반 사용자: 자신의 온체인 활동이 자신의 성향과 유형을 드러내는 ‘디지털 족적’임을 인지하고, 프라이버시 보호에 대한 새로운 인식을 가질 필요가 있다.
인사이트
당신의 지갑은 당신이 누구인지 말해준다.
이 논문은 Web3 시대의 CRM이 나아가야 할 방향을 명확하게 보여준다. 더 이상 고객의 이름이나 이메일 주소를 알 필요가 없다. 우리는 이제 고객의 ‘지갑 주소’만으로 그가 어떤 사람인지, 무엇에 관심이 있는지, 우리에게 얼마나 가치 있는 고객이 될 수 있는지를 데이터 기반으로 파악할 수 있게 되었다. 지갑 주소는 Web3 시대의 가장 강력한 CRM 식별자이다.
- 페르소나 예시: “Web3 리스크 관리자, 리스크 레귤레이터 레이(Ray)”
- 특징: 레이는 대형 암호화폐 거래소(CEX)의 컴플라이언스 팀에서 일한다. 그의 임무는 자사 플랫폼으로 입금되는 자금이 불법적인 출처(해킹, 스캠, 다크넷 마켓 등)와 연관되지 않았는지 실시간으로 모니터링하는 것이다. 그는 이 논문의 분류 모델을 활용하여, 자사 거래소로 USDC를 입금하는 새로운 지갑 주소의 과거 온체인 활동을 실시간으로 분석하고, **”이 주소는 과거 Etherscan에 등록된 ‘피싱/스캠’ 유형의 지갑들과 85%의 행동적 유사도를 보입니다”**라는 위험 점수를 계산하여 해당 자금을 즉시 동결하거나 추가 조사를 진행한다.
- 데이터 기반 행동: 의심스러운 주소가 탐지되면, 해당 주소의 모든 과거 트랜잭션을 분석하여 자금의 출처와 흐름을 추적하고, 위험도를 정량화하여 보고서를 작성.
- 실질적인 마케팅 액션 제안:
- 실시간 리스크 스코어링 서비스 제공: 이 논문의 분류 모델을 기반으로, 특정 지갑 주소가 불법/위험 활동과 연관될 확률을 계산해주는 API 기반의 ‘지갑 신용/위험 평가’ 서비스를 개발한다. 이 서비스를 다른 DeFi 프로토콜이나 거래소에 B2B 솔루션으로 판매하여, 생태계 전체의 안정성을 높이고 새로운 수익을 창출한다.
- 온체인 CRM을 위한 잠재고객 자동 식별: 이 분류기를 활용하여, 라벨링되지 않은 수많은 지갑들을 대상으로 ‘DeFi 고래’, ‘NFT 고래’ 등 고가치 고객 유형과 유사한 행동을 보이는 지갑들을 자동으로 식별한다. 이 잠재적 VIP 리스트를 대상으로 타겟 에어드랍이나 개인화된 마케팅 캠페인을 진행하여 신규 고객을 효과적으로 유치한다.
- 개인화된 보안 알림 서비스: 특정 사용자의 지갑이, 최근 유행하는 ‘피싱/스캠’ 지갑 유형과 유사한 스마트 컨트랙트와 상호작용하는 것이 감지되면, 해당 사용자에게 즉시 **”경고: 현재 상호작용 중인 주소는 스캠과 연관되었을 수 있으니 즉시 승인을 취소(Revoke)하십시오”**와 같은 선제적인 보안 알림을 보내 사용자의 자산을 보호하고 서비스에 대한 신뢰를 높인다.