국내 가상자산 거래소의 이더리움 지갑주소 식별을 위한 머신러닝 알고리즘 성능 비교 리뷰

국내 암호화폐 거래소 소유로 알려진 이더리움 지갑들의 거래 패턴을 머신러닝(로지스틱 회귀, SVM)으로 학습시켜, 알려지지 않은 지갑이 거래소 소유인지 여부를 자동으로 분류하는 방법론을 제시하고 그 성능을 비교한다.


논문 요약

  • 논문 제목: 국내 가상자산 거래소의 이더리움 지갑주소 식별을 위한 머신러닝 알고리즘 성능 비교
  • 저자: 신용희 외
  • 게재 학술지: 한국통신학회논문지
  • 발행 연도: 2022
  • 핵심 요약: 국내 4대 가상자산 거래소(업비트, 빗썸, 코인원, 코빗) 소유로 식별된 이더리움 지갑 주소와 일반 주소의 온체인 거래 데이터를 수집했다. 각 주소의 잔액, 거래량, 거래 빈도, 거래 상대방 수 등 다양한 특징을 추출하여, 로지스틱 회귀와 서포트 벡터 머신(SVM) 등 머신러닝 분류 모델의 성능을 비교했다. 실험 결과, 머신러닝 기법들이 거래소 소유 지갑을 유의미한 수준으로 식별할 수 있음을 보였으며, 데이터 불균형 문제 등 현실적인 한계 또한 확인했다.

연구 배경

블록체인 위 수많은 익명의 지갑들 중, 어떤 것이 개인의 지갑이고, 어떤 것이 거대한 거래소의 지갑일까? 이 연구는 지갑들이 남긴 거래 데이터라는 ‘지문’을 분석하여, 머신러닝이라는 과학수사 기법으로 그 주체의 정체를 밝히려는 시도이다.

블록체인 기술의 핵심 특징 중 하나는 투명성이다. 모든 거래 기록은 누구나 검증할 수 있도록 공개된다. 하지만 거래의 주체인 지갑 주소는 현실의 신원과 연결되지 않는 **가명성(Pseudonymity)**을 가진다. 이러한 특성은 **가상자산 거래소(Crypto Exchange)**와 같은 주요 시장 참여자들의 활동을 분석하는 데 있어 중요한 도전 과제를 제기한다.

거래소는 고객의 자산을 보관하고, 입출금을 처리하며, 시장에 유동성을 공급하는 등 생태계의 ‘은행’과 같은 핵심적인 역할을 수행한다. 따라서 거래소 소유 지갑들의 자산 이동을 추적하고 분석하는 것은, 시장의 건전성을 파악하고, 유동성을 예측하며, 규제 당국의 감독 활동에 필수적이다.

문제는 거래소들이 보안과 운영상의 이유로 수백, 수천 개의 지갑을 사용하며, 이 모든 지갑이 공개적으로 ‘거래소 지갑’이라고 라벨링되어 있지는 않다는 점이다. 이에 본 연구는 **머신러닝(Machine Learning)**을 활용하여 이 문제를 해결하고자 한다. 거래소 지갑은 일반 개인 지갑과 뚜렷하게 구분되는 고유한 행동 패턴을 가질 것이라는 가설에서 출발한다. (예: 수많은 주소로부터 소액의 입금을 받고, 소수의 특정 주소로 거액을 이체하는 패턴). 이 연구는 이러한 행동 패턴을 데이터로 학습하여, 익명의 지갑이 거래소 소유일 확률을 자동으로 예측하는 모델을 개발하고, 그 성능을 검증한다.


해결하려는 문제

수많은 익명의 이더리움 지갑 주소 중에서, 어떤 것이 국내 가상자산 거래소 소유의 지갑인지 그들의 고유한 거래 패턴을 기반으로 자동으로 식별하고, 이 문제에 가장 적합한 머신러닝 알고리즘을 찾는다.

자금세탁방지(AML)를 위한 규제 기관, 시장의 흐름을 읽으려는 투자자, 그리고 경쟁사의 동향을 파악하려는 기업 모두에게 “이 지갑은 어느 거래소의 것인가?”라는 질문은 매우 중요하다. 기존에는 Etherscan과 같은 블록체인 탐색기에 공개적으로 라벨링된 정보나, 언론 보도 등을 통해 일부 주소를 파악하는 데 그쳤다. 이는 매우 제한적이고 수동적인 방법이다.

이 연구가 해결하고자 하는 핵심 문제는, 이러한 **’수동적 주소 식별의 한계’**를 극복하는 것이다. 즉, 온체인에 공개된 거래 데이터만을 활용하여, 알려지지 않은 지갑 주소에 대해 “이것은 거래소 지갑이다” 또는 “이것은 일반 사용자 지갑이다”를 자동으로 분류해내는 **머신러닝 기반의 ‘지갑 분류기(Wallet Classifier)’**를 만드는 것이다.

이를 위해, 연구진은 다음과 같은 구체적인 질문에 답하고자 한다.

  • 거래소 지갑과 일반 지갑은 거래 패턴에서 어떤 통계적 차이를 보이는가?
  • 이러한 차이를 나타내는 특징(Feature) 변수들은 무엇인가?
  • 어떤 머신러닝 알고리즘이 이 두 그룹을 가장 정확하게 분류하는가?

궁극적으로는 블록체인 분석의 자동화와 지능화를 통해, 시장 투명성을 높이고 다양한 응용 서비스의 기반을 마련하는 것을 목표로 한다.


연구 모형

알려진 국내 거래소 지갑과 일반 지갑의 거래 데이터로부터 통계적 특징을 추출하고, 이를 입력받아 거래소 지갑 여부를 예측하는 이진 분류 모델(로지스틱 회귀, SVM 등)을 구축하여 성능을 비교, 평가한다.

본 연구는 특정 지갑 주소가 ‘거래소 지갑’인지 여부를 판별하는 이진 분류(Binary Classification) 문제로 접근했으며, 다음과 같은 지도학습(Supervised Learning) 워크플로우를 따랐다.

  1. 데이터 수집 및 라벨링:
    • 국내 4대 거래소(업비트, 빗썸, 코인원, 코빗) 소유로 알려진 이더리움 지갑 주소들을 수집하여 ‘1’ (거래소 그룹)으로 라벨링한다.
    • 무작위로 추출한 일반 이더리움 지갑 주소들을 ‘0’ (일반 그룹)으로 라벨링하여, ‘정답’이 있는 학습 데이터셋을 구축한다.
  2. 특징 공학 (Feature Engineering):
    • 각 지갑 주소의 모든 거래 이력을 분석하여, 해당 지갑의 행동 특성을 나타내는 다양한 정량적 변수(특징)를 생성한다. (예: 총 거래 횟수, 평균 거래 금액, 거래한 상대방 주소의 수, 지갑의 최종 잔액 등)
  3. 분류 모델 학습 및 비교:
    • 2단계에서 생성된 특징 데이터를 입력(X)으로, 1단계의 라벨을 정답(Y)으로 하여 여러 종류의 머신러닝 분류 모델을 학습시킨다.
    • 전통적인 통계 모델인 **로지스틱 회귀(Logistic Regression)**와, 높은 분류 성능으로 알려진 서포트 벡터 머신(SVM) 등의 알고리즘을 사용하여 성능을 비교한다.
  4. 모델 성능 평가:
    • 학습에 사용되지 않은 테스트 데이터를 사용하여, 각 모델이 얼마나 정확하게 ‘거래소 지갑’을 식별해내는지 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score 등의 지표로 평가하고, 최적의 모델을 찾는다.

데이터 설명

국내 4대 가상자산 거래소(업비트, 빗썸, 코인원, 코빗) 소유로 알려진 이더리움 지갑과 일반 이더리움 지갑의 거래 데이터를 활용했으며, 이는 라벨이 존재하는 온체인(On-chain) 데이터이다.

  • 출처: 본 연구에서 사용된 데이터는 이더리움 블록체인의 공개 거래 기록과, Etherscan.io 및 각 거래소 공지사항 등에서 수집한 라벨 정보를 결합한 것이다. 이는 온체인(On-chain) 데이터를 기반으로 한 연구이다.
  • 수집 방법: 연구진은 공개된 자료를 통해 국내 4대 거래소 소유의 지갑 주소 목록을 확보했다. 이후, 이더리움 노드나 관련 API를 통해 해당 주소들과, 비교군인 일반 주소들의 거래 내역을 추출하여 데이터셋을 구축했다.
  • 데이터 변수 설명: 각 지갑 주소의 행동 패턴을 정량화하기 위해 다음과 같은 특징 변수들을 설계했다.
    • 종속 변수 (Target Variable):
      • is_exchange_wallet: 해당 지갑이 거래소 소유인지 여부 (1: 거래소 지갑, 0: 일반 지갑).
    • 독립 변수 (Input Features):
      • 잔고 관련 특징: 최종 ETH 잔액, 최대 ETH 잔액, 최소 ETH 잔액, 평균 ETH 잔액.
      • 거래량 관련 특징: 총 수신(In) ETH 양, 총 송신(Out) ETH 양, 평균 수신/송신 ETH 양.
      • 거래 빈도 관련 특징: 총 수신/송신 트랜잭션 수, 총 활성 거래일 수, 일 평균 트랜잭션 수.
      • 관계망 관련 특징: 거래한 고유한 상대방 주소의 수 (Degree), 지갑의 활성 기간(수명).

데이터 분석

로지스틱 회귀, SVM 등 여러 머신러닝 모델을 비교 평가한 결과, 모든 모델이 거래소 지갑을 식별하는 데 유의미한 성능을 보였으며, 특히 SVM이 미세하게나마 가장 안정적인 분류 성능을 나타냈다.

본 연구의 데이터 분석은 어떤 머신러닝 알고리즘이 거래소 지갑의 고유한 행동 패턴을 가장 잘 학습하는지 비교하는 데 초점을 맞췄다.

먼저, 수집된 데이터를 학습용과 테스트용으로 분리했다. 이 과정에서 ‘거래소 지갑’의 수가 ‘일반 지갑’에 비해 매우 적은 데이터 불균형(Data Imbalance) 문제가 있었으며, 이를 해결하기 위해 오버샘플링(Oversampling)이나 언더샘플링(Undersampling)과 같은 기법을 적용했다.

이후, 로지스틱 회귀와 SVM(선형 및 비선형 커널) 모델을 각각 학습시키고, 테스트 데이터에 대한 예측 성능을 비교했다. 분석 결과, 두 모델 모두 단순히 추측하는 것(50%)보다 훨씬 높은 정확도를 보이며, 온체인 행동 데이터만으로 거래소 지갑을 식별하는 것이 가능함을 입증했다. 모델 간의 성능 차이는 크지 않았으나, 비선형 관계를 더 잘 포착할 수 있는 비선형 커널을 사용한 SVM이 약간 더 우수하고 안정적인 성능을 보이는 경향이 나타났다.


핵심 결과

이더리움 지갑의 거래 빈도, 거래 규모, 거래 상대방 수 등과 같은 온체인 행동 데이터만으로도 해당 지갑이 거래소 소유인지, 일반 사용자 소유인지를 머신러닝을 통해 효과적으로 구별해낼 수 있다.

이 연구의 가장 중요한 결과는 온체인 상의 행동은 정체를 숨길 수 없다는 것을 다시 한번 데이터로 증명한 것이다. 비록 지갑 주소는 익명이지만, 그 주소가 남긴 거래의 ‘패턴’은 그 주체의 성격(거래소 vs. 개인)을 드러내는 충분한 정보를 담고 있었다.

머신러닝 모델은 수많은 데이터 속에서 거래소 지갑의 특징, 즉 ‘불특정 다수로부터의 소액 다빈도 입금’과 ‘소수의 특정 주소로의 거액 주기적 출금’과 같은 복합적인 패턴을 성공적으로 학습했다.

이는 블록체인 분석이 더 이상 일부 전문가의 수동적인 라벨링 작업에만 의존하지 않고, 머신러닝을 통해 대규모의 주소들을 자동으로, 그리고 확장 가능하게 분류할 수 있는 새로운 시대가 열렸음을 의미한다.


시사점

온체인 데이터 분석을 통한 주소 식별 기술은 자금세탁방지(AML) 등 금융 규제 준수 비용을 절감하고, 시장 참여자들에게 거래소의 자산 흐름에 대한 투명성을 제공하여 시장 건전성을 높이는 데 기여할 수 있다.

이 연구 결과는 Web3 생태계의 다양한 참여자들에게 다음과 같은 구체적인 시사점을 제공한다.

  • 규제 기관 및 법 집행 기관: 자금세탁방지(AML) 및 테러자금조달방지(CFT)를 위해, 의심스러운 자금 흐름이 어떤 거래소로 유입되는지를 자동으로 추적하고 모니터링하는 ‘레그테크(RegTech)’ 시스템을 구축하는 데 이 기술을 활용할 수 있다.
  • 온체인 데이터 분석 기업: Nansen, Arkham, 글래스노드와 같은 기업들은 자사의 주소 라벨링 시스템을 고도화하고 자동화하는 데 이 방법론을 적용하여, 더 빠르고 정확한 온체인 인텔리전스를 제공할 수 있다.
  • 일반 투자자: 이 기술을 활용한 분석 서비스를 통해, 주요 거래소들의 실시간 자산 보유량이나 입출금 현황을 파악하고, 이를 시장 심리를 판단하는 중요한 지표로 활용할 수 있다.

동시에, 이 연구는 블록체인의 익명성이 완벽하지 않으며, 행동 패턴 분석을 통해 특정 그룹을 식별할 수 있다는 점에서 프라이버시 보호에 대한 지속적인 사회적 논의가 필요함도 시사한다.


인사이트

모든 거래는 흔적을 남기고, 모든 흔적은 정체를 드러낸다.

이 논문은, 모든 행동 데이터가 잠재적인 ‘분류 기준’이 될 수 있음을 보여준다. 고객이 남긴 온체인 거래의 흔적은, 그들의 이름이나 주소를 몰라도 그들이 누구인지(어떤 유형인지)를 알려주는 강력한 시그널이다. 우리는 이 시그널을 해석하여, 익명의 지갑 뒤에 있는 잠재 고객에게 먼저 다가가 말을 걸 수 있다.

  • 페르소나 예시: “온체인 탐정, 체인널리스트 찰리(Chainalyst Charlie)”
    • 특징: 찰리는 블록체인 데이터 분석 회사에서 일하며, 해킹이나 사기 사건 발생 시 도난 자금의 흐름을 추적하는 전문가다. 그는 이 논문의 방법론을 활용하여, 해커의 지갑에서 빠져나간 자금이 어떤 익명의 중간 지갑들을 거쳐 최종적으로 어떤 중앙화 거래소(CEX)로 흘러 들어가는지 추적한다. 그의 머신러닝 모델이 특정 지갑의 행동 패턴을 분석하여 “이 주소는 ‘업비트 입금 주소 유형’과 92% 유사합니다”라는 예측 결과를 내놓으면, 찰리는 사법 기관과 협력하여 해당 거래소에 정보 제공을 요청, 범인을 추적하는 데 결정적인 단서를 제공한다.
    • 데이터 기반 행동: 의심스러운 주소가 탐지되면, 해당 주소의 모든 과거 트랜잭션을 분석하여 특징 벡터를 생성하고, 학습된 분류 모델에 입력하여 그 소속과 유형을 예측.
  • 실질적인 마케팅 액션 제안:
    1. KYA(Know Your Address) 솔루션 개발: 이 논문의 기술을 기반으로, 어떤 지갑 주소든 입력하면 해당 주소의 유형(거래소, 디파이 고래, 스캐머 등)과 위험 점수를 알려주는 ‘주소 프로파일링’ API 서비스를 개발한다. 이 서비스를 다른 Web3 프로젝트나 금융 기관에 B2B 솔루션으로 판매하여, 생태계 전체의 리스크 관리를 돕고 수익을 창출한다.
    2. 안전한 생태계 마케팅: 자사의 DeFi 프로토콜이 위에서 개발한 KYA 솔루션과 연동되어 있어, 알려진 스캐머나 해커의 지갑 주소로부터의 자금 유입을 자동으로 차단하고 있음을 사용자들에게 적극적으로 홍보한다. 이는 **’안전하고 신뢰할 수 있는 프로토콜’**이라는 강력한 브랜드 이미지를 구축하고, 리스크에 민감한 신규 사용자나 기관 투자자를 유치하는 데 매우 효과적이다.
    3. 세분화 기반의 화이트리스트/에어드랍 전략: 신규 프로젝트 런칭 시, 화이트리스트나 초기 에어드랍 대상을 선정할 때, 이 분류 모델을 활용한다. ‘거래소’나 ‘에어드랍 전문 헌터’로 분류된 지갑은 제외하고, ‘실제 DeFi 사용자’나 ‘커뮤니티 기여자’로 분류된 지갑에게만 혜택을 집중하여, 진성 커뮤니티를 구축하고 어뷰징을 방지하는 정교한 전략을 실행한다.