소수의 알려진 전문가 지갑(레이블 데이터)을 ‘씨앗’으로 삼아, 전체 이더리움 네트워크에서 이들과 유사한 행동 패턴을 보이는 지갑들을 찾아내는 반지도 학습(Semi-supervised Learning) 방법론을 제시한다.
논문 요약
- 논문 제목: Mapping User Behaviors to Identify Professional Accounts in Ethereum Using Semi-Supervised Learning
- 저자: W. Li 외
- 게재 학술지: ScienceDirect
- 발행 연도: 2024
- 핵심 요약: 소수의 레이블링된 데이터(예: 이미 알려진 전문 트레이더 지갑)를 ‘씨앗’으로 사용하여, 전체 이더리움 네트워크에서 이들과 유사한 행동 패턴을 보이는 다른 지갑들을 식별하는 준지도학습(Semi-supervised Learning) 방법론을 적용했다.
연구 배경
온체인 데이터 분석은 엄청난 잠재력을 가졌지만, ‘레이블(Label)의 부재’라는 고질적인 문제에 직면해 있다. 수억 개의 익명 지갑 주소 중 어떤 것이 기관 투자자의 지갑인지, 어떤 것이 디파이 ‘고래’의 지갑인지 알기란 거의 불가능하다. 기존 머신러닝 방법론은 두 가지 극단적인 선택지를 제공했다. 하나는 정답 없이 데이터의 패턴만으로 그룹을 나누는 **비지도학습(Unsupervised Learning)**이지만, 이 경우 발견된 그룹이 무엇을 의미하는지 알기 어렵다. 다른 하나는 모든 데이터에 정답을 알려주고 학습시키는 **지도학습(Supervised Learning)**이지만, 이는 대규모 온체인 데이터에 레이블을 부여하는 막대한 비용과 시간 때문에 현실적으로 불가능하다.
이 연구는 이 두 극단 사이의 현명한 대안, **반지도 학습(Semi-supervised Learning)**에 주목한다. 반지도 학습은 ‘아주 적은 양의 정답 데이터’와 ‘아주 많은 양의 정답 없는 데이터’를 함께 사용하여, 적은 노력으로 높은 정확도의 분류 모델을 만드는 것을 목표로 한다. 이 연구는 이러한 반지도 학습을 이더리움 네트워크에 적용하여, 소수의 ‘알려진’ 전문가 계정을 단서로, 숨어있는 수많은 ‘알려지지 않은’ 전문가 계정을 찾아내는 실용적인 방법론을 탐구한다.
해결하려는 문제
전체 온체인 데이터에 레이블을 부여하는 것이 현실적으로 불가능한 상황에서, 소수의 ‘알려진’ 전문가 계정 정보만을 활용하여 네트워크 상의 다른 모든 ‘알려지지 않은’ 전문가 계정들을 효율적으로 식별해내는 문제를 해결하고자 했다.
DeFi 프로토콜이 기관 투자자나 전문 트레이더를 대상으로 마케팅을 하고 싶다고 가정해보자. 공개적으로 알려진 기관 투자자의 지갑 주소는 수십, 수백 개에 불과하다. 하지만 실제로는 수만, 수십만 개의 알려지지 않은 전문가 지갑이 존재할 것이다. 이들을 어떻게 찾아낼 수 있을까? 모든 지갑의 활동을 수동으로 분석하는 것은 불가능하다. 비지도 군집분석으로는 어떤 그룹이 ‘전문가 그룹’인지 확신할 수 없다.
이 연구는 바로 이 현실적인 문제를 해결하고자 한다. 즉, 우리가 이미 알고 있는 극소수의 정보(레이블된 데이터)를 ‘씨앗(Seed)’처럼 사용하여, 이 씨앗과 유사한 특성을 가진 다른 데이터들을 같은 그룹으로 물들여 나가는 효율적인 방법을 찾는 것이다. 이는 최소한의 노력으로 최대한의 분류 성과를 얻고자 하는, 매우 실용적인 문제 해결 접근법이다.
연구 모형
이더리움의 트랜잭션 네트워크를 거대한 그래프로 구성한 뒤, 소수의 알려진 전문가 계정(레이블된 노드)을 시작점으로 하여, 이들과 유사한 특성 및 연결 관계를 가진 이웃 노드들에게 ‘전문가’라는 레이블을 전파시키는 그래프 기반의 반지도 학습 모델을 제안했다.
이 연구의 모델은 그래프 기반의 레이블 전파(Label Propagation) 알고리즘에 기반한다.
- 그래프 구성 (Graph Construction): 먼저, 이더리움 네트워크 전체를 하나의 거대한 그래프로 모델링한다. 이 그래프에서 모든 지갑 주소는 ‘노드(Node)’가 되고, 지갑 간의 트랜잭션은 노드를 연결하는 ‘엣지(Edge)’가 된다. 각 노드(지갑)는 거래 빈도, 평균 거래액, 상호작용한 컨트랙트 수 등 다양한 행동 기반 피처(Feature)를 속성으로 가진다.
- 초기 레이블링 (Initial Labeling): 전체 수억 개의 노드 중, 우리가 이미 알고 있는 극소수의 노드에만 레이블을 부여한다. 예를 들어, ‘알려진 전문가 지갑’ 100개에는 ‘전문가(1)’라는 레이블을, ‘일반 사용자 지갑’ 1000개에는 ‘일반(0)’이라는 레이블을 부여한다. 나머지 모든 노드는 ‘미분류’ 상태로 남겨둔다.
- 레이블 전파 (Label Propagation): 알고리즘이 시작되면, 레이블이 부여된 노드들이 자신의 레이블을 엣지로 연결된 이웃 노드들에게 ‘전파’하기 시작한다. 각 노드는 이웃 노드들로부터 받은 레이블 정보를 바탕으로 자신의 레이블을 업데이트한다. 이 과정은 네트워크 전체의 레이블이 더 이상 변하지 않고 안정될 때(수렴, Converge)까지 반복된다.
- 최종 분류: 모든 반복이 끝나면, ‘미분류’ 상태였던 노드들도 주변 노드들의 영향으로 ‘전문가’ 또는 ‘일반’이라는 레이블을 갖게 된다. 이를 통해 전체 네트워크의 지갑들을 분류할 수 있다.
데이터 설명
이더리움 블록체인에서 추출한 대규모 트랜잭션 데이터를 사용했으며, 소수의 ‘레이블이 확인된’ 전문가 계정과 일반 계정 데이터를 포함한다.
- 출처: 논문에 구체적인 출처는 명시되지 않았으나, 일반적으로 이더스캔(Etherscan) API나 구글 빅쿼리(Google BigQuery)의 공개 이더리움 데이터셋을 활용했을 것으로 추정된다.
- 온체인 여부: 분석에 사용된 데이터는 모두 블록체인에 기록된 온체인(On-chain) 데이터이다.
- 수집 방법: 특정 기간의 이더리움 트랜잭션 데이터를 모두 추출하고, 이를 지갑 주소(노드)와 거래(엣지)로 구성된 네트워크 그래프 형태로 재구성했다. 소수의 레이블된 데이터는 공개 정보(예: 유명 트레이더의 ENS 주소)나 다른 연구 결과를 통해 확보했을 것이다.
- 데이터 변수 설명: 이 연구는 그래프 구조와 노드의 특성을 함께 활용한다.
- 노드 피처 (Node Features): 각 지갑 주소의 행동 특성을 나타내는 변수.
활동성 지표
: 총 트랜잭션 수, 활성 기간, 평균 가스비.금융 지표
: 총 ETH 송수신액, 보유 ERC-20 토큰의 종류 및 수량.네트워크 지표
: 거래한 상대방 주소의 수 (Degree), 그래프 내 중심성(Centrality) 점수.
- 엣지 정보 (Edge Information):
거래 관계
: 지갑 A와 B 사이에 얼마나 많은 거래가 있었는지, 총 거래액은 얼마인지 등을 나타내는 가중치.
- 초기 레이블 정보 (Initial Labels):
레이블된 데이터
: 전체 노드 중 극소수(예: 0.1%)에만 부여된is_professional (1)
또는is_normal_user (0)
레이블.언레이블된 데이터
: 나머지 99.9%의 레이블이 없는 대다수의 지갑 주소.
- 노드 피처 (Node Features): 각 지갑 주소의 행동 특성을 나타내는 변수.
데이터 분석
이더리움 트랜잭션 데이터를 거대한 네트워크 그래프로 변환했다. 이 그래프에 반지도 학습 알고리즘(예: 라벨 전파)을 적용하여, 초기에 레이블이 부여된 소수의 전문가 계정으로부터 ‘전문가’라는 특성이 네트워크를 통해 어떻게 퍼져나가는지를 시뮬레이션하고, 최종적으로 각 계정의 전문가 점수를 계산했다.
분석의 핵심은 그래프 기반의 반지도 학습을 적용하는 데 있다. 먼저, 수억 개의 트랜잭션 데이터를 지갑 주소를 노드로, 거래를 엣지로 하는 거대한 그래프 데이터 구조로 변환했다. 그 다음, 소수의 ‘전문가’ 노드와 ‘일반’ 노드에 각각 다른 색깔을 칠했다. 레이블 전파 알고리즘은 이 색깔들이 엣지를 따라 주변의 색 없는 노드들로 번져나가는 과정을 모사한다. 이때, 노드 간의 거리가 가깝고(자주 거래하고), 노드의 특성(거래 패턴)이 유사할수록 색깔이 더 잘 번진다. 이 과정을 수렴할 때까지 반복하면, 결국 모든 노드들이 각자의 색깔(레이블)을 갖게 된다. 연구진은 이 방법론의 성능을 검증하기 위해, 미리 알고 있던 일부 정답 데이터를 숨겨두고 모델이 얼마나 정확하게 맞추는지를 평가했다.
핵심 결과
반지도 학습 모델은 단 1% 미만의 레이블된 데이터만으로도, 전체 네트워크에서 전문가 계정을 높은 정확도로 식별해내는 데 성공했다. 이는 소량의 사전 지식만으로도 대규모의 익명 데이터셋에 대한 효과적인 분류가 가능함을 증명했다.
이 연구의 가장 놀라운 결과는 데이터의 효율성이다. 전체 데이터의 1%도 안 되는, 아주 적은 양의 정답만으로도 전체 데이터셋을 매우 정확하게 분류해내는 놀라운 성능을 보여주었다. 이는 “끼리끼리 모인다”는 속담처럼, 블록체인 네트워크 상에서 유사한 특성을 가진 지갑들은 서로 직간접적으로 연결되어 있을 가능성이 높다는 ‘그래프 구조’의 특성을 알고리즘이 효과적으로 활용했기 때문이다. 이 결과는 레이블된 데이터가 극도로 희소한 온체인 분석 환경에서 반지도 학습이 얼마나 실용적이고 강력한 무기가 될 수 있는지를 명확히 보여준다.
시사점
모든 데이터를 레이블링하는 것이 불가능한 대부분의 현실 세계 문제에서, 반지도 학습은 지도학습과 비지도학습의 장점을 결합한 매우 실용적이고 강력한 대안이다.
이 연구는 데이터 과학의 고질적인 ‘레이블링 문제’에 대한 중요한 해법을 제시한다. 대부분의 비즈니스 문제에서, 우리는 완벽하게 레이블링된 대규모 데이터셋을 갖기 어렵다. 그렇다고 아무런 사전 지식 없이 비지도학습에만 의존하는 것은 원하는 결과를 얻기 어렵다. 반지도 학습은 이 두 세계를 잇는 다리 역할을 한다. 즉, 우리가 가진 소중한 소수의 ‘전문가 지식(레이블된 데이터)’을 활용하여, 기계(머신러닝)가 나머지 방대한 데이터를 스마트하게 분류하도록 만드는 것이다. 이는 Web3뿐만 아니라, 이상 금융 거래 탐지, 의료 영상 판독 등 다양한 분야에 적용될 수 있는 매우 실용적인 접근법이다.
인사이트
한 방울의 잉크(레이블 데이터)로, 거대한 강물(전체 데이터)을 물들여라.
AI/빅데이터 마케터의 관점에서 이 논문은, 최소한의 자원으로 최대한의 마케팅 효과를 내는 ‘레버리지’ 전략의 구체적인 실행 방법을 보여준다.
- 반지도 학습으로 발견한 페르소나: ‘숨겨진 고래’
- 상황: 이 지갑은 공개적으로 알려진 적이 없어 누구의 것인지 알 수 없다.
- 발견 과정: 하지만 온체인 상에서, 이 지갑이 이더리움 재단이나 Wintermute와 같은 ‘알려진 고래’ 지갑들과 여러 차례 직접적인 거래를 주고받았으며, 이들의 거래 패턴(예: 대규모, 저빈도, 특정 DeFi 프로토콜 집중)과 매우 유사한 특징을 보인다. 반지도 학습 모델은 알려진 고래 지갑들로부터 ‘고래’라는 레이블(잉크)이 거래 관계를 통해 이 지갑으로 강력하게 ‘전파’되는 것을 감지하고, 이 지갑을 ‘숨겨진 고래’로 높은 신뢰도로 분류한다.
- 실질적인 마케팅 액션 (반지도 학습 기반)
- 유사 타겟 확장 (Lookalike Targeting) 2.0: 특정 DeFi 프로토콜의 초기 투자에 참여한 100개의 ‘알려진 VC’ 지갑 주소를 ‘씨앗’으로 사용한다. 반지도 학습 모델을 실행하여, 이들과 거래 관계가 밀접하거나 행동 패턴이 유사한 수천 개의 ‘잠재적 VC’ 지갑들을 추가로 발굴하고, 이들에게만 다음 투자 라운드에 대한 정보를 선별적으로 제공한다.
- 경쟁사 핵심 고객 유치: 경쟁사 프로토콜의 핵심 유저로 알려진 소수의 지갑들을 레이블링한 후, 반지도 학습을 통해 우리 프로토콜 내에서 이들과 유사한 행동을 보이는 ‘경쟁사 성향 유저’ 그룹을 식별한다. 이들에게는 경쟁사보다 더 나은 조건을 제시하는 타겟 마이그레이션 캠페인을 진행하여 효과적으로 고객을 유치한다.
- 커뮤니티 영향력자 발굴: 특정 주제에 대해 영향력 있는 발언을 하는 소수의 KOL(Key Opinion Leader) 지갑을 씨앗으로 삼아, 이들과 밀접하게 상호작용하며 그들의 의견을 빠르게 전파하는 ‘숨겨진 커뮤니티 전파자’ 그룹을 찾아낸다. 새로운 기능이나 이벤트를 홍보할 때, 이들에게 먼저 정보를 제공하여 커뮤니티 내 바이럴 효과를 극대화한다.
태그
이더리움, 반지도학습, 라벨 전파, 사용자 프로파일링, 온체인 데이터, 그래프 분석, REVIEW PAPER