이더리움 블록체인의 방대한 거래 데이터를 머신러닝으로 분석하여, 익명의 지갑 주소 뒤에 숨겨진 사용자의 행동 유형을 자동으로 분류하는 방법론을 제시한 선구적인 온체인 데이터 분석 연구이다.
논문 요약
- 논문 제목: 「Identifying User Behavior Profiles in Ethereum Using Machine Learning Techniques」
- 저자: Júlia Almeida Valadares 외
- 게재 학술지: IEEE Latin America Transactions
- 발행 연도: 2021
- 핵심 요약: 이더리움 블록체인의 사용자 활동 데이터를 수집하여, 비지도 클러스터링과 앙상블 분류 기법을 결합한 머신러닝 모델로 트랜잭션 패턴에 따른 사용자 행동 프로파일을 자동으로 분류하고 각 군집의 특성을 해석했다.
연구 배경
이 연구는 블록체인 데이터 분석의 초점을 ‘네트워크 자체’에서 ‘네트워크 참여자(사용자)’로 전환시킨 중요한 시도이다.
블록체인 초창기의 데이터 분석은 주로 네트워크의 보안, 확장성, 합의 알고리즘의 효율성 등 기술적인 측면에 집중되었다. 하지만 블록체인 기술이 점차 대중화되고 다양한 디앱(DApp) 생태계가 성장하면서, 네트워크 위에서 활동하는 ‘사용자’들의 행동을 이해하는 것이 중요해졌다. 이 연구는 모든 거래 기록이 투명하게 공개되는 퍼블릭 블록체인의 특성을 활용하여, 익명의 지갑 주소들이 남긴 디지털 발자국(트랜잭션)을 분석함으로써, 전통적인 마케팅에서와 같이 사용자를 유형별로 분류할 수 있다는 가능성을 제시했다.
- 주요 용어 설명
- 사용자 프로파일 (User Profile): 특정 사용자의 인구통계학적 정보나 심리적 특성이 아닌, 관찰된 행동 데이터(예: 거래 패턴)를 기반으로 정의된 사용자의 유형 또는 특성.
- 앙상블 학습 (Ensemble Learning): 여러 개의 머신러닝 모델(분류기)을 함께 사용하여 단일 모델보다 더 높은 예측 정확도와 안정성을 얻는 기법이다.
해결하려는 문제
익명의 지갑 주소들이 온체인 상에서 어떤 유형의 행동들을 보이는지 객관적인 데이터로 분류하고자 했다.
이더리움 블록체인에는 수많은 익명의 주소들이 존재하며, 이들은 각기 다른 목적으로 트랜잭션을 발생시킨다. 어떤 주소는 단순히 코인을 주고받는 용도로만 사용되는 반면, 다른 주소는 복잡한 디파이(DeFi) 프로토콜이나 ICO(초기 코인 공개)에 활발하게 참여한다. 이 연구는 이렇게 복잡하고 방대한 온체인 데이터 속에서 의미 있는 패턴을 발견하고, 머신러닝을 통해 “이더리움 사용자들은 주로 어떤 유형으로 나뉘는가?”라는 질문에 대한 데이터 기반의 답을 찾고자 했다.
연구 모형
‘비지도 클러스터링’으로 자연스러운 그룹을 발견하고, ‘지도 학습(앙상블)’으로 각 그룹의 정체를 해석하는 2단계 하이브리드 모델을 설계했다.
이 연구가 제안하는 모형은 2단계 접근법을 취한다. 첫째, 전체 이더리움 주소의 트랜잭션 데이터에서 행동 기반 변수들을 추출한 뒤, 비지도 학습인 클러스터링을 적용하여 통계적으로 유사한 행동을 보이는 주소들을 그룹으로 묶는다. 둘째, 이렇게 형성된 각 클러스터가 어떤 유형의 사용자인지 해석하기 위해, 일부 알려진 주소(예: 거래소 지갑, ICO 참여 지갑) 정보를 활용하여 앙상블 분류기를 학습시키고, 이 분류기를 통해 각 클러스터의 주요 특성(예: ‘DeFi 유저’, ‘단순 송금자’)을 정의한다.
데이터 설명
이더리움 메인넷의 공개된 블록 탐색기(Block Explorer)를 통해 실제 온체인 거래 데이터를 활용했다.
- 출처 및 수집 방법 논문에 구체적인 데이터 출처가 명시되지는 않았으나, 연구 방법론에 따라 이더스캔(Etherscan)과 같은 공개된 블록 탐색기(Block Explorer)의 API를 활용하여 특정 기간 동안의 이더리움 트랜잭션 데이터를 수집한 것으로 추정된다. 수집된 데이터는 블록체인에 기록된 온체인(On-chain) 데이터에 해당한다.
- 데이터 변수 설명 지갑 주소의 행동 프로필을 정의하기 위해, 개별 트랜잭션 로그로부터 다음과 같은 계층적 구조의 변수들을 생성(Feature Engineering)했다.
- 기본 거래 변수:
거래 횟수 및 규모
: 총 트랜잭션 수, 총 전송된 이더(ETH)의 양, 평균 거래액 등가스비 관련 변수
: 지불한 총 가스비, 평균 가스 가격 등
- 상호작용 변수:
계약(Contract) 상호작용
: 상호작용한 고유한 스마트 컨트랙트의 수, 컨트랙트 생성 여부 등
- 시간적 변수:
활동 기간
: 지갑의 첫 트랜잭션과 마지막 트랜잭션 사이의 기간
- 기본 거래 변수:
데이터 분석
비지도 클러스터링으로 사용자 그룹을 형성하고, 앙상블 분류기로 각 그룹의 특성을 명명(Labeling)했다.
데이터 분석은 2단계로 진행되었다. 1단계에서는 위에서 생성한 변수들을 바탕으로 비지도 클러스터링을 수행하여, 전체 이더리움 주소를 통계적으로 유사한 몇 개의 그룹으로 분리했다. 2단계에서는 각 그룹의 정체를 파악하기 위해, 일부 라벨링된 데이터(예: 알려진 ICO 참여 주소)를 이용해 앙상블 분류기를 학습시켰다. 이후, 이 분류기를 사용하여 1단계에서 생성된 각 클러스터가 어떤 행동 프로필(예: ‘ICO 참여자’)에 가장 가까운지를 판단하여, 각 클러스터에 의미론적인 이름을 부여했다.
핵심 결과
온체인 거래 데이터만으로도 사용자를 ‘DeFi 유저’, ‘ICO 참여자’, ‘단순 송금자’ 등과 같은 뚜렷한 행동 프로필로 자동 분류하는 데 성공했다.
분석 결과, 머신러닝 모델은 이더리움 사용자들을 뚜렷하게 구분되는 여러 행동 그룹으로 성공적으로 분류했다. 예를 들어, 특정 클러스터는 다양한 스마트 컨트랙트와 매우 높은 빈도로 상호작용하는 패턴을 보여 ‘DeFi 유저’로 명명되었고, 다른 클러스터는 특정 기간에만 집중적으로 활동하는 패턴을 보여 ‘ICO 참여자’로 명명되었다. 이는 익명의 지갑 주소라도 그 행동 패턴을 통해 유형을 정의할 수 있음을 증명한다.
시사점
퍼블릭 블록체인의 투명한 데이터는 새로운 고객 관계 관리(CRM)와 마케팅 분석의 기회를 제공하는 보고(寶庫)이다.
이 연구는 온체인 데이터가 단순히 자산의 이동을 기록하는 것을 넘어, 사용자의 관심사와 행동 유형을 파악할 수 있는 풍부한 정보를 담고 있음을 보여준다. 기업이나 프로젝트는 이러한 데이터를 분석하여 익명의 지갑 주소 뒤에 있는 사용자의 페르소나를 추정하고, 이를 기반으로 한 맞춤형 서비스 제공이나 마케팅 캠페인을 기획할 수 있다. 이는 WEB3 시대의 새로운 CRM 가능성을 열어준다.
인사이트
“당신의 지갑은 당신이 누구인지 알고 있다.”
AI 빅데이터 마케터 관점에서 이 논문은 쿠키(Cookie) 없는 시대의 새로운 대안을 제시한다. 개인정보보호 규제가 강화되면서 기존의 고객 추적 방식이 어려워진 반면, 블록체인 위의 데이터는 누구나 분석 가능한 ‘공공재’이다. 이 연구 결과를 바탕으로 우리는 **’온체인 고래 투자자(On-chain Whale Investor)’**라는 페르소나를 정의할 수 있다. 이들은 단순히 많은 자산을 보유한 것을 넘어, 일반 사용자와는 다른 뚜렷한 거래 패턴, 즉 소수의 디파이 프로토콜과 거액의 트랜잭션을 높은 가스비를 지불하며 일으키는 그룹이다.
- 마케팅 액션 아이템
- VIP 타겟 마케팅: 신규 디파이 상품을 론칭할 때, ‘온체인 고래 투자자’로 식별된 지갑 주소들을 대상으로 온체인 메시지를 보내거나, 해당 주소만 참여할 수 있는 프라이빗 풀(Private Pool)을 제공하는 방식의 VIP 마케팅을 진행할 수 있다.
- 맞춤형 서비스(CRM): 이들의 거래 패턴을 분석하여, 특정 프로토콜에 대한 높은 충성도를 보일 경우 해당 프로토콜의 거버넌스 토큰을 에어드랍하여 관계를 강화할 수 있다.
- 유사 타겟 확장: ‘온체인 고래 투자자’로 분류된 지갑들의 행동 패턴을 학습한 모델을 통해, 아직 알려지지 않았지만 유사한 행동을 보이는 새로운 잠재적 고래 투자자 그룹을 발굴하여 마케팅 대상을 확장할 수 있다.