블록체인의 공개된 거래 기록에 그래프 분석과 주소 군집화 기법을 적용하여, 여러 개의 지갑 주소를 사용하는 한 명의 사용자를 식별하고 프로파일링하는 ‘디아나니마이징(De-anonymization)’ 기술의 효과와 그 위험성을 실증적으로 보여준다.
논문 요약
- 논문 제목: Blockchain is Watching You: Profiling and Deanonymizing Users behind Cryptocurrency Addresses
- 저자: Lorenzo Falzarano 외
- 게재 학술지: 2021 IEEE International Conference on Big Data (Big Data)
- 발행 연도: 2021
- 핵심 요약: 비트코인과 이더리움의 거래 데이터를 분석하여, 여러 지갑 주소가 동일한 사용자에 의해 통제된다는 증거(예: 동일한 트랜잭션의 입력값으로 사용)를 찾아내는 휴리스틱과 군집분석 기법을 적용했다. 이를 통해 수많은 개별 주소들을 소수의 실제 사용자(Entity)로 성공적으로 묶어냈으며, 블록체인의 익명성이 알려진 것보다 훨씬 취약함을 입증했다.
연구 배경
이 연구는 “블록체인은 익명이다”라는 대중의 통념에 도전하며, 모든 흔적이 영원히 기록되는 블록체인 위에서 ‘완전한 익명성’은 신기루에 불과할 수 있음을 경고한다.
많은 사람들이 블록체인, 특히 비트코인이나 이더리움을 익명 기술로 오해하지만, 기술적으로 이는 사실이 아니다. 블록체인은 특정인의 실명을 요구하지 않는다는 점에서 ‘익명(Anonymous)’이 아니라, 지갑 주소라는 가짜 이름 뒤에 정체가 숨겨져 있다는 의미에서 ‘가명(Pseudonymous)’ 시스템에 가깝다. 모든 거래 기록은 전 세계에 공개되어 누구나 추적할 수 있기 때문이다.
이러한 투명성은 데이터 분석가들에게 새로운 기회를 열어주었다. 바로 디아나니마이징(De-anonymization), 즉 가명 뒤에 숨은 실제 사용자의 정체를 밝혀내려는 시도이다. 특히, 한 명의 사용자가 보안, 자산 분리, 혹은 불법적인 목적으로 여러 개의 지갑 주소를 사용하는 경우가 많다는 점에 착안했다. 이 연구는 그래프 분석(Graph Analysis)과 주소 군집화(Address Clustering)라는 기술을 통해, 흩어져 있는 지갑 주소들을 퍼즐처럼 맞춰 하나의 ‘실체(Entity)’로 묶어내는 방법을 탐구한다.
해결하려는 문제
하나의 개인이 여러 개의 지갑 주소를 사용하는 상황에서, 흩어져 있는 주소들을 하나의 실체(Entity)로 묶어 블록체인 사용자의 실질적인 프로필을 재구성한다.
Web3 사용자의 행동을 분석할 때 가장 큰 난관은 ‘분석의 단위’를 정의하는 것이다. 어떤 사용자가 A 지갑으로는 DeFi를, B 지갑으로는 NFT를, C 지갑으로는 게임을 한다고 가정하자. 만약 우리가 A, B, C 지갑을 각각 별개의 사용자로 보고 분석한다면, 우리는 세 명의 ‘반쪽짜리’ 사용자 프로필만 얻게 될 뿐이다. A는 DeFi 전문가, B는 NFT 컬렉터, C는 게이머로 보일 것이다.
이 연구가 해결하려는 문제는 바로 이 ‘파편화된 정체성’을 하나로 합치는 것이다. 다양한 기술적 단서를 활용하여 A, B, C 지갑이 사실은 한 사람의 것이라는 사실을 밝혀내고, 이들의 모든 활동을 합산하여 ‘DeFi, NFT, 게임 모두에 관심이 많은 만능 파워 유저’라는 통합된 프로필을 만들어내는 것을 목표로 한다. 이것이 가능해져야만 비로소 한 고객에 대한 진정한 360도 분석이 시작될 수 있다.
연구 모형
거래 그래프 분석과 주소 군집화 휴리스틱을 사용하여, 여러 암호화폐 주소들이 동일한 사용자에 의해 통제될 확률이 높다는 증거를 찾아내고 이들을 하나의 클러스터로 묶는다.
이 연구는 여러 주소를 동일인의 소유로 묶기 위해, 이미 학계와 업계에서 널리 알려진 다양한 휴리스틱(Heuristics) 기반의 군집화 모델을 사용한다. 휴리스틱이란 경험에 기반한 발견적 방법으로, ‘이러한 패턴이 보이면, 이 주소들은 같은 사람의 소유일 가능성이 매우 높다’는 규칙들을 의미한다.
- 거래 그래프 구축: 블록체인의 모든 주소를 노드(Node)로, 모든 거래를 엣지(Edge)로 하는 거대한 거래 관계망 그래프를 구축한다.
- 휴리스틱 기반 주소 군집화:
- 공통 입력 소유권 휴리스틱 (Common-input-ownership heuristic): 비트코인과 같은 UTXO 기반 블록체인에서 가장 강력한 휴리스틱이다. 하나의 트랜잭션을 만들기 위해 여러 개의 주소에 있던 자금이 ‘입력(Input)’으로 함께 사용되었다면, 그 모든 주소는 동일한 개인키로 서명해야 하므로 100% 동일인의 소유로 볼 수 있다.
- 자금 출처/목적지 분석 (Funding/Destination Analysis): 이더리움과 같은 계정 기반 블록체인에서는, 여러 개의 신규 주소가 모두 동일한 하나의 ‘시드(Seeder)’ 주소로부터 자금을 공급받았거나, 여러 주소의 자금이 결국 하나의 ‘목적지’ 주소로 모인다면 이들을 동일 실체로 묶을 수 있다.
- 엔티티 프로파일링 (Entity Profiling): 이렇게 하나의 클러스터로 묶인 모든 주소들의 거래 내역을 합산하여, 개별 주소가 아닌 ‘엔티티(Entity)’ 단위의 통합된 행동 프로필을 생성한다.
데이터 설명
연구의 타당성을 입증하기 위해, 실제 비트코인과 이더리움 블록체인에서 추출한 방대한 양의 온체인 거래 데이터를 활용한다.
- 출처: 비트코인(Bitcoin) 및 이더리움(Ethereum) 블록체인. 이 연구는 100% 실제 온체인 데이터를 기반으로 한다.
- 수집 방법: 연구진은 각 블록체인의 풀노드(Full node)를 직접 운영하여 전체 거래 원장을 내려받고, 이를 파싱(Parsing)하여 분석용 데이터베이스를 구축했을 가능성이 높다. 혹은 구글 빅쿼리(Google BigQuery)에서 제공하는 공개 블록체인 데이터셋과 같은 대규모 데이터를 활용했을 수도 있다.
- 데이터 변수 설명: 이 연구의 핵심 데이터는 원시적인 거래 그래프 그 자체이다.
- 노드 (Nodes):
Address
(블록체인 상의 고유한 지갑 주소) - 엣지 (Edges):
Transaction
(거래 정보)Input Addresses
: 거래에 사용된 입력 주소들의 집합Output Addresses
: 거래 결과로 자금을 수신한 출력 주소들의 집합Value
: 거래 금액Timestamp
: 거래가 블록에 포함된 시각
- 노드 (Nodes):
데이터 분석
제안된 주소 군집화 기법을 실제 블록체인 데이터에 적용하여, 얼마나 많은 개별 주소들이 소수의 거대 엔티티(예: 거래소, 채굴 풀) 클러스터로 통합될 수 있는지를 정량적으로 분석한다.
본 연구의 데이터 분석은 제안된 휴리스틱과 군집화 알고리즘을 비트코인과 이더리움의 실제 거래 데이터 전체에 적용하는 대규모 실험 방식으로 이루어졌다. 분석의 목표는 ‘과연 이 기법이 얼마나 효과적인가?’를 정량적으로 측정하는 것이었다.
예를 들어, “이더리움에서 활동하는 상위 100만 개의 주소를 분석했더니, 이 중 50만 개가 실제로는 단 1만 개의 엔티티(클러스터)에 속해 있음을 발견했다”와 같은 결과를 도출한다. 또한, 가장 크게 형성된 주소 클러스터들을 식별하고, 이들이 실제로 바이낸스, 코인베이스와 같은 거대 중앙화 거래소나 대규모 채굴 풀의 주소 집합과 일치하는지를 교차 검증했다. 이러한 분석을 통해, 연구진은 자신들의 디아나니마이징 기법이 이론뿐만 아니라 실제 세계에서도 매우 효과적으로 작동함을 입증했다.
핵심 결과
블록체인 거래 데이터에 대한 정교한 그래프 분석과 휴리스틱 기반 클러스터링을 통해, 상당수의 개별 주소들을 소수의 실제 사용자 또는 기관(Entity)으로 묶을 수 있었으며, 이는 블록체인의 익명성이 생각보다 훨씬 취약함을 실증적으로 보여주었다.
분석 결과, 디아나니마이징은 매우 효과적이었다. 연구는 수많은 개별 주소들이 실제로는 훨씬 더 적은 수의 ‘실체(Entity)’에 의해 통제되고 있음을 명확히 보여주었다. 특히, 거래소나 채굴 풀과 같은 거대 기관들은 수백만 개의 주소를 사용하여 고객 예치금을 관리하고 있었으며, 이러한 주소들은 제안된 기법을 통해 거의 대부분 하나의 거대한 클러스터로 묶일 수 있었다.
이 결과는 블록체인의 ‘가명성’이 정교한 데이터 분석 앞에서 얼마나 쉽게 허물어질 수 있는지를 보여주는 강력한 증거이다. 즉, 블록체인 위에서 ‘완전한 프라이버시’를 기대하는 것은 매우 순진한 생각일 수 있으며, 우리의 모든 금융 활동은 누군가에 의해 연결되고, 분석되고, 프로파일링될 수 있다는 현실을 직시하게 만든다.
시사점
블록체인의 모든 거래는 공개적으로 추적 가능하므로, 사용자들은 프라이버시 보호에 대한 경각심을 가져야 하며, 기업들은 이 데이터를 활용한 분석의 기회와 프라이버시 침해의 책임 사이에서 신중한 균형을 잡아야 한다.
이 연구 결과는 양날의 검과 같다. 한편으로, 이는 마케터나 데이터 분석가, 혹은 법 집행 기관에게는 엄청난 기회이다. 흩어져 있던 고객의 행동을 하나로 모아 완전한 360도 프로필을 만들 수 있고, 자금 세탁과 같은 불법 행위를 훨씬 더 효과적으로 추적할 수 있게 된다.
하지만 다른 한편으로, 이는 모든 블록체인 사용자에게 심각한 프라이버시 위협이 된다. 나의 모든 금융 거래 내역이 특정 주체에 의해 통합 분석되어 나의 투자 성향, 자산 규모, 심지어 생활 패턴까지 추론될 수 있기 때문이다. 이러한 배경은 토네이도 캐시와 같은 프라이버시 믹서나, 영지식 증명(ZK-proofs)과 같은 차세대 프라이버시 기술이 왜 중요한지를 역설적으로 보여준다. 앞으로 기업들은 온체인 데이터를 활용할 때, 그 분석의 유용성과 프라이버시 보호라는 윤리적 책임 사이에서 매우 신중한 줄타기를 해야 할 것이다.
인사이트
당신의 지갑은 하나가 아니다. 그리고 블록체인은 그 사실을 알고 있다.
이 논문의 가장 소름 돋는 통찰은, 우리가 아무리 지갑을 나눠서 활동을 분산시켜도, 블록체인 분석 앞에서는 결국 하나의 ‘프로필’로 합쳐질 수 있다는 점이다. AI 빅데이터 마케터는 이 강력한 기술을 활용하여, 이전에는 상상할 수 없었던 수준의 통합 고객 페르소나를 정의하고 초개인화된 CRM 전략을 구사할 수 있다.
고객 페르소나 예시 (Web3 관점): “문어발 지갑 마스터 (The Octopus Wallet Master)”
- 행동 특성: 이 논문에서 제시한 주소 군집화 분석을 통해, 서로 다른 50개의 지갑 주소가 사실은 하나의 ‘엔티티’에 의해 통제되고 있음을 발견했다. 분석 결과, 하나의 중앙 지갑이 주기적으로 다른 49개의 ‘작업용’ 지갑에 가스비를 위한 소액의 ETH를 보내주는 패턴이 확인되었다. 각 작업용 지갑들은 DeFi, NFT, 게임, 에어드랍 파밍 등 각기 다른 특정 목적을 위해 전문적으로 사용되고 있었다.
- 해석: 50개의 주소를 각각 분석했다면 우리는 50명의 평범한 사용자를 보았을 것이다. 하지만 이들을 하나의 엔티티로 묶는 순간, 우리는 DeFi, NFT, 게임 등 Web3의 모든 분야에 걸쳐 자산을 배분하고 정교하게 활동을 관리하는 하나의 거대한 ‘문어발 마스터’의 실체를 보게 된다. 이는 개인이라기보다는 전문 투자 펌이나 기관일 가능성이 높다.
실질적인 마케팅 액션 제안 (Web3 CRM)
- 통합 프로필 기반의 초개인화 전략: 50개 지갑의 모든 활동을 합산하여 이 ‘문어발 마스터’의 통합 프로필을 생성한다. 그는 Web3의 거의 모든 분야에 관심이 있는 ‘만능 파워 유저’이므로, 그에게는 단일 상품(예: “DeFi 상품을 이용해보세요”)이 아닌, 그의 모든 자산을 한눈에 보고 최적화할 수 있는 ‘통합 자산 관리 대시보드’나 ‘포트폴리오 분석 서비스’를 제안하는 것이 훨씬 효과적이다.
- 기관 투자자(B2B) 전환 유도: 이처럼 정교한 다중 지갑 관리 패턴은 개인보다는 기관 고객일 확률이 높다고 판단. 이 엔티티를 ‘잠재 기관 고객’ 리스트에 올리고, 일반 마케팅 채널이 아닌 기관 영업(Institutional Sales) 담당자가 직접 접촉하여 프라임 브로커리지 서비스나 맞춤형 API 제공 등 B2B 솔루션을 제안한다.
- 고도화된 시빌(Sybil) 공격 방지: 만약 이 50개의 지갑이 동시에 특정 프로젝트의 에어드랍을 신청하거나 거버넌스 투표에 참여한다면, 이를 ‘단일 주체에 의한 시빌 공격’으로 간주할 수 있다. 에어드랍을 신청했다면 1인에게만 지급하거나, 투표에 참여했다면 1표로 처리함으로써 다른 사용자들의 권익을 보호하고 생태계의 공정성을 유지한다.