온체인 거래 데이터를 기반으로 상호작용 그래프(AIG)를 구성하고, 서브그래프 대비 학습(contrastive learning)과 GNN 분류기를 공동 학습하는 BlockGC 프레임워크를 제안하여 블록체인 계정 정체성 추론 정확도를 향상시켰다.
논문 요약
- 논문 제목: BlockGC: A Joint Learning Framework for Account Identity Inference on Blockchain with Graph Contrast
- 저자: Jiajun Zhou, Chenkai Hu, Shenbo Gong, Jiaying Xu, Jie Shen, Qi Xuan
- 게재 학술지: arXiv (Preprint CoRR, abs/2112.03659, To appear at AAAI)
- 발행 연도: 2021
- 핵심 요약: 이더리움 온체인 거래 데이터를 활용하여 계정 간 상호작용 그래프(AIG)를 구축한 후, 서브그래프 대비 학습(contrastive learning)과 GNN(Graph Neural Network) 분류기를 공동 학습하는 BlockGC 프레임워크를 제안했다. 이 프레임워크는 서브그래프 샘플링 및 데이터 증강 기법을 통해 블록체인 계정의 정체성 추론 정확도를 향상시키는 데 기여한다.
해결하려는 문제
본 연구는 블록체인 네트워크에서 익명성으로 인해 사용자 계정의 정체성을 파악하고 악성 행위를 탐지하는 데 어려움이 있다는 문제를 해결하고자 했다. 기존의 계정 분류 방식은 온체인 데이터의 복잡한 연결성을 충분히 활용하지 못하거나, 라벨링된 데이터 부족으로 인해 성능이 저하되는 한계가 있었다.
연구 모형
본 연구는 이더리움 온체인 거래 데이터를 기반으로 **계정 상호작용 그래프(Account Interaction Graph, AIG)**를 구성한 후, **그래프 대비 학습(Graph Contrastive Learning)**과 **GNN(Graph Neural Network) 분류기를 공동 학습(Joint Learning)**하는 BlockGC 프레임워크를 제안한다. AIG는 계정(노드)과 거래(엣지)로 구성되며, 각 엣지에는 거래량, 타임스탬프 등의 속성이 포함된다. 이 프레임워크는 1-hop 서브그래프 샘플링, 피처 마스킹(feature masking), 엣지 교란(edge perturbation) 방식의 데이터 증강을 병행하여 신뢰도 높은 계정 임베딩을 학습한다. 이렇게 학습된 임베딩은 GNN 분류기를 통해 계정의 정체성(정상/비정상 등)을 추론하는 데 활용된다.
데이터 설명
- 출처: 이더리움 온체인 거래 데이터와 스마트 컨트랙트 호출 기록을 포함하는 대규모 데이터를 사용했다.
- 수집 방법: 블록체인 데이터를 파싱하여 계정 간의 트랜잭션 및 스마트 컨트랙트 호출 정보를 추출하고, 이를 기반으로 AIG(Account Interaction Graph)를 구성했다. 서브그래프 샘플링 및 데이터 증강 기법을 통해 학습 데이터의 다양성과 양을 확보했다.
- 데이터 변수 설명: 각 계정(노드)과 거래(엣지)에는 다양한 속성이 부여된다.
- 거래량: 특정 엣지(거래)의 암호화폐 전송량.
- 타임스탬프: 거래가 발생한 시점.
- 상대 주소: 거래를 주고받은 계정 정보.
- 스마트 컨트랙트 호출 빈도: 특정 계정이 스마트 컨트랙트를 호출한 횟수.
- 계정 서브그래프: 특정 계정 주변의 1-hop 또는 다중 홉 연결 구조와 그 속성들.
데이터 분석
본 연구는 이더리움 온체인 거래 데이터를 바탕으로 AIG를 구축한 후, BlockGC 프레임워크를 통해 서브그래프 대비 학습(contrastive loss)과 GNN 분류기를 공동으로 훈련했다. 모델의 성능은 주로 계정 정체성 추론의 정확도를 기준으로 측정되었으며, 기존 GNN 기반 분류기들과 비교 분석했다. 특히, 서브그래프 샘플링 및 데이터 증강 기법이 모델 성능에 미치는 영향을 평가했다.
핵심 결과
본 연구의 핵심 결과는 서브그래프 기반 대비 학습(contrastive learning)을 GNN 분류기와 공동 학습하는 BlockGC 프레임워크가 기존 GNN 기반 분류기보다 계정 정체성 추론 정확도에서 우수한 성능을 보였다는 점이다. 특히, 1-hop 서브그래프 샘플링과 피처 마스킹, 엣지 교란 방식의 데이터 증강이 모델의 신뢰도 향상에 기여했음이 확인되었다.
시사점
본 연구는 블록체인 계정의 익명성 문제를 해결하고 악성 활동을 탐지하는 데 그래프 대비 학습을 활용한 GNN 모델이 효과적인 방법론임을 시사한다. 계정 간의 복잡한 상호작용 관계를 그래프 형태로 모델링하고 심층 학습함으로써, 사용자의 정체성(정상/비정상)을 신뢰성 있게 추론할 수 있다. 이는 스마트 컨트랙트 플랫폼 내 사용자 인증 및 신뢰성 평가 자동화, 그리고 AML(자금세탁방지) 및 사기 방지 시스템에 유용한 기반 기술로 적용될 가능성을 제시한다.
인사이트
AI 빅데이터 마케터 관점에서 본 논문의 **’그래프 대비 학습(Graph Contrastive Learning)을 활용한 온체인 계정 정체성 추론’**은 WEB3 CRM의 **고객 분류(Segmentation)**에 매우 중요한, 패러다임 전환적인 인사이트를 제공한다. 🌐 제 연구 목표인 듄 애널리틱스(Dune Analytics)에서 수집한 USDC 스테이블 코인 트랜잭션 데이터를 활용한 고객 분류 모델 개발 시, 단순히 개별 지갑의 트랜잭션 속성만을 보는 것을 넘어 **’지갑 간의 상호작용 네트워크’**라는 관점에서 고객을 이해할 수 있게 해준다.
USDC 트랜잭션 데이터는 본 논문에서처럼 **’지갑 간의 상호작용 그래프’**로 모델링될 수 있다. 이 그래프에서 **각 지갑은 노드(Node)**가 되고, **USDC 전송은 엣지(Edge)**가 되며, 엣지에는 거래량, 타임스탬프 등의 속성을 부여할 수 있다. 이렇게 구축된 그래프에 **GNN(Graph Neural Network)**과 그래프 대비 학습을 적용한다면, 다음과 같은 혁신적인 고객 분류가 가능해진다.
- 커뮤니티 기반 고객 분류: 특정 DeFi 프로토콜이나 NFT 컬렉션에 주로 USDC를 보내는 지갑 그룹을 하나의 커뮤니티로 묶어 분류할 수 있다. 이는 WEB2의 소셜 네트워크 분석 기반 고객 그룹핑과 유사하다.
- 신뢰도/영향력 기반 고객 분류: USDC 거래 네트워크 내에서 중심성(Centrality)이 높거나, 특정 고가치/영향력 있는 지갑과 자주 상호작용하는 고객을 ‘고영향력 고객’으로 분류하여 인플루언서 마케팅에 활용할 수 있다.
- 이상 행동 감지: 본 논문의 ‘악성 계정 탐지’와 유사하게, 정상적인 USDC 거래 패턴에서 벗어나는 이상 행동(예: 비정상적인 대규모 이체, 특정 집단과의 반복적인 소액 거래 등)을 보이는 지갑을 ‘리스크 고객’으로 분류하여 선제적인 리스크 관리 및 이탈 방지 마케팅에 활용할 수 있다.
궁극적으로, BlockGC와 같은 그래프 기반 학습 프레임워크는 WEB3 환경에서 고객을 단순히 개별적인 ‘지갑’이 아니라, 복잡하게 연결된 **’네트워크 속의 행위자’**로 이해하게 하여, 더욱 심층적이고 동적인 초개인화된 CRM 전략 및 퍼포먼스 마케팅을 가능하게 할 것이다.