Tabular GAN(CTGAN/CTABGAN+)을 활용하여 이더리움 주소 데이터를 증강하고, 이를 통해 피싱 및 Ponzi 등 악성 지갑을 식별하는 분류기의 성능을 개선했다.
논문 요약
- 논문 제목: Leveraging Tabular GANs for Malicious Ethereum Address Classification in Ethereum Network
- 저자: Muhammad Ahtazaz Ahsan, Amna Arshad, Adnan Noor Mian
- 게재 학술지: Computer Networks, Vol. 254 (Dec 2024)
- 발행 연도: 2024
- 핵심 요약: 이더리움 주소 데이터셋의 부족 및 클래스 불균형 문제를 해결하기 위해 Tabular GAN(CTGAN/CTABGAN+)을 사용한 데이터 증강 기법을 제안했다. 이를 통해 피싱, Ponzi 등 악성 지갑을 식별하는 분류기의 성능을 효과적으로 향상시켰다.
해결하려는 문제
본 연구는 이더리움 블록체인 네트워크에서 **악성 지갑(피싱, Ponzi 등)**을 분류하는 데 있어 라벨링된 데이터셋의 부족과 클래스 불균형(Class Imbalance) 문제를 해결하고자 했다. 실제 블록체인 환경에서는 악성 주소의 수가 정상 주소에 비해 매우 적어, 이러한 불균형한 데이터로 학습된 분류기는 악성 지갑을 제대로 식별하지 못하는 한계가 있었다.
연구 모형
본 연구는 **Tabular GAN(Generative Adversarial Network)**을 활용한 데이터 증강(Data Augmentation) 기법을 통해 악성 이더리움 주소 분류 모델의 성능을 향상시키는 연구 모형을 제안한다. 특히 **CTGAN 및 CTABGAN+**와 같은 Tabular GAN 변형 모델을 사용하여 기존의 불균형한 이더리움 주소 데이터셋으로부터 합성(synthetic) 데이터를 생성한다. 이렇게 증강된 데이터셋은 지도 학습 분류기(예: Random Forest, Gradient Boosting, XGBoost)의 훈련에 활용되어, 악성 지갑을 식별하는 분류기의 성능을 높이고 클래스 불균형 문제를 효과적으로 해소한다. 이 과정은 데이터 부족 문제를 극복하고 분류 모델의 일반화 성능을 개선하는 데 중점을 둔다.
데이터 설명
- 출처: 이더리움 주소 데이터셋(라벨링 포함, 정확한 수치는 비공개)을 사용했다. 이 데이터셋은 실제 이더리움 블록체인에서 수집된 주소들의 속성으로 구성되어 있으며, 각 주소에는 ‘악성’ 또는 ‘정상’ 라벨이 부여되어 있다.
- 수집 방법: Tabular 형태의 주소 속성 기반 데이터에서 GAN을 통해 합성 데이터를 생성하는 방식으로 데이터를 증강했다. 이를 통해 학습 데이터의 양을 늘리고, 특히 소수 클래스(악성 주소)의 데이터를 보충하여 클래스 불균형 문제를 해결했다.
- 데이터 변수 설명: 데이터는 테이블 형태의 주소 속성(피처)으로 구성된다. 구체적인 피처 목록은 명시되지 않았으나, 일반적으로 트랜잭션 횟수, 총 거래 금액, 평균 거래 금액, 입출금 비율, 상호작용한 스마트 컨트랙트 수, 보유 토큰 종류 등 주소의 온체인 활동을 나타내는 정량적이고 범주형 피처들이 포함될 것으로 예상된다.
데이터 분석
본 연구는 Tabular GAN(CTGAN, CTABGAN+)을 사용하여 이더리움 주소 데이터셋을 증강한 후, 이렇게 생성된 합성 데이터와 원본 데이터를 결합하여 지도 학습 분류기(Random Forest, Gradient Boosting, XGBoost 등)를 훈련했다. 모델의 성능은 주로 분류 정확도 및 클래스 불균형 해소 능력을 중심으로 평가되었다.
핵심 결과
본 연구의 핵심 결과는 GAN으로 생성한 합성 데이터가 분류기(특히 XGBoost)의 성능을 효과적으로 향상시켰으며, 클래스 불균형 문제를 성공적으로 해소한 최초의 Tabular GAN 기반 사례로 평가된다는 점이다. 이를 통해 적은 양의 라벨링 데이터로도 피싱, Ponzi 등 악성 지갑을 높은 정확도로 식별할 수 있음을 입증했다.
시사점
본 연구는 라벨링된 데이터가 부족하거나 클래스 불균형이 심한 블록체인 데이터셋에서 Tabular GAN 기반의 데이터 증강 기법이 분류 모델의 성능을 크게 향상시킬 수 있음을 시사한다. 이는 사기 탐지, AML(자금세탁방지) 시스템 등 블록체인 보안 분야뿐만 아니라, 일반적인 머신러닝 문제에서 데이터 부족 및 불균형을 해결하는 효과적인 전략으로 활용될 수 있다.
인사이트
AI 빅데이터 마케터 관점에서 본 논문의 Tabular GAN을 활용한 데이터 증강 및 악성 지갑 분류 접근 방식은 WEB3 CRM의 고객 분류(Segmentation) 모델 개발에 매우 중요한 인사이트를 제공한다. 제 연구 목표인 듄 애널리틱스(Dune Analytics)에서 수집한 USDC 스테이블 코인 트랜잭션 데이터를 활용한 고객 분류 모델 개발 시, 가장 큰 어려움 중 하나는 **’특정 고객 그룹(예: 고가치 고객, 이탈 위험 고객)에 대한 라벨링된 데이터 부족’**과 **’클래스 불균형’**이다. 📉
본 논문에서처럼 Tabular GAN(CTGAN/CTABGAN+)을 활용하여 부족한 고객 세그먼트의 합성 데이터를 생성한다면, 불균형한 데이터셋에서도 훨씬 더 견고하고 정확한 고객 분류 모델을 구축할 수 있다. 예를 들어, ‘블록체인 상 고가치 고객’의 수가 절대적으로 적을 때, GAN을 통해 유사한 행동 패턴을 가진 합성 고가치 고객 데이터를 만들어 모델 학습에 활용함으로써, 해당 세그먼트에 대한 분류 정확도를 대폭 높일 수 있다. 이는 WEB2 CRM에서 고객 데이터의 다양성 확보 및 특정 타겟 그룹에 대한 학습 데이터 부족 문제를 해결하는 데이터 확장 전략과 유사하다.
이러한 접근 방식은 퍼포먼스 마케팅 캠페인에서 초정밀 타겟팅이 필요한 경우에 특히 유용하다. GAN으로 증강된 데이터를 통해 학습된 분류기는 특정 마케팅 메시지에 반응할 가능성이 높은 고객 그룹을 더 정확하게 식별할 수 있게 된다. 궁극적으로, Tabular GAN은 WEB3 환경에서 고객 데이터의 한계를 극복하고, 더욱 정교하고 효과적인 개인화된 CRM 전략을 수립하는 데 필수적인 도구가 될 것이다.