7,000개의 합성 이더리움 지갑 데이터셋을 기반으로 Tfidf 전처리 및 XGBoost 모델을 활용하여 honeypot 지갑을 탐지하고, 이를 Streamlit 웹 앱으로 구현하여 실시간 분류 시스템의 실용성을 입증했다.
논문 요약
- 논문 제목: A Machine Learning Approach to Detecting Honeypots in Blockchain-Based Transactional dApps
- 저자: I.C. Emeto, A.A. Galadima, A.C. Okoloegbo, I.H. Ezeh, I.C. Ugbor, A.M.B. Ahmad, S. Kwaghbee, F.C. Uzoezie
- 게재 학술지: International Journal of Computer Science and Mobile Computing, Vol. 14, Issue 5
- 발행 연도: 2025
- 핵심 요약: 7,000개의 synthetic Ethereum 지갑 데이터셋(honeypot 또는 legitimate 라벨링)을 사용하여 honeypot 탐지 모델을 개발했다. Tfidf 기반 전처리 후 Random Forest, Gradient Boosting, XGBoost 모델 성능을 비교했으며, 최종적으로 XGBoost 모델을 Streamlit 웹 앱에 통합하여 실시간 지갑 분류 시스템으로 구현했다.
해결하려는 문제
본 연구는 이더리움 블록체인 기반의 탈중앙화 애플리케이션(dApps)에서 사용자들을 속여 자산을 탈취하는 Honeypot(꿀단지) 지갑을 효과적으로 탐지하는 데 어려움이 있다는 문제를 해결하고자 했다. Honeypot은 교묘한 방식으로 사용자들을 유인하여 사기 피해를 발생시키므로, 이를 사전에 식별하여 사용자 자산을 보호하고 블록체인 생태계의 신뢰도를 높이는 것이 중요했다.
연구 모형
본 연구는 Ethereum 블록체인 기반 트랜잭션 dApp의 honeypot 지갑을 탐지하기 위해 머신러닝 기반 분류 시스템을 제안한다. 7,000개의 합성(synthetic) Ethereum 지갑 데이터셋(‘honeypot’ 또는 ‘legitimate’으로 라벨링)을 활용하여 지도 학습(Supervised Learning) 모델을 구축했다. 특히, TfidfVectorizer 기반의 텍스트 특징 추출과 라벨 인코딩을 통해 피처셋을 구성한 후, Random Forest, Gradient Boosting, XGBoost 모델의 성능을 비교 분석했다. 최종적으로 가장 우수한 성능을 보인 XGBoost 모델을 Streamlit 웹 애플리케이션에 통합하여 실시간 지갑 분류 시스템으로 구현했다.
데이터 설명
- 출처: 7,000개의 합성(synthetic) Ethereum 지갑 주소 데이터셋을 사용했으며, 각 주소에는 ‘honeypot’ 또는 ‘legitimate'(정상) 라벨이 명확히 부여되어 있다. 이는 실제 블록체인 데이터를 기반으로 특정 특성을 반영하여 생성된 가상의 데이터셋으로 보인다.
- 수집 방법: 데이터셋은 TfidfVectorizer 기반의 특징 추출, 라벨 인코딩 과정을 거쳤다. 이는 텍스트 기반 정보(예: 컨트랙트 코드, 트랜잭션 메시지 등)와 트랜잭션 기반 피처를 결합하여 지도 학습에 적합한 형태로 구성한 것이다.
- 데이터 변수 설명: 모델 학습에 사용된 피처셋은 텍스트 및 트랜잭션 기반의 다양한 속성으로 구성되었다. 구체적인 변수 목록은 명시되지 않았으나, TfidfVectorizer 사용으로 미루어 볼 때, 컨트랙트 코드 내의 특정 단어나 트랜잭션 패턴에 대한 텍스트 표현이 포함되었을 가능성이 높다. 트랜잭션 기반 피처는 거래 횟수, 금액, 빈도 등 주소의 온체인 활동 통계가 포함될 것으로 예상된다.
데이터 분석
본 연구는 전처리된 7,000개의 이더리움 지갑 데이터셋을 Random Forest, Gradient Boosting, XGBoost 모델에 적용하여 honeypot 탐지 성능을 비교 분석했다. 모델의 성능은 주로 정확도(Accuracy) 지표를 통해 평가되었으며, 가장 우수한 성능을 보인 XGBoost 모델을 Streamlit 기반 웹 앱에 통합하여 실제 환경에서의 실용성과 확장성을 검증했다.
핵심 결과
본 연구의 핵심 결과는 XGBoost 모델이 94%의 정확도로 가장 우수한 honeypot 탐지 성능을 기록했다는 점이다. 또한, Streamlit을 활용한 실시간 분류 웹 앱을 성공적으로 구현함으로써, 개발된 모델의 실용성과 블록체인 보안 분야에서의 즉각적인 적용 가능성을 확인했다.
시사점
본 연구는 머신러닝 기반 분류 시스템이 블록체인 기반 dApp 생태계에서 Honeypot과 같은 악성 지갑을 효과적으로 탐지할 수 있음을 시사한다. 특히, 높은 정확도의 예측 모델을 실시간 웹 애플리케이션 형태로 구현함으로써, 일반 사용자들에게도 블록체인 거래의 안전성을 높여주고 신뢰를 제고하는 데 기여할 수 있다. 이는 사용자 보안 및 리스크 관리 시스템 구축에 중요한 참고 사례가 된다.
인사이트
AI 빅데이터 마케터 관점에서 본 논문의 ‘머신러닝 기반 Honeypot 탐지 및 실시간 웹 앱 구현’ 사례는 WEB3 CRM의 고객 분류(Segmentation) 및 신뢰 관리에 매우 중요한 인사이트를 제공한다. 제 연구 목표인 듄 애널리틱스(Dune Analytics)에서 수집한 USDC 스테이블 코인 트랜잭션 데이터를 활용한 고객 분류 모델 개발 시, 단순히 고객을 마케팅 관점에서 분류하는 것을 넘어 ‘고객 신뢰도’나 ‘리스크 수준’을 기반으로 분류하는 데 이 논문의 접근 방식을 응용할 수 있다. 🛡️
예를 들어, USDC 트랜잭션 데이터를 통해 고객 지갑의 패턴을 분석하여 ‘정상 활동 고객’, ‘잠재적 사기 관련 고객’, ‘비정상적 활동 고객’ 등으로 분류할 수 있다. 이는 마케팅 캠페인을 기획할 때 고객의 안전성과 신뢰도를 고려하여 타겟팅의 우선순위를 정하거나, 특정 프로모션 적용 대상을 선별하는 데 활용될 수 있다.
특히, 본 연구에서 TfidfVectorizer를 사용하여 텍스트 기반 특징을 추출하고, XGBoost와 같은 강력한 분류 모델을 활용한 점은 USDC 트랜잭션 데이터 분석에도 시사하는 바가 크다. USDC 트랜잭션에는 트랜잭션 메시지, 관련된 스마트 컨트랙트 코드, DApp 상호작용 기록 등 텍스트 형태의 비정형 데이터가 포함될 수 있으며, 이를 Tfidf와 같은 기법으로 특징화하여 고객 분류 모델에 활용할 수 있다.
또한, Streamlit을 통한 실시간 웹 앱 구현은 WEB3 CRM에서 고객 분류 모델이 단순히 백엔드에서 작동하는 것을 넘어, 마케터나 서비스 운영자가 실시간으로 고객 지갑의 상태를 확인하고 대응할 수 있는 운영 효율성의 중요성을 강조한다. 이는 고객 이탈 징후를 실시간으로 감지하고 선제적인 액션을 취하는 퍼포먼스 마케팅에 결정적인 기여를 할 것이다. 궁극적으로 이 논문은 WEB3 환경에서 고객 분류가 단순한 마케팅 활동을 넘어, 블록체인 생태계의 보안 및 사용자 신뢰 구축과 밀접하게 연결될 수 있음을 보여준다.