암호화폐 시계열 데이터를 하위 범주(subseries)로 분류하고 각 범주에 특화된 Temporal Fusion Transformer(TFT)를 훈련하여, 암호화폐 가격 예측 정확도를 개선한 연구 논문이다.
논문 요약
- 논문 제목: Leveraging Time Series Categorization and Temporal Fusion Transformers to Improve Cryptocurrency Price Forecasting
- 저자: Arash Peik, Mohammad Ali Zare Chahooki, Amin Milani Fard, Mehdi Agha Sarram
- 게재 학술지: arXiv (Preprint CoRR, abs/2412.14529, To appear at Canadian AI Conf. 2025)
- 발행 연도: 2024
- 핵심 요약: 본 연구는 BTC, ETH, XRP 등 주요 암호화폐의 시계열 데이터를 하위 subseries로 분류한 뒤, 각 카테고리에 별도의 Temporal Fusion Transformer(TFT)를 훈련하여 다양한 암호화폐 가격 예측 정확도를 개선했다. 이를 통해 기존 TFT 단독 모델 대비 예측 성능을 향상시키는 데 성공했다.
해결하려는 문제
본 연구는 암호화폐 시장의 복잡하고 이질적인 시계열 특성으로 인해 단일 모델로 정확한 가격 예측을 수행하기 어려운 문제를 해결하고자 했다. 특히, 시계열 데이터 내에 존재하는 다양한 패턴(상승, 하락, 횡보 등)을 효과적으로 학습하지 못하는 기존 모델의 한계를 극복하고자 했다.
연구 모형
본 연구는 **시계열 분류(Time Series Categorization)**와 **Temporal Fusion Transformer(TFT)**를 결합한 예측 체계를 제안한다. 먼저, 암호화폐 시계열 데이터를 변동률 기반으로 분석하여 특정 길이의 **하위 시계열(subseries)**로 나눈다. 이 subseries들은 특성에 따라 여러 카테고리로 분류된다. 이후, 각 카테고리에 대해 별도의 TFT 모델을 훈련시킨다. 예측 단계에서는 Selector Network와 Markov Selector를 활용하여 입력 시계열이 어떤 카테고리에 속하는지 판단하고, 해당 카테고리에 특화된 TFT 모델의 예측 결과를 반영하여 최종 예측값을 도출한다. 이 방식은 각 시계열 유형의 고유한 패턴을 개별 모델이 더 잘 학습하도록 유도한다.
데이터 설명
- 출처: BTC, ETH, XRP 등 주요 암호화폐의 OHLCV(Open, High, Low, Close, Volume) 기반 시계열 데이터를 사용했다.
- 수집 방법: 시계열 데이터의 변동률을 계산한 후, 고정된 길이의 subseries를 슬라이딩 윈도 방식으로 추출했다. 이 과정에서 다른 암호화폐의 subseries도 함께 활용하여 학습 데이터의 다양성과 양을 증가시켰다.
- 데이터 변수 설명: OHLCV는 암호화폐의 일별 또는 시간별 시가, 고가, 저가, 종가, 거래량을 나타내는 기본적인 시계열 변수이다. 이러한 원시 데이터를 기반으로 계산된 변동률은 시계열의 패턴을 분류하는 데 활용된다.
데이터 분석
본 연구는 추출된 subseries를 기반으로 Temporal Fusion Transformer(TFT) 모델을 훈련하고, Selector Network 및 Markov Selector를 포함하는 예측 체계를 통해 암호화폐 가격 예측을 수행했다. 모델의 성능은 평균 예측 정확도를 기준으로 측정되었으며, 기존의 단독 TFT 모델과 비교 분석했다.
핵심 결과
본 연구의 핵심 결과는 subseries 분류 기반 TFT 모델이 단일 TFT 모델보다 평균 예측 정확도를 7% 향상시켰으며, 전반적인 예측 정확도를 10% 개선했다는 점이다. 이는 각 시계열 카테고리의 특성에 맞춘 학습이 예측 성능 향상에 매우 효과적임을 입증한다.
시사점
본 연구는 복잡한 시계열 데이터를 여러 하위 범주로 분류하고 각 범주에 특화된 모델을 적용하는 접근 방식이 예측 정확도를 크게 향상시킬 수 있음을 시사한다. 이는 암호화폐 시장뿐만 아니라 다양한 금융 시계열 데이터 분석 및 예측 모델 개발에 활용될 수 있는 일반적인 방법론의 가능성을 보여준다. 또한, 사용자 유형별 맞춤 전략 수립 및 고빈도 거래자/장기 보유자 등 세분화된 고객군 대상 차별화된 대응 가능성을 제공한다.
인사이트
AI 빅데이터 마케터 관점에서 본 논문의 ‘시계열 분류’ 및 ‘Subseries 모델링’ 개념은 WEB3 CRM의 고객 분류(Segmentation)에 혁신적인 아이디어를 제공한다. 💡 제 연구 목표인 듄 애널리틱스에서 수집한 USDC 스테이블 코인 트랜잭션 데이터는 단순히 하나의 긴 시계열이 아니라, 고객 지갑별로 다양한 패턴을 가진 복합적인 시계열 데이터로 볼 수 있다. 특정 고객은 고빈도 소액 거래 패턴을 보일 수 있고, 다른 고객은 장기적인 대규모 예치 패턴을 보일 수 있다.
본 논문처럼 USDC 트랜잭션 데이터를 ‘Subseries’로 분류하고, 각 분류에 맞는 개별 TFT 모델을 훈련한다면, WEB3 고객의 행동을 더욱 세밀하게 파악하고 분류할 수 있다. 예를 들어, ‘고빈도 거래자’, ‘장기 보유자’, ‘DeFi 참여자’, ‘NFT 투자자’ 등 온체인 행동 유형에 따라 고객을 세분화하고, 각 유형에 맞는 맞춤형 CRM 전략을 수립할 수 있다. 이는 WEB2 CRM의 고객 생애 가치(LTV) 및 고객 행동 패턴 분석을 WEB3 환경에 최적화하여 적용하는 것을 의미한다.
또한, 본 연구에서 사용된 Selector Network는 새로운 고객 지갑의 트랜잭션 패턴이 어떤 유형에 속하는지 자동으로 판단하여 해당 유형에 맞는 CRM 전략을 추천하는 데 활용될 수 있다. 이는 개인화된 마케팅 캠페인의 효율성을 극대화하고, 고객 이탈 징후를 조기에 감지하여 선제적인 리텐션 마케팅을 가능하게 할 것이다. 궁극적으로 이 논문의 접근 방식은 WEB3 고객의 복잡하고 동적인 행동을 이해하고, 이를 기반으로 퍼포먼스 마케팅의 정확도와 효과를 대폭 향상시킬 수 있는 강력한 방법론적 기반을 제공한다.