이커머스 상품의 미래 수요량을 예측하기 위해, 과거 판매량, 프로모션, 계절성 등 시계열 데이터를 순환신경망(LSTM)으로 학습시켜, 전통적인 통계 모델보다 더 정확한 예측을 달성하는 방법론을 제시한다.
논문 요약
- 논문 제목: 이커머스 시장의 수요 트렌드 예측을 위한 딥러닝 모델에 대한 연구
- 저자: 이재훈
- 게재 학술지: 인천대학교 동북아물류대학원 (석사학위논문)
- 발행 연도: 2021
- 핵심 요약: 전자상거래 시장의 상품별 수요량을 정확하게 예측하기 위해, 딥러닝 기반의 시계열 예측 모델인 LSTM(Long Short-Term Memory)을 활용했다. 과거 상품 판매량, 프로모션 정보, 계절성 등 다양한 변수를 포함한 시계열 데이터를 LSTM 모델에 학습시킨 결과, 전통적인 통계 기반 시계열 모델인 ARIMA보다 예측 오차가 현저히 감소함을 보였다. 이는 복잡한 이커머스 수요 패턴 예측에 딥러닝 모델이 더 효과적임을 시사한다.
연구 배경
“다음 달, 이 상품은 과연 몇 개나 팔릴까?” 이 질문에 대한 정확한 답은 기업의 재고 비용과 기회 손실을 결정한다. 이 연구는 인공지능, 특히 인간의 ‘기억’을 모방한 딥러닝 모델을 통해 이 질문에 대한 더 나은 답을 찾고자 한다.
**수요 예측(Demand Forecasting)**은 모든 기업, 특히 재고 관리가 중요한 이커머스 및 유통 기업의 핵심적인 경영 활동이다. 미래의 수요를 정확하게 예측할 수 있다면, 기업은 다음과 같은 이점을 얻을 수 있다.
- 재고 최적화: 과잉 재고로 인한 보관 비용 및 폐기 손실을 최소화할 수 있다.
- 기회 손실 방지: 재고 부족으로 인해 상품을 팔지 못하는 상황(품절)을 막을 수 있다.
- 효율적인 자원 배분: 생산, 물류, 마케팅 등 공급망 전체의 계획을 효율적으로 수립할 수 있다.
전통적으로 이러한 수요 예측과 같은 **시계열 분석(Time-series Analysis)**에는 **ARIMA(Autoregressive Integrated Moving Average)**와 같은 통계적 모델이 널리 사용되어 왔다. ARIMA는 과거 데이터의 추세와 계절성 등 자체적인 패턴을 기반으로 미래를 예측하는 데 효과적이지만, 프로모션, 공휴일, 경쟁사 활동 등 다양한 **외부 변수(Exogenous Variables)**의 영향을 모델에 통합하기 어렵다는 한계가 있다.
이러한 한계를 극복하기 위해, 본 연구는 딥러닝 기반의 접근법, 그 중에서도 순차적인 데이터 처리에 특화된 **순환신경망(Recurrent Neural Network, RNN)**의 일종인 LSTM(Long Short-Term Memory) 모델을 도입한다. LSTM은 내부에 ‘기억 세포(Memory Cell)’를 가지고 있어, 과거의 중요한 정보를 잊지 않고 오랫동안 기억하여 현재의 예측에 활용할 수 있다. 이는 복잡한 패턴과 장기적인 의존성을 가진 시계열 데이터를 분석하는 데 매우 강력한 성능을 보인다.
해결하려는 문제
계절성, 프로모션, 유행 등 복잡하고 비선형적인 요인에 영향을 받는 이커머스 상품 수요를, 전통적인 통계 모델의 한계를 넘어 딥러닝 시계열 모델을 통해 더 정확하게 예측한다.
이커머스 시장의 상품 수요는 매우 변동성이 크고 복잡한 패턴을 보인다.
- 계절성(Seasonality): 여름에는 에어컨이, 겨울에는 난방기구가 잘 팔린다.
- 이벤트 효과(Event Effect): 블랙프라이데이와 같은 대규모 할인 행사 기간에는 수요가 폭증한다.
- 외부 요인(External Factors): 미디어 노출, 인플루언서의 추천, 경쟁사의 신제품 출시 등에 따라 수요가 급변한다.
ARIMA와 같은 전통적인 통계 모델은 이러한 복잡하고 비선형적인 요인들의 영향을 모두 반영하여 정확한 예측을 하는 데 어려움이 있다. 예를 들어, 특정 프로모션의 효과가 항상 동일하지 않고, 다른 요인들과 어떻게 상호작용하는지를 모델링하기가 까다롭다.
이 연구가 해결하고자 하는 문제는 바로 이러한 ‘복잡한 시계열 예측의 정확도’ 문제이다. 다양한 내부 및 외부 변수들을 동시에 고려하고, 그들 사이의 비선형적 관계를 스스로 학습할 수 있는 LSTM 딥러닝 모델을 통해, 기존 모델보다 더 정확하고 신뢰할 수 있는 수요 예측을 달성하는 것을 목표로 한다.
연구 모형
과거 상품 판매량 시계열 데이터와 관련 외부 변수(프로모션 정보 등)를 입력으로 하여, 미래의 특정 시점 판매량을 예측하는 다변량 시계열 예측(Multivariate Time-series Forecasting) LSTM 모델을 구축한다.
본 연구는 상품의 미래 수요를 예측하기 위해, 다음과 같은 딥러닝 기반의 시계열 예측 모델링 절차를 따랐다.
- 데이터 준비 및 특징 공학:
- 상품별 일별/주별 판매량 데이터를 수집한다. 이것이 예측의 대상이 되는 **주요 시계열(Endogenous Variable)**이다.
- 예측에 도움을 줄 수 있는 **외부 변수(Exogenous Variables)**를 수집한다. (예: 프로모션 진행 여부, 공휴일 정보, 가격 정보 등)
- 모든 데이터를 시간순으로 정렬하고, 모델 학습에 적합하도록 정규화(Normalization) 등의 전처리 과정을 거친다.
- 시퀀스 데이터 구성:
- LSTM 모델 학습을 위해, 데이터를 ‘입력 시퀀스(Input Sequence)’와 ‘타겟 시퀀스(Target Sequence)’의 쌍으로 구성한다.
- 예를 들어, “과거 30일간의 판매량과 프로모션 데이터를 입력(Input)으로 사용하여, 향후 7일간의 판매량을 예측(Target)하도록” 데이터를 구조화한다.
- LSTM 모델 구축 및 학습:
- 입력층, 여러 개의 LSTM 레이어, 출력층으로 구성된 딥러닝 모델을 설계한다.
- 준비된 시퀀스 데이터를 사용하여 모델을 학습시킨다. 모델은 과거 데이터의 패턴으로부터 미래를 예측하는 방법을 스스로 학습한다.
- 성능 비교 평가:
- 학습된 LSTM 모델의 예측 결과를 전통적인 시계열 모델인 ARIMA의 예측 결과와 비교한다.
- RMSE(Root Mean Squared Error), MAPE(Mean Absolute Percentage Error) 등과 같은 평가지표를 사용하여, 어떤 모델이 실제 값에 더 가까운 예측을 하는지, 즉 예측 오차가 더 적은지를 정량적으로 평가한다.
데이터 설명
특정 이커머스 기업의 과거 상품별 판매량 데이터를 활용했으며, 시간의 흐름에 따른 판매 기록과 프로모션 이벤트 정보 등을 포함하는 시계열 형태의 오프체인(Off-chain) 데이터이다.
- 출처: 논문에 구체적인 출처는 명시되지 않았으나, 특정 이커머스 기업의 내부 판매 데이터나 재고 관리 시스템에서 추출된 데이터를 사용한 것으로 보인다. 이는 전형적인 오프체인(Off-chain) 데이터이다.
- 수집 방법: 기업 내부의 데이터베이스에서 특정 기간 동안의 상품별 판매 기록을 시계열 형태로 추출했을 것이다.
- 데이터 변수 설명: 본 연구는 다변량 시계열 예측 문제이므로, 다음과 같은 유형의 변수들이 사용되었다.
- 핵심 시계열 변수 (Endogenous Variable – 예측 대상):
일별/주별 상품 판매량 (Sales_Volume)
: 모델이 최종적으로 예측해야 하는 값.
- 외부 설명 변수 (Exogenous Variables – 예측에 사용되는 추가 정보):
- 시간 기반 변수:
요일
,월
,주차(Week of Year)
등 시간의 흐름에 따른 주기성(계절성)을 나타내는 변수. - 이벤트 기반 변수:
프로모션 진행 여부
,주요 공휴일 여부
,특별 할인 이벤트 여부
. - 가격 관련 변수:
평균 판매 단가
,할인율
. - 상품 관련 변수:
상품 카테고리
,브랜드
.
- 시간 기반 변수:
- 핵심 시계열 변수 (Endogenous Variable – 예측 대상):
데이터 분석
다양한 변수를 포함한 시계열 데이터를 LSTM 모델에 학습시킨 결과, 전통적인 시계열 분석 모델인 ARIMA보다 예측 오차가 현저히 감소하여 딥러닝 모델의 우수한 성능을 확인했다.
본 연구의 데이터 분석은 딥러닝 모델과 전통적인 통계 모델의 예측 성능을 공정하게 비교하는 데 중점을 두었다.
먼저, 상품 판매량 데이터에 전통적인 시계열 분석 기법인 ARIMA 모델을 적용하여 미래 수요를 예측했다. 그 다음, 동일한 데이터에 판매량뿐만 아니라 프로모션, 요일 등 다양한 외부 변수까지 포함하여 LSTM 딥러닝 모델을 학습시키고 미래 수요를 예측했다.
두 모델이 예측한 미래의 판매량 값을 실제 판매량 값과 비교하여 예측 오차를 계산했다. 분석 결과, LSTM 모델의 예측 오차(RMSE, MAPE 등)가 ARIMA 모델의 예측 오차보다 훨씬 더 작게 나타났다. 이는 LSTM 모델이 과거 판매량의 패턴뿐만 아니라, 프로모션이나 요일과 같은 다양한 외부 요인들의 복합적인 영향을 효과적으로 학습하여, 더 정확한 예측을 해냈음을 의미한다.
핵심 결과
딥러닝 기반의 LSTM 모델은 과거 데이터의 복잡한 시계열 패턴(추세, 계절성)과 외부 변수(프로모션 등)의 영향을 동시에 학습하여, 전통적인 통계 모델보다 더 정확한 미래 수요 예측을 할 수 있음을 증명했다.
이 연구의 핵심 결과는, 복잡하고 변동성이 큰 이커머스 환경의 수요 예측 문제에 있어 딥러닝 시계열 모델이 매우 효과적인 해결책이 될 수 있음을 실험적으로 입증한 것이다.
ARIMA와 같은 전통적인 모델이 주로 데이터의 자기상관성(Autocorrelation)에 의존하는 반면, LSTM 모델은 여러 개의 입력 변수 간의 복잡한 비선형 관계를 학습할 수 있는 능력을 가지고 있다. 예를 들어, “주말이면서 동시에 프로모션이 진행될 때” 판매량이 폭발적으로 증가하는 복합적인 패턴을 데이터로부터 스스로 학습할 수 있다.
이러한 능력 덕분에 LSTM 모델은 더 정확한 예측을 제공할 수 있었으며, 이는 딥러닝 기술이 시계열 예측 분야에서 가지는 높은 잠재력과 실용성을 명확히 보여주는 결과이다.
시사점
정확한 수요 예측은 재고 비용 최소화와 판매 기회 손실 방지를 위한 핵심 요소이며, 복잡한 시장 환경에서는 LSTM과 같은 딥러닝 시계열 모델의 도입이 기업의 공급망 관리(SCM) 경쟁력을 획기적으로 높일 수 있다.
이 연구는 이커머스 및 유통 기업의 운영 전략에 다음과 같은 중요한 시사점을 제공한다.
첫째, 데이터 기반의 공급망 관리(SCM) 혁신이 가능하다. 정확한 수요 예측은 SCM의 가장 첫 단추이다. 딥러닝을 통해 예측의 정확도를 높이면, 이는 곧바로 최적의 재고 수준 유지, 효율적인 물류 계획, 합리적인 생산 계획으로 이어진다. 이는 기업 전체의 비용을 절감하고 수익성을 높이는 핵심적인 동력이 된다.
둘째, 예측 모델링의 기술적 진보를 적극적으로 수용해야 한다. 과거에 통계적 방법론으로 해결하기 어려웠던 많은 예측 문제들이, 이제 LSTM을 비롯한 딥러닝 기술의 발전으로 인해 해결 가능한 영역으로 들어오고 있다. 기업들은 이러한 최신 기술 동향을 주시하고, 자사의 비즈니스 문제에 적용하여 경쟁 우위를 확보하려는 노력이 필요하다.
인사이트
과거의 ‘점’들을 연결하여 미래의 ‘선’을 그려라.
이 논문은 데이터 분석의 본질이 과거를 설명하는 것을 넘어, 미래를 예측하고 대비하는 데 있음을 보여준다. 고객의 행동, 시장의 트렌드는 모두 시간의 흐름 속에 패턴을 남긴다. 딥러닝 시계열 모델은 바로 이 흩어져 있는 과거의 점(데이터)들을 연결하여, 가장 가능성 높은 미래의 선(예측)을 그려내는 강력한 도구이다.
- 페르소나 예시: “유동성 공급(LP) 포트폴리오 매니저, 리나(Lina)”
- 특징: 리나는 여러 DeFi 프로토콜의 유동성 풀에 자산을 공급하고, 그로부터 발생하는 수수료 수익과 토큰 보상을 관리한다. 그녀의 핵심 과제는 미래의 수수료 수입과 LP 토큰의 가치 변동을 예측하여, 어떤 풀에 자산을 배분하고 언제 자금을 회수할지를 결정하는 것이다. 그녀에게는 각 유동성 풀의 ‘미래 수요(거래량)’를 예측하는 것이 매우 중요하다.
- 데이터 기반 행동: 여러 DeFi 프로토콜의 유동성 풀에 자산을 분산 예치, 주기적으로 APY(연간수익률)를 비교하고 자산을 재배치(리밸런싱)하는 패턴.
- 실질적인 마케팅 액션 제안:
- DEX 거래량 예측 대시보드 제공: 이 논문의 방법론을 활용하여, 주요 DEX의 각 유동성 풀(예: USDC-ETH 풀)에 대한 미래 거래량 및 예상 수수료 수익을 예측하는 딥러닝 모델을 구축한다. 이 예측 정보를 ‘리나’와 같은 전문 LP들을 위한 유료 분석 대시보드(예: Nansen, Glassnode)를 통해 제공하여, 데이터 기반의 유동성 공급 결정을 돕는다.
- 수요 예측 기반의 동적 보상 시스템(Dynamic Incentive Mechanism): 수요 예측 모델을 통해 특정 풀의 거래량이 감소할 것으로 예측될 때, 해당 풀의 유동성 채굴(Liquidity Mining) 보상을 자동으로 일시 상향 조정하여 LP들의 이탈을 막고 유동성을 안정적으로 유지하는 동적 인센티브 시스템을 설계하고 운영한다.
- 신규 풀(Pool) 수요 예측 및 사전 마케팅: 새로운 토큰 페어에 대한 유동성 풀을 출시하기 전에, 관련 토큰들의 과거 거래량, 소셜 미디어 언급량, 시장 변동성 등을 변수로 사용하여 해당 풀의 초기 수요(거래량)를 예측한다. 수요가 높을 것으로 예측되는 유망한 풀에 대해서만 집중적으로 사전 마케팅을 진행하여, 자원 낭비 없이 성공적으로 풀을 활성화시킨다.