그래디언트 부스팅 모델을 활용한 상점 매출 예측 리뷰

과거 신용카드 매출 데이터를 시계열 특징으로 변환하고, 강력한 머신러닝 기법인 그래디언트 부스팅(XGBoost)을 적용하여 미래의 상점 매출을 정확하게 예측하는 방법론을 제시한다.


논문 요약

  • 논문 제목: 그래디언트 부스팅 모델을 활용한 상점 매출 예측
  • 저자: 최재영 외
  • 게재 학술지: 한국정보통신학회논문지
  • 발행 연도: 2021
  • 핵심 요약: 특정 프랜차이즈 상점들의 과거 신용카드 매출 데이터를 기반으로, XGBoost와 LightGBM 같은 그래디언트 부스팅 계열의 모델을 사용하여 미래 단기 매출을 예측했다. 특히, 시계열 데이터의 특성을 반영한 다양한 파생 변수(Lag, 이동평균 등)를 생성하고, 여러 결측치 처리 방법에 따른 예측 성능을 비교 분석하여 최적의 예측 모델링 방안을 탐구했다.

연구 배경

기업의 모든 의사결정은 미래에 대한 ‘예측’에서 출발한다. 이 연구는 전통적인 통계 모델을 넘어, 더 정확하고 정교한 예측을 가능하게 하는 머신러닝 기법, 특히 ‘예측의 왕’이라 불리는 그래디언트 부스팅의 가능성을 탐구한다.

**수요 예측(Demand Forecasting)**은 모든 비즈니스의 핵심적인 활동이다. 다음 달 매출을 정확히 예측할 수 있다면, 기업은 재고를 얼마나 쌓아둬야 할지, 직원을 몇 명이나 배치해야 할지, 마케팅 예산을 얼마나 써야 할지를 합리적으로 결정할 수 있다. 부정확한 예측은 과잉 재고로 인한 손실이나, 재고 부족으로 인한 기회 상실로 이어진다.

전통적으로 매출 예측과 같은 **시계열 분석(Time-series Analysis)**에는 ARIMA와 같은 통계적 모델이 널리 사용되어 왔다. 하지만 이러한 모델들은 데이터가 복잡한 패턴을 가지거나, 프로모션이나 휴일 같은 외부 요인의 영향을 설명하는 데 한계가 있었다.

이러한 한계를 극복하기 위해, 최근에는 머신러닝, 특히 앙상블(Ensemble) 기법이 각광받고 있다. 앙상블은 여러 개의 간단한 모델(약한 학습기, Weak Learner)을 결합하여 하나의 매우 강력한 모델을 만드는 기법이다. 그중에서도 **그래디언트 부스팅(Gradient Boosting)**은 현재 가장 널리 쓰이는 예측 알고리즘 중 하나이다. 그래디언트 부스팅은 결정 트리(Decision Tree)를 순차적으로 만들어나가며, 이전 트리가 예측하지 못한 오차를 다음 트리가 보완하고 학습하는 방식으로 작동한다. 이는 마치 한 팀의 전문가들이 차례대로 의견을 내면서, 앞선 사람의 실수를 다음 사람이 수정하여 점점 더 완벽한 결론에 도달하는 과정과 같다.

본 연구에서는 이 그래디언트 부스팅 알고리즘을 최적화하고 고도화한 **XGBoost(eXtreme Gradient Boosting)**와 LightGBM을 사용하여, 실제 상점의 매출 예측 문제에 적용하고 그 성능을 평가한다.


해결하려는 문제

과거 경험이나 단순 통계에 의존하는 주관적인 매출 예측을 넘어, 데이터에 기반한 머신러닝 모델을 통해 미래 매출을 객관적이고 정확하게 예측하여 비즈니스 의사결정의 질을 높인다.

많은 소상공인이나 프랜차이즈 점주들은 “작년 이맘때쯤엔 이 정도 팔렸으니, 올해도 비슷하겠지”와 같은 경험적 판단이나 단순 평균에 의존하여 미래 매출을 예측한다. 이러한 방식은 갑작스러운 시장 변화, 새로운 경쟁자의 등장, 특정 이벤트(프로모션, 휴일 등)의 영향을 제대로 반영하지 못해 예측이 빗나가는 경우가 많다.

이 연구가 해결하고자 하는 문제는 바로 이러한 예측의 불확실성과 부정확성이다. 과거 매출 데이터 속에 숨어있는 복잡한 패턴(계절성, 추세, 주기 등)과 다양한 외부 요인들의 영향을 모두 고려하는 정교한 예측 모델을 구축하는 것을 목표로 한다. 이를 통해, 상점 관리자가 재고 관리, 인력 운용, 마케팅 전략 수립 등 다양한 의사결정을 할 때, ‘감’이 아닌 ‘데이터’에 기반하여 더 합리적이고 효율적인 선택을 할 수 있도록 돕고자 한다.


연구 모형

과거 시계열 매출 데이터로부터 날짜, 요일, 프로모션 여부 등 다양한 특징(Feature)을 생성하고, 이를 그래디언트 부스팅 회귀 모델(XGBoost)에 학습시켜 미래의 특정 기간 매출액을 예측한다.

본 연구는 시계열 예측 문제를 머신러닝의 회귀(Regression) 문제로 변환하여 해결하는 접근법을 사용한다. 그 과정은 다음과 같은 표준적인 머신러닝 워크플로우를 따른다.

  1. 데이터 전처리 (Data Preprocessing): 일별 또는 주별 상점 매출 데이터를 수집한다. 상점 휴무일 등으로 인해 발생한 결측치를 적절한 방법(예: 0으로 채우기, 평균값으로 채우기 등)으로 처리한다.
  2. 특징 공학 (Feature Engineering): 단순한 (날짜, 매출액) 시계열 데이터를 머신러닝 모델이 학습할 수 있는 풍부한 특징(Feature) 데이터셋으로 변환한다. 이 과정이 모델의 성능을 좌우하는 가장 중요한 단계이다.
    • 시간 기반 특징: 날짜로부터 연도, , , 요일, 주말 여부 등을 추출한다.
    • 지연 특징 (Lag Features): 1일 전 매출, 7일 전 동일 요일 매출 등을 변수로 추가하여, 모델이 최근의 추세와 주간 계절성을 학습하게 한다.
    • 이동 평균 특징 (Moving Average Features): 최근 7일간의 평균 매출 등을 변수로 추가하여, 단기적인 변동성을 완화하고 전체적인 추세를 파악하게 한다.
  3. 모델 학습 (Model Training): 이렇게 생성된 풍부한 특징 데이터셋을 XGBoost, LightGBM과 같은 그래디언트 부스팅 회귀 모델에 입력하여, 특징들과 매출액 사이의 복잡한 관계를 학습시킨다.
  4. 예측 및 평가 (Prediction & Evaluation): 학습된 모델을 사용하여 미래 특정 기간의 매출액을 예측하고, 실제 매출액과 비교하여 예측 오차(예: RMSE, MAE)를 계산하고 모델의 정확도를 평가한다.

데이터 설명

국내 특정 프랜차이즈 가맹점들의 과거 신용카드 거래 데이터를 활용했으며, 이는 특정 기간 동안의 일별/주별 매출액을 포함하는 시계열 형태의 오프체인(Off-chain) 데이터이다.

  • 출처: 논문에 구체적인 출처는 명시되지 않았으나, 국내 특정 프랜차이즈 본사 또는 신용카드사와의 협력을 통해 확보한 실제 가맹점 매출 데이터로 추정된다. 이는 기업 내부의 정산 시스템에서 관리되는 오프체인(Off-chain) 데이터이다.
  • 수집 방법: 기업 내부의 POS(Point of Sale) 시스템 데이터나 카드사 정산 데이터를 특정 상점 ID와 날짜를 기준으로 집계하여 시계열 형태로 구성했을 것으로 보인다.
  • 데이터 변수 설명: 본 연구의 핵심은 원본 시계열 데이터로부터 다양한 파생 변수를 만드는 ‘특징 공학’에 있다.
    • 원본 데이터의 기본 속성:
      • Date: 날짜
      • StoreID: 상점 고유 ID
      • SalesAmount: 해당 날짜의 총 매출액 (이것이 예측의 대상, 즉 Target 변수)
    • 파생된 특징 변수 (Features):
      • 시간 기반 특징 (Time-based Features): Year, Month, Day, DayOfWeek, WeekOfYear, IsWeekend. 모델이 요일별, 월별 패턴을 학습하게 한다.
      • 지연 특징 (Lag Features): Sales_Lag_1 (1일 전 매출), Sales_Lag_7 (1주일 전 같은 요일 매출). 모델이 최근의 추세와 주간 계절성을 직접적으로 보도록 한다.
      • 이동 평균 특징 (Moving Average Features): Sales_MA_7 (최근 7일 이동평균 매출), Sales_MA_30 (최근 30일 이동평균 매출). 단기적인 노이즈를 제거하고 장기적인 추세를 파악하는 데 도움을 준다.
      • 이벤트 특징 (Event Features): IsPromotion (프로모션 기간 여부), IsHoliday (공휴일 여부). 예측에 큰 영향을 미치는 외부 요인을 반영한다.

데이터 분석

다양한 시계열 특징을 생성하여 XGBoost 모델을 학습시킨 결과, 전통적인 시계열 모델보다 훨씬 낮은 예측 오차를 보였으며, 특히 결측치를 효과적으로 처리하는 것이 모델 성능에 중요함을 확인했다.

본 연구의 데이터 분석은 크게 특징 공학모델 성능 비교의 두 부분으로 구성된다.

분석의 첫 단계에서는 위 ‘데이터 설명’ 섹션에서 언급된 다양한 시계열 특징들을 체계적으로 생성했다. 이는 단순한 날짜별 매출액 데이터를, 각 시점이 풍부한 맥락(요일, 과거 매출, 추세, 이벤트 등)을 가지는 고차원의 데이터셋으로 변환하는 과정이다.

다음으로, 이렇게 생성된 데이터를 활용하여 XGBoost, LightGBM과 같은 그래디언트 부스팅 모델을 학습시키고 예측 성능을 측정했다. 또한, 이 과정에서 휴무일 등으로 인해 발생한 매출액 결측치를 어떻게 처리하는 것이 최선인지에 대한 비교 실험을 수행했다. 예를 들어, 결측치를 0으로 처리하는 경우, 평균값으로 대체하는 경우, 보간법을 사용하는 경우 각각에 대해 모델을 학습시키고 예측 오차(RMSE)를 비교하여, 데이터의 특성에 맞는 최적의 결측치 처리 방안을 모색했다.

분석 결과, 정교한 특징 공학을 거친 그래디언트 부스팅 모델은 전통적인 통계 기반 시계열 모델에 비해 훨씬 낮은 예측 오차를 기록하며 그 우수성을 입증했다.


핵심 결과

XGBoost와 같은 그래디언트 부스팅 모델은 복잡한 시계열 패턴과 다양한 외부 요인을 효과적으로 학습하여, 미래 매출을 높은 정확도로 예측할 수 있음을 실험적으로 증명했다.

본 연구의 핵심 결과는, 정교한 특징 공학(Feature Engineering)과 강력한 머신러닝 알고리즘(Gradient Boosting)의 조합이 복잡한 시계열 예측 문제에 매우 효과적이라는 것을 실증적으로 보여준 것이다.

단순히 (날짜, 매출액) 데이터만 사용하는 대신, 요일, 과거 매출(Lag), 이동 평균(Moving Average) 등 다양한 관점의 특징들을 만들어 모델에 제공함으로써, 모델이 데이터에 내재된 복잡한 패턴을 스스로 학습할 수 있게 했다. 그 결과, XGBoost와 LightGBM 모델은 미래의 매출을 매우 높은 정확도로 예측하는 데 성공했다. 이는 데이터 기반의 정량적 매출 예측이 더 이상 일부 대기업의 전유물이 아니라, 잘 정제된 데이터와 검증된 알고리즘만 있다면 어떤 비즈니스 환경에서도 효과적으로 적용될 수 있음을 시사한다.


시사점

정확한 수요 예측은 데이터 기반의 정교한 특징 공학(Feature Engineering)과 강력한 머신러닝 알고리즘의 결합을 통해 가능하며, 이는 기업 운영의 효율성을 극대화하는 핵심 동력이다.

이 연구는 매출 예측 및 수요 예측을 필요로 하는 모든 기업에 다음과 같은 중요한 실무적 시사점을 제공한다.

첫째, ‘특징 공학’이 모델의 성능을 좌우한다. 최고의 알고리즘을 사용하더라도, 입력되는 데이터의 질이 낮거나 정보가 부족하면 좋은 결과를 얻을 수 없다. 원본 데이터로부터 비즈니스에 대한 이해를 바탕으로 유의미한 파생 변수를 만들어내는 과정이 예측 프로젝트의 성패를 가르는 가장 중요한 단계임을 이 연구는 명확히 보여준다.

둘째, XGBoost와 같은 검증된 오픈소스 도구를 적극 활용해야 한다. 과거에는 복잡한 예측 모델을 구축하기 위해 높은 비용과 전문 인력이 필요했지만, 이제는 XGBoost, LightGBM과 같이 성능이 뛰어나고 사용하기 편리한 오픈소스 라이브러리들이 널리 보급되어 있다. 기업들은 이러한 도구를 적극적으로 활용하여 데이터 기반 의사결정 시스템을 비교적 쉽게 구축할 수 있다.


인사이트

미래는 예측하는 것이 아니라, 데이터를 통해 계산하는 것이다.

AI 빅데이터 마케터의 관점에서 이 논문은 ‘감’과 ‘경험’에 의존하던 비즈니스의 영역을 ‘데이터’와 ‘계산’의 영역으로 전환하는 과정을 명확히 보여준다. 정확한 미래 예측은 기업에게 불확실성이라는 가장 큰 리스크를 관리할 수 있는 강력한 무기를 제공하며, 이는 곧 비용 절감과 수익 증대로 이어진다.

  • 페르소나 예시: “프로토콜 재무 관리자, 핀(Finn)”
    • 특징: 핀은 특정 DeFi 프로토콜의 재무 및 성장을 책임지고 있다. 그는 다음 분기의 프로토콜 수수료 수입, 트랜잭션 볼륨, 신규 사용자 유입 등을 예측하여 예산 및 성장 전략을 수립해야 한다. 그에게는 과거 온체인 데이터에 기반한 정확한 미래 예측이 필수적이다.
    • 데이터 기반 행동 추정: Dune Analytics, Token Terminal 등에서 프로토콜의 핵심 지표(KPI) 데이터를 주기적으로 조회하고 분석함.
  • 실질적인 마케팅 액션 제안:
    1. 프로토콜 수입 예측 모델 구축: 이 논문의 방법론을 그대로 적용하여, 특정 DeFi 프로토콜의 일별/주별 수수료 수입을 예측하는 XGBoost 모델을 구축한다. 과거 수수료 데이터와 함께, 전체 암호화폐 시장 변동성 지수(VIX), 이더리움 평균 가스비, 경쟁 프로토콜의 주요 이벤트 등을 외부 특징으로 추가하여 예측 정확도를 높인다.
    2. 인센티브 프로그램 ROI 사전 예측: 새로운 마케팅 캠페인(예: 유동성 채굴 보상 2배 이벤트)을 시작하기 전에, 해당 캠페인이 미래의 트랜잭션 볼륨수수료 수입에 미칠 영향을 예측한다. 이를 통해 캠페인의 예상 ROI를 사전에 계산하고, 여러 캠페인 방안 중 가장 효과적인 것을 데이터 기반으로 선택한다.
    3. 동적 수수료 최적화 (Dynamic Fee Optimization): 시장 상황(가스비, 변동성)과 예측된 수요에 따라 프로토콜의 거래 수수료를 동적으로 조절하는 모델을 개발한다. 수요가 높을 것으로 예측될 때는 수수료를 약간 높여 수익을 극대화하고, 수요가 낮을 때는 수수료를 낮춰 거래를 활성화하는 등, 예측 모델을 기반으로 프로토콜의 재무 건전성을 최적화한다.