정부의 긴급재난지원금 사용 여부에 영향을 미치는 요인을 분석하기 위해, 전통적인 통계 모델(로지스틱 회귀)과 머신러닝(랜덤포레스트)의 설명력을 비교하고, 머신러닝이 더 복잡하고 현실적인 패턴을 포착함을 보여준다.
논문 요약
- 논문 제목: 긴급재난지원금 사용 여부에 영향을 미치는 요인에 대한 머신러닝과 로지스틱 회귀 기반 분석
- 저자: 이서영, 홍석철
- 게재 학술지: 재정학연구
- 발행 연도: 2021
- 핵심 요약: 2020년 지급된 긴급재난지원금의 사용 여부를 결정하는 가구 특성 요인을 분석했다. 이를 위해 전통적인 통계 모델인 로지스틱 회귀분석과 머신러닝 모델인 랜덤포레스트의 분석 결과를 비교했다. 그 결과, 랜덤포레스트가 변수 간의 복잡한 상호작용을 더 잘 포착하여 높은 설명력을 보였으며, ‘가구 소득 수준’과 ‘자녀 수’ 등이 지원금 사용 여부의 주요 영향 요인임을 밝혔다.
연구 배경
정부가 국민에게 돈을 나누어주는 정책을 폈을 때, 과연 그 돈은 의도대로 소비 진작에 쓰였을까, 아니면 저축되었을까? 이 연구는 이 질문에 대한 답을 찾기 위해, 전통적인 경제학 분석 도구와 최신 머신러닝 도구를 모두 사용하여 정책의 실제 효과를 더 깊이 이해하고자 한다.
**정책 평가(Policy Evaluation)**는 정부나 공공기관이 시행한 특정 정책이 원래 의도했던 목표를 얼마나 잘 달성했는지를 과학적으로 분석하는 연구 분야이다. 2020년 코로나19 팬데믹 상황에서 지급된 긴급재난지원금은 소비를 진작시켜 침체된 경기를 활성화하려는 명확한 목표를 가지고 있었다. 따라서 “어떤 특성을 가진 사람들이 지원금을 소비했는가?”를 분석하는 것은 향후 유사한 정책을 더 효과적으로 설계하는 데 매우 중요하다.
이러한 분석에는 전통적으로 **로지스틱 회귀(Logistic Regression)**와 같은 통계 모델이 널리 사용되어 왔다. 로지스틱 회귀는 특정 사건의 발생 확률(예: 지원금 사용=1, 미사용=0)을 예측하는 모델로, 각 변수가 결과에 미치는 영향을 명확하게 해석할 수 있다는 큰 장점이 있다. 예를 들어, “소득이 100만 원 증가할 때 지원금 사용 확률이 몇 % 감소한다”와 같이 직관적인 설명이 가능하다. 하지만 이 모델은 변수와 결과 간에 선형적인 관계가 있다고 가정하는 한계가 있다.
반면, 머신러닝 분류 모델(Machine Learning Classifiers), 특히 본 연구에서 사용된 **랜덤포레스트(Random Forest)**는 여러 개의 결정 트리(Decision Tree)를 결합한 앙상블 모델이다. 이 모델의 가장 큰 장점은 변수 간의 비선형(Non-linear) 관계나 복잡한 상호작용(Interaction) 효과를 자동으로 포착할 수 있다는 점이다. 예를 들어, 자녀의 존재가 지원금 사용에 미치는 영향이 고소득 가구와 저소득 가구에서 다르게 나타나는 복합적인 효과를 스스로 학습할 수 있다.
본 연구는 이 두 가지 상반된 장단점을 가진 모델을 모두 사용하여, 복잡한 인간의 소비 행동을 분석하는 데 어떤 접근법이 더 적합한지를 비교 평가한다.
해결하려는 문제
재난지원금 정책의 효과를 정확히 이해하기 위해, 어떤 특성을 가진 가구가 지원금을 실제 소비로 연결했는지 분석하고, 전통적 통계 모델과 머신러닝 모델 중 어떤 접근법이 이 복잡한 인간 행동을 더 잘 설명하는지 비교 평가한다.
정부의 재난지원금 정책 목표는 ‘소비 활성화’였다. 하지만 모든 가구가 지원금을 동일하게 소비하지는 않았다. 어떤 가구는 생필품 구매 등 즉각적인 소비에 사용했을 것이고, 다른 가구는 미래를 위해 저축했을 수 있다. 정책의 실효성을 평가하기 위해서는 바로 이 **’사용 여부를 결정한 핵심 요인’**을 찾아내는 것이 중요하다.
하지만 인간의 소비 행동은 ‘소득이 낮으면 소비한다’와 같이 단순한 공식으로 설명되지 않는다. 소득, 자산, 가구 구성, 미래에 대한 불안감 등 수많은 요인들이 복합적으로 작용하여 결정된다.
따라서 이 연구가 해결하고자 하는 문제는 다음과 같다.
- 긴급재난지원금 사용 여부를 결정하는 주요 가구 특성은 무엇인가?
- 이러한 특성들의 영향을 분석하는 데 있어, 선형 관계를 가정하는 전통적인 로지스틱 회귀 모델과, 비선형 관계까지 포착하는 머신러닝 모델 중 어느 것이 더 현실을 잘 설명하는가?
궁극적으로는 더 나은 분석 방법론을 통해 정책 대상을 정교하게 설정하고 정책 효과를 극대화할 수 있는 방안을 모색하고자 한다.
연구 모형
가구의 인구통계학적, 사회경제적 특성 변수를 독립변수로, 재난지원금 사용 여부를 종속변수로 설정하고, 로지스틱 회귀 모델과 랜덤포레스트 모델을 각각 구축하여 변수 중요도와 예측 성능을 비교 분석한다.
본 연구는 동일한 데이터셋에 두 가지 다른 분석 모델을 적용하여 그 결과를 비교하는 비교 연구(Comparative Study) 모형을 채택했다.
- 모델 1: 로지스틱 회귀 분석 (Logistic Regression Analysis)
- 가구의 특성 변수들(소득, 자산, 자녀 수 등)이 지원금 사용 여부에 미치는 직접적인 영향을 분석한다.
- 각 변수의 회귀 계수(Coefficient)와 p-value를 통해, 어떤 변수가 통계적으로 유의미한지를 판단하고 그 영향의 방향성(+/-)과 크기를 해석한다.
- 모델 2: 랜덤포레스트 분석 (Random Forest Analysis)
- 동일한 변수들을 사용하여 랜덤포레스트 분류 모델을 학습시킨다.
- 모델 학습 후, **변수 중요도(Feature Importance)**를 추출하여 어떤 변수가 지원금 사용 여부를 분류하는 데 가장 큰 기여를 했는지 순위를 매긴다.
- 결과 비교:
- 두 모델의 설명력(예: Pseudo-R², AUC)을 비교하여 어떤 모델이 데이터를 더 잘 설명하는지 평가한다.
- 두 모델에서 공통적으로 중요하게 나타난 변수와, 한 모델에서만 중요하게 나타난 변수를 비교하여 머신러닝 모델이 포착한 추가적인 인사이트가 무엇인지 분석한다.
데이터 설명
국내 특정 광역시 거주 가구를 대상으로 수집된 설문조사 및 행정 데이터를 활용했으며, 가구의 소득, 자산, 구성원 특성 등을 포함하는 오프체인(Off-chain) 데이터이다.
- 출처: 논문에 구체적인 출처는 명시되지 않았으나, 특정 광역시와의 협력을 통해 확보한 가구 단위의 설문조사 데이터와 행정 데이터를 결합하여 사용한 것으로 보인다. 이는 오프체인(Off-chain) 데이터에 해당한다.
- 수집 방법: 특정 지역 주민들을 대상으로 한 패널 서베이를 통해 인구통계학적 정보와 소비 행태를 수집하고, 이를 공공기관의 행정 데이터(소득, 자산 등)와 연계하여 데이터의 신뢰도를 높였을 것으로 추정된다.
- 데이터 변수 설명: 본 연구에서는 지원금 사용 여부에 영향을 미칠 것으로 예상되는 다양한 가구 특성 변수를 활용했다.
- 종속 변수 (Dependent Variable):
재난지원금_사용여부
: 지원금을 주로 소비에 사용했는지, 혹은 저축했는지를 나타내는 이진 변수 (1: 소비, 0: 저축).
- 독립 변수 (Independent Variables):
- 가구 소득 및 자산:
가구 총소득
,소득 분위
,순자산 수준
,부채 여부
. - 가구 구성:
가구원 수
,미성년 자녀 수
,가구주 연령
,가구주 성별
,1인 가구 여부
. - 경제 상황 인식:
코로나19로 인한 소득 감소 경험 여부
,향후 경기 전망에 대한 태도
. - 주거 특성:
주택 소유 여부
,거주 지역
.
- 가구 소득 및 자산:
- 종속 변수 (Dependent Variable):
데이터 분석
로지스틱 회귀분석과 랜덤포레스트 모델을 각각 구축하고 성능을 비교한 결과, 랜덤포레스트가 더 높은 설명력을 보였으며, 변수 중요도 분석을 통해 ‘가구 소득’이 가장 중요한 영향 요인임을 일관되게 확인했다.
본 연구의 데이터 분석은 두 모델을 공정하게 비교하고, 각 모델이 제시하는 결과를 심층적으로 해석하는 데 초점을 맞췄다.
먼저, 로지스틱 회귀분석을 통해 각 변수들이 지원금 사용에 미치는 선형적인 효과를 분석했다. 그 결과, 예상대로 ‘가구 소득’이 낮을수록, ‘자녀 수’가 많을수록 지원금을 소비에 사용할 확률이 통계적으로 유의미하게 높아지는 경향을 확인했다.
다음으로, 랜덤포레스트 모델을 동일한 데이터에 학습시켰다. 모델의 전반적인 설명력을 나타내는 지표(Pseudo-R²)를 비교한 결과, 랜덤포레스트가 로지스틱 회귀 모델보다 더 높은 값을 기록했다. 이는 랜덤포레스트가 변수들 간의 복잡한 비선형 관계나 상호작용 효과를 더 잘 포착하여, 전체 데이터의 변동성을 더 많이 설명했음을 의미한다. 랜덤포레스트의 변수 중요도 분석에서도 ‘가구 소득’이 가장 중요한 요인으로 나타나, 두 모델의 결과가 일관된 방향을 가리킴을 확인했다. 하지만 랜덤포레스트는 소득 수준에 따라 다른 변수의 영향력이 어떻게 달라지는지와 같은 미묘한 차이까지 감지해내는 데 더 뛰어난 성능을 보였다.
핵심 결과
랜덤포레스트 모델이 로지스틱 회귀 모델보다 재난지원금 사용 여부를 더 잘 설명했으며, 가구 소득, 자녀 수, 가구주 연령, 소득 감소 경험 등이 주요 영향 요인으로 나타났다.
본 연구의 핵심 결과는 복잡한 인간의 경제적 행동을 분석하는 데 있어 머신러닝 모델이 전통적인 통계 모델보다 더 높은 설명력을 제공할 수 있다는 것을 실증적으로 보여준 것이다.
두 모델 모두에서 가구 소득이 낮을수록 지원금을 더 많이 소비하는 경향이 일관되게 나타나, 지원금 정책이 저소득층의 소비 진작에 어느 정도 기여했음을 시사했다. 또한, 미성년 자녀가 있는 가구, 코로나19로 인해 소득 감소를 경험한 가구 역시 지원금을 소비에 사용할 확률이 높게 나타났다.
중요한 점은, 랜덤포레스트 모델이 이러한 개별 요인의 영향력뿐만 아니라, 요인들 간의 복합적인 관계까지 파악하여 더 현실에 가까운 분석 결과를 도출했다는 것이다. 이는 향후 사회 정책의 효과를 분석하거나 정책 대상을 선정할 때, 머신러닝 기법이 매우 유용한 분석 도구가 될 수 있음을 의미한다.
시사점
복잡한 사회 현상이나 인간 행동을 분석할 때, 변수 간 비선형 관계와 상호작용을 자동으로 탐지하는 머신러닝 기법은 전통적인 통계 모델을 보완하거나 능가하는 강력한 분석 도구가 될 수 있다.
이 연구는 사회과학 및 정책 연구 분야에 다음과 같은 중요한 시사점을 제공한다.
첫째, 분석 도구의 확장이 필요하다. 전통적인 통계 모델은 특정 가설을 검증하고 변수 간의 관계를 명확히 해석하는 데 강점이 있지만, 현실 세계의 복잡성을 모두 담아내기에는 한계가 있다. 연구자들은 이제 머신러닝과 같은 새로운 분석 도구를 적극적으로 수용하여, 데이터에 숨겨진 더 깊고 복잡한 패턴을 탐색하려는 노력이 필요하다.
둘째, 데이터 기반 정책 설계의 가능성을 보여준다. 머신러닝 모델을 활용하면 정책의 효과를 더 정확하게 예측하고, 가장 도움이 필요한 대상을 더 정교하게 타겟팅할 수 있다. 예를 들어, 모든 저소득층에게 동일한 정책을 적용하는 대신, 머신러닝 분석을 통해 저소득층 내에서도 ‘자녀가 있는 가구’나 ‘최근 소득이 급감한 가구’에게 지원을 집중하는 방식으로 정책의 효율성과 실효성을 높일 수 있다.
인사이트
사람의 행동은 직선이 아니다. 복잡한 현실을 있는 그대로 분석하라.
이 논문의 핵심은 ‘선형적 사고’의 한계를 인정하고, 복잡한 데이터를 있는 그대로 분석할 수 있는 ‘비선형적 도구’의 가치를 입증했다는 점이다. 고객의 행동은 단순한 원인-결과 관계로 설명되지 않는다. 수많은 요인이 서로 얽혀 만들어내는 복합적인 결과물이다. 머신러닝은 바로 이 복잡성을 이해하는 강력한 렌즈를 제공한다.
- 페르소나 예시: “신중한 기관 투자자, 블랙스톤(Blackstone)”
- 특징: 블랙스톤은 대규모 자금을 운용하며, 새로운 DeFi 프로토콜에 투자하기 전에 매우 신중하게 분석한다. 이들의 투자 결정은 단순히 ‘예상 수익률’이라는 하나의 변수로 결정되지 않는다.
프로토콜의 보안 감사 여부
,팀의 익명성
,토크노믹스의 인플레이션율
,커뮤니티의 성숙도
등 여러 요인이 복합적으로, 그리고 비선형적으로 작용하여 결정된다. 예를 들어, 보안 감사를 통과하지 않은 프로토콜은 아무리 수익률이 높아도 투자 대상에서 제외될 수 있다. - 데이터 기반 행동 추정: Gnosis Safe와 같은 다중서명 지갑 사용, 투자 전 장기간에 걸쳐 소액의 테스트 트랜잭션을 여러 번 발생시키는 행동, 거버넌스 포럼에서 기술적 질문을 던지는 활동.
- 특징: 블랙스톤은 대규모 자금을 운용하며, 새로운 DeFi 프로토콜에 투자하기 전에 매우 신중하게 분석한다. 이들의 투자 결정은 단순히 ‘예상 수익률’이라는 하나의 변수로 결정되지 않는다.
- 실질적인 마케팅 액션 제안:
- 비선형적 패턴 기반 세분화: 이 논문의 교훈을 적용하여, Web3 고객을 분류할 때 선형적인 RFM 점수만으로 나누지 않는다. 오토인코더와 같은 딥러닝 모델을 사용하여, ‘거래량은 적지만, 거버넌스 투표 참여율이 매우 높은’ 지갑이나, ‘거래는 뜸하지만, 보유한 토큰의 종류가 매우 다양한’ 지갑 등 비선형적인 패턴을 가진 고가치 세그먼트를 발굴한다.
- ‘기관 투자자/고래’ 세그먼트 타겟팅: ‘블랙스톤’과 같이 여러 요소를 복합적으로 고려하는 것으로 추정되는 행동 패턴을 보이는 세그먼트를 식별한다. 이들에게는 단순한 광고 대신,
상세한 보안 감사 리포트
,개발팀과의 비공개 기술 미팅 주선
,맞춤형 토크노믹스 시뮬레이션 결과
등 이들의 신뢰도를 높일 수 있는 전문적인 정보를 선별하여 제공한다. - 맞춤형 투자 상품 제안: 이들의 복합적인 니즈를 충족시키기 위해, “높은 수익률”만을 강조하는 상품 대신, “업계 최고 수준의 보안 감사를 통과했으며, 토큰 인플레이션율이 연 2%로 제한되는 안정적인 실물자산(RWA) 연계 상품”과 같이 여러 장점을 결합한 맞춤형 상품을 제안한다.