금융 데이터에 대한 군집분석(Clustering) 시, 최적의 군집 개수를 자동으로 찾고 그 결과를 설명가능 AI(XAI) 기법인 SHAP을 통해 해석하는 통합적인 기술 프레임워크를 제안한다.
논문 요약
- 논문 제목: An Integrated Cluster Detection, Optimization, and Interpretation Approach for Financial Data
- 저자: Tie Li, Gang Kou, Yi Peng, Philip S. Yu
- 게재 학술지: IEEE Transactions on Cybernetics
- 발행 연도: 2022
- 핵심 요약: 금융 데이터 분석 시 군집의 개수(k)를 자동으로 최적화하고, 각 군집이 어떤 특징 때문에 형성되었는지를 SHAP 기법을 활용해 명확히 설명하는 통합 파이프라인을 제시했다. 이를 통해 군집분석 모델의 기술적 성능과 분석 결과의 실무적 신뢰도를 동시에 향상시켰다.
연구 배경
이 연구는 “AI가 정답을 찾았다”에서 한 걸음 더 나아가, “AI가 왜 그것을 정답이라고 생각하는지”를 설명하려는 인공지능 분야의 중요한 흐름을 보여준다.
금융 분야에서 **군집분석(Clustering)**은 고객을 비슷한 그룹으로 묶거나(Segmentation), 비정상적인 거래 패턴을 찾아내는(Anomaly Detection) 등 다방면에 활용되는 핵심적인 데이터 분석 기법이다. 하지만 전통적인 군집분석은 두 가지 고질적인 난제를 안고 있었다.
첫째, ‘최적의 군집 개수(k)는 몇 개인가?’ 라는 문제이다. 분석가는 종종 엘보우 방법(Elbow Method)과 같은 경험적 방식에 의존해야 했고, 이는 분석 결과의 객관성을 떨어뜨릴 수 있었다. 둘째, 설령 최적의 군집을 찾았다 하더라도, ‘각 군집이 구체적으로 어떤 의미를 갖는지’ 를 명확하게 설명하기 어려웠다. 군집은 단지 데이터의 묶음일 뿐, 그 자체로 비즈니스적 의미를 알려주지는 않기 때문이다.
이러한 배경에서 등장한 것이 바로 **설명가능 AI(Explainable AI, XAI)**이다. XAI는 AI 모델이 내린 결정의 근거를 인간이 이해할 수 있는 방식으로 제시하는 것을 목표로 한다. 본 연구는 바로 이 XAI의 대표적인 기법인 **SHAP (SHapley Additive exPlanations)**을 군집분석에 통합하여, 위에서 제기된 두 가지 문제를 한 번에 해결하는 기술적 프레임워크를 제안하고자 한다.
해결하려는 문제
군집분석(Clustering)의 3대 난제인 ‘최적의 군집 수 결정’, ‘군집화 과정의 최적화’, 그리고 ‘결과 해석의 어려움’을 통합된 프레임워크로 한 번에 해결한다.
데이터 과학자가 금융 거래 데이터를 분석하여 “고객을 5개의 그룹으로 분류했습니다”라고 보고했다고 가정하자. 비즈니스 실무자는 즉시 다음과 같은 질문을 던질 것이다. “왜 7개가 아니고 5개인가요?”, “3번 그룹은 정확히 어떤 사람들인가요?”, “우리가 이 결과를 믿고 마케팅 예산을 써도 될까요?”
기존의 군집분석은 이 질문들에 명쾌한 답을 주기 어려웠다. 분석 과정은 통계적 모델이라는 ‘블랙박스’ 안에서 이루어졌고, 결과는 종종 분석가의 주관적인 해석에 의존했다. 이 연구가 해결하려는 문제는 바로 이 ‘블랙박스’를 ‘유리상자(Glass Box)’로 만드는 것이다. 군집의 개수를 결정하는 과정부터 최종 결과물을 해석하는 과정까지, 모든 단계를 자동화하고 객관적인 데이터로 설명함으로써, 분석 결과의 신뢰성을 확보하고 비즈니스 실무자들이 결과를 바탕으로 확신을 갖고 의사결정을 내릴 수 있도록 돕는 것이다.
연구 모형
군집 수 최적화 알고리즘과 클러스터링, 그리고 SHAP 기반의 해석 모듈을 결합한 3단계 통합 파이프라인을 제안한다.
본 연구는 군집분석의 전 과정을 자동화하고 해석 가능성을 높이는 통합 프레임워크를 설계했다. 이 프레임워크는 세 가지 핵심 모듈로 구성된다.
- 군집 탐지 및 최적화 (Cluster Detection & Optimization): 이 단계에서는 사전에 군집의 개수
k
를 지정할 필요가 없다. 제안된 알고리즘이 데이터의 구조적 안정성을 평가하며 통계적으로 가장 타당하고 안정적인k
값을 자동으로 탐색하고 결정한다. 이를 통해 분석가의 주관적 개입을 최소화한다. - 군집화 (Clustering): 최적의
k
값이 결정되면, 표준적인 군집화 알고리즘(예: K-Means)이나 최적화된 알고리즘을 사용하여 실제 데이터를 해당 개수의 군집으로 분류한다. - 해석 (Interpretation): 이 프레임워크의 핵심 단계로, SHAP 알고리즘을 활용한다. SHAP은 각 군집이 형성되는 데 있어 어떤 데이터 특징(Feature)이 얼마나 큰 영향을 미쳤는지를 정량적으로 계산한다. 예를 들어, “3번 군집은 ‘높은 거래 빈도’ 특징이 가장 큰 영향을 미쳤고, ‘낮은 거래 금액’ 특징이 그 다음으로 영향을 미쳤다” 와 같이 각 군집의 ‘정의’를 데이터 기반으로 설명해준다.
데이터 설명
연구의 범용성을 입증하기 위해, 다양한 특성을 가진 실제 금융 거래 데이터를 활용한다.
- 출처: 논문에 구체적인 출처는 명시되지 않았지만, 연구의 맥락상 은행이나 카드사 등 금융 기관에서 제공받은 익명화된 **금융 거래 데이터(Financial Data)**를 사용했을 것으로 보인다. 이는 블록체인 기반의 온체인 데이터가 아닌, 전형적인 Web2 금융 데이터이다.
- 수집 방법: 금융 기관의 내부 데이터베이스에서 특정 기간의 고객 거래 기록을 추출하여 분석용 데이터셋으로 가공했을 것으로 추정된다.
- 데이터 변수 설명: 본 연구는 방법론에 초점을 맞추고 있어 구체적인 변수 목록을 상세히 기술하지는 않았지만, 일반적으로 다음과 같은 금융 거래 변수들이 포함될 수 있다.
- 거래 기본 정보 (Transactional Basics)
Transaction Amount
: 거래 금액Transaction Time
: 거래 발생 시간 (오전/오후/심야 등)Merchant Type
: 가맹점 업종 (예: 요식, 쇼핑, 교통)
- 고객 행동 패턴 (Behavioral Patterns)
Transaction Frequency
: 월/주/일 단위 거래 빈도Recency
: 마지막 거래일로부터 경과 시간
- 고객 속성 정보 (Customer Attributes)
Account Tenure
: 계좌/카드 개설 후 경과 기간Credit Limit
: 신용 한도
- 거래 기본 정보 (Transactional Basics)
데이터 분석
제안된 통합 프레임워크를 통해 금융 데이터에 대한 군집 수를 자동으로 결정하고, SHAP 값을 계산하여 각 군집을 정의하는 핵심 특징들을 시각적으로 명확하게 제시한다.
이 연구의 데이터 분석 과정은 제안된 통합 프레임워크를 실제 금융 데이터에 적용하여 그 효용성을 입증하는 방식으로 진행된다. 프레임워크를 실행하면, 분석가는 더 이상 최적의 군집 개수 k
를 찾기 위해 여러 번의 실험을 반복할 필요가 없다. 시스템이 데이터의 구조를 분석해 k=5
가 최적이라는 결론을 자동으로 도출한다.
그다음, 5개의 군집이 형성되면 SHAP 분석이 자동으로 수행된다. 그 결과는 각 군집별로 어떤 특징이 중요한지를 보여주는 **SHAP 요약 플롯(Summary Plot)**과 같은 시각화 자료로 나타난다. 예를 들어, 특정 군집의 SHAP 플롯에서 ‘거래 금액’ 변수가 가장 상위에 위치하고 붉은색(높은 값)으로 표시된다면, 이는 “이 군집은 거래 금액이 높은 고객들의 그룹이다”라는 명확하고 객관적인 해석을 가능하게 한다. 이처럼 분석의 모든 과정이 데이터 기반의 증거를 통해 설명된다.
핵심 결과
제안된 통합 프레임워크는 군집 분석의 전 과정을 자동화하고, SHAP을 통해 각 군집의 특성을 객관적 데이터로 설명함으로써 분석 결과의 신뢰도와 실용성을 크게 향상시켰다.
이 연구의 핵심 성과는 군집 분석의 기술적 성능과 비즈니스적 활용성 사이의 간극을 성공적으로 메웠다는 점이다. 기존 연구들이 군집화 알고리즘의 정확도를 높이는 데 집중했다면, 이 연구는 **자동화(Automation)**와 **설명가능성(Interpretability)**이라는 두 가지 측면을 통합했다.
결과적으로, 이 프레임워크는 ▲분석가의 주관적 판단 오류를 줄이고 ▲분석에 소요되는 시간을 단축시켰으며 ▲가장 중요하게는, 통계적 모델의 결과를 비전문가인 현업 담당자도 쉽게 이해하고 신뢰할 수 있는 ‘인사이트’로 변환시켰다. 예를 들어, ‘1번 군집’이라는 모호한 이름 대신 ‘고빈도 소액 결제 주부 그룹’이라는 구체적인 페르소나를 데이터에 근거하여 부여할 수 있게 된 것이다. 이는 AI 분석 결과를 실제 비즈니스 전략에 적용하는 데 있어 가장 큰 걸림돌이었던 ‘신뢰의 문제’를 해결하는 중요한 진전이다.
시사점
AI 모델의 분석 결과를 비전문가도 이해하고 신뢰할 수 있도록 만드는 ‘설명가능성’은, AI를 실제 비즈니스에 성공적으로 적용하기 위한 필수 조건이다.
이 연구는 AI 기술을 현업에 도입하려는 모든 기업에게 중요한 교훈을 준다. 아무리 예측 정확도가 높은 ‘블랙박스’ 모델이라도, 그것이 ‘왜’ 그런 결정을 내렸는지 설명할 수 없다면 현업 부서는 그 결과를 신뢰하고 책임 있는 의사결정을 내리기 어렵다. 특히 규제가 중요한 금융 분야에서는 모델의 결정 과정을 감사하고 설명할 수 있는 능력이 필수적이다.
따라서 SHAP과 같은 XAI(설명가능 AI) 기술은 더 이상 데이터 과학자들만의 고급 기술이 아니라, AI 프로젝트의 성공을 위한 표준적인 구성 요소가 되어야 한다. 모델의 투명성과 설명가능성을 확보하는 것은 기술적 과제를 넘어, 조직 내 부서 간의 협업을 촉진하고 데이터 기반 의사결정 문화를 정착시키는 핵심적인 열쇠가 될 것이다.
인사이트
‘무엇’을 찾았는가보다 ‘왜’ 그것을 찾았는지 설명하는 것이 더 중요하다.
이 논문이 주는 가장 강력한 인사이트는, 분석의 최종 산출물은 숫자가 아니라 ‘설득력 있는 이야기’여야 한다는 것이다. AI 빅데이터 마케터의 관점에서 이 철학을 적용하면, 단순히 고객을 분류하는 것을 넘어 각 고객 그룹의 본질을 꿰뚫고 그에 맞는 정교한 전략을 수립할 수 있다.
- 고객 페르소나 예시 (Web3 관점): “DeFi 개미 (The DeFi Ant)”
- 행동 (클러스터링 결과): 이 고객 그룹은 하루에도 수십 번씩 USDC 트랜잭션을 일으키지만, 건당 평균 거래액은 1달러 미만으로 매우 낮다.
- 이유 (SHAP 분석 결과): 이 그룹의 SHAP 요약 플롯을 보면,
Transaction_Count
변수는 항상 양(+)의 높은 SHAP 값을 가지는 반면,Average_Transaction_Value
변수는 항상 음(-)의 높은 SHAP 값을 가진다. 이는 **”거래 횟수가 많고, 거래 액수가 적은 것”**이 이 그룹을 정의하는 핵심적인 이유임을 데이터로 증명한다. 이들은 아마도 블록체인 게임 아이템을 구매하거나, 소셜 dApp에서 마이크로 팁을 보내는 등의 활동을 할 것이다.
- 실질적인 마케팅 액션 제안 (Web3 CRM)
- 맞춤형 수수료 정책 제안: ‘DeFi 개미’ 그룹은 소액 거래가 잦아 가스비 부담이 크다. 이들에게는 이더리움 메인넷 대신 가스비가 저렴한 L2(레이어 2) 솔루션이나 사이드체인 사용을 유도하는 캠페인을 집중적으로 진행하여, 비용 문제로 인한 이탈을 방지한다.
- dApp 파트너십 기반 교차 마케팅: 이들이 주로 활동하는 dApp(예: 특정 블록체인 게임)을 파악하고, 해당 dApp과 제휴하여 “USDC로 결제 시 게임 아이템 10% 추가 지급”과 같은 공동 프로모션을 진행하여 거래를 활성화한다.
- 활동성 기반 리워드 제공: 이들은 비록 소액이지만 dApp의 일일 활성 사용자 수(DAU)와 같은 핵심 지표에 기여하는 중요한 그룹이다. 이들의 총 가스비 지출액의 일부를 리워드로 돌려주는 ‘가스비 페이백’ 프로그램을 통해 충성도를 높이고 지속적인 활동을 장려한다.