고객이 남긴 상품 리뷰의 ‘평점 패턴’ 자체를 데이터로 활용하고, PCA와 K-평균 군집분석을 통해 ‘항상 5점을 주는 긍정형’, ‘깐깐하게 평가하는 비판형’ 등 숨겨진 소비자 유형을 발견한다.
논문 요약
- 논문 제목: 빅데이터 기반 머신러닝 기법을 활용한 소비자유형 분석 및 군집화에 관한 연구: 고객 리뷰평점 중심으로
- 저자: 신호철, 허철무
- 게재 학술지: 한국콘텐츠학회논문지
- 발행 연도: 2023
- 핵심 요약: 온라인 쇼핑몰 고객들이 남긴 방대한 양의 리뷰 평점 데이터를 분석 대상으로 삼았다. 개별 고객의 ‘평점을 매기는 성향'(예: 후하게 주는지, 짜게 주는지, 편차가 큰지)을 하나의 행동 패턴으로 보고, 주성분 분석(PCA)과 K-평균 군집분석을 적용하여 소비자 유형을 군집화했다. 이를 통해 구매 데이터만으로는 알 수 없는 새로운 차원의 고객 세분화 가능성을 제시했다.
연구 배경
고객이 남긴 별점 5개는 정말로 만족했다는 뜻일까, 아니면 습관적으로 5점을 주는 사람일까? 이 연구는 리뷰의 내용이 아닌, 리뷰를 남기는 ‘방식’에 집중함으로써 고객의 숨겨진 성향을 파헤치는 새로운 분석의 문을 연다.
온라인 쇼핑몰과 플랫폼에서 고객 리뷰는 매우 중요한 데이터 자산이다. 대부분의 기업들은 리뷰 데이터를 활용할 때, 주로 두 가지 방식에 집중해왔다.
- 평균 평점 분석: 특정 상품의 평균 별점을 계산하여 인기도를 측정하거나, 고객 만족도의 전반적인 수준을 파악한다.
- 텍스트 분석: 리뷰에 포함된 텍스트를 자연어 처리(NLP) 기술로 분석하여 긍정/부정 감성을 판별하거나, 자주 언급되는 키워드를 추출하여 제품 개선에 활용한다.
하지만 이 두 가지 방식은 중요한 정보 하나를 놓치고 있다. 바로 **’평점을 매기는 사람의 성향’**이다. 어떤 고객은 웬만하면 별 5개를 주는 ‘긍정형’인 반면, 어떤 고객은 매우 깐깐한 기준으로 평가하여 3점도 후한 점수인 ‘비판형’일 수 있다. 또 다른 고객은 기분에 따라 1점과 5점을 오가는 ‘감정형’일 수도 있다.
이 연구는 이러한 개인의 고유한 평점 부여 패턴(Rating Pattern) 자체가 그 사람의 성향을 나타내는 중요한 행동 데이터라는 새로운 관점에서 출발한다. 본 연구에서는 이러한 고차원의 패턴 데이터를 효과적으로 분석하기 위해, 차원 축소 기법인 **주성분 분석(PCA)**과 대표적인 군집화 알고리즘인 **K-평균 군집분석(K-Means Clustering)**을 활용한다.
해결하려는 문제
제품에 대한 평균 평점이나 리뷰의 텍스트 내용 분석을 넘어, 고객 개개인의 ‘평점을 매기는 성향’ 자체를 분석하여, 기존에는 발견하기 어려웠던 새로운 차원의 고객 유형을 정의하고 이해한다.
기존의 고객 분석은 주로 ‘구매 행동’에 초점을 맞추어 왔다. 하지만 구매 데이터만으로는 다음과 같은 질문에 답하기 어렵다.
- 우리 제품에 높은 평점을 주는 고객들은 원래 후한 사람들인가, 아니면 정말로 만족한 사람들인가?
- 낮은 평점을 남긴 고객은 악의적인 블랙 컨슈머인가, 아니면 개선에 도움이 될 만한 의견을 가진 전문가형 고객인가?
- 신제품에 대한 초기 리뷰의 신뢰도는 어떻게 평가해야 하는가?
이 연구가 해결하고자 하는 문제는 바로 이 **’리뷰 데이터의 숨겨진 맥락’**을 파악하는 것이다. 단순히 제품의 평균 평점에 의존하는 대신, ‘누가’ 그 평점을 매겼는지를 함께 분석함으로써, 리뷰 데이터의 가치를 한 차원 높이고자 한다.
궁극적인 목표는 고객의 ‘평점 부여 패턴’이라는 새로운 유형의 행동 데이터를 기반으로, 기존의 RFM 분석 등으로는 발견할 수 없었던 새로운 고객 세그먼트를 발굴하고, 이를 통해 더 정교한 마케팅 및 고객 관리 전략을 수립하는 것이다.
연구 모형
각 소비자별로 여러 상품에 대해 매긴 평점 데이터를 하나의 벡터로 구성하고, PCA를 통해 이 평점 패턴의 주요 특징을 추출한 뒤, K-평균 군집분석을 적용하여 유사한 평점 성향을 가진 소비자 그룹을 도출한다.
본 연구는 고객의 평점 부여 성향을 기준으로 군집화하기 위해, 다음과 같은 비지도학습(Unsupervised Learning) 파이프라인을 설계했다.
- 특징 벡터 생성 (Feature Vectorization):
- 분석 대상이 되는 모든 상품 목록을 만든다.
- 각 고객에 대해, 해당 고객이 각 상품에 매긴 평점들을 순서대로 나열하여 하나의 긴 **’평점 벡터(Rating Vector)’**를 생성한다. (예: 고객 A = [5점, 3점, 미평가, 4점, …])
- 차원 축소 (Dimensionality Reduction via PCA):
- 고객별 평점 벡터는 수만 개의 상품 차원을 가질 수 있어 매우 고차원 데이터이다. 이를 그대로 분석하면 ‘차원의 저주’ 문제가 발생할 수 있다.
- 따라서, **주성분 분석(PCA)**을 적용하여 이 고차원 평점 벡터에 내재된 핵심적인 ‘평점 부여 패턴 축’을 몇 개(예: 3~5개) 찾아낸다. 예를 들어, PCA를 통해 ‘전반적인 평점 수준(긍정/부정)’, ‘평점의 분산(일관/변덕)’, ‘최고/최저점 사용 빈도’ 등과 같은 주요 특징 축을 발견할 수 있다.
- 군집 분석 (Clustering via K-Means):
- PCA를 통해 얻어진 각 고객의 ‘주성분 점수’를 새로운 입력 데이터로 사용한다.
- 이 주성분 점수를 기반으로 K-평균 군집분석을 수행하여, 유사한 평점 부여 성향을 가진 고객들을 동일한 군집으로 묶는다.
- 군집 프로파일링 (Cluster Profiling):
- 생성된 각 군집의 특징(평균 평점, 평점 분산 등)을 분석하고, “항상 5점 만점을 주는 관대형”, “깐깐한 기준으로 평가하는 비평가형” 등과 같이 의미 있는 이름과 페르소나를 부여한다.
데이터 설명
특정 이커머스 플랫폼에서 수집된 대규모 고객-상품 리뷰 평점 데이터를 활용했으며, 이는 사용자가 자발적으로 생성한 평가 기록 형태의 오프체인(Off-chain) 데이터이다.
- 출처: 논문에 구체적인 데이터셋 출처는 명시되지 않았으나, 아마존(Amazon), 옐프(Yelp) 등 대규모 리뷰 데이터를 포함하는 공개 데이터셋이나, 국내 특정 이커머스 기업의 내부 데이터를 활용했을 것으로 추정된다. 이는 사용자가 남긴 오프체인(Off-chain) 데이터에 해당한다.
- 수집 방법: 공개 데이터셋을 다운로드하거나, 기업 내부의 리뷰 데이터베이스에서 SQL 쿼리 등을 통해 데이터를 추출했을 것이다.
- 데이터 변수 설명: 본 연구의 핵심 데이터는 고객과 상품, 그리고 평점으로 구성된 **’사용자-상품 평점 행렬(User-Item Rating Matrix)’**이다.
- 핵심 데이터 구조:
- 행(Rows):
CustomerID
(고객의 고유 식별자) - 열(Columns):
ProductID
(상품의 고유 식별자) - 값(Values):
Rating
(해당 고객이 해당 상품에 부여한 1~5점 사이의 평점)
- 행(Rows):
- 분석용 입력 데이터:
- 이 사용자-상품 평점 행렬 자체가 분석의 입력 데이터가 된다. 각 고객(행)은 자신이 평점을 매긴 상품(열)들의 값으로 구성된 하나의 벡터로 표현된다. 고객이 평가하지 않은 상품의 평점은 결측치(Missing Value)로, 분석 전에 특정 값(예: 해당 고객의 평균 평점, 전체 평균 평점 등)으로 처리하는 전처리 과정이 필요하다.
- 핵심 데이터 구조:
데이터 분석
고객별 평점 데이터를 PCA로 분석하여 평점 패턴의 주요 축을 발견했으며, 이를 K-평균 군집분석에 적용한 결과, 통계적으로 유의미하고 해석 가능한 여러 소비자 유형의 군집을 성공적으로 도출했다.
본 연구의 데이터 분석은 고차원의 평점 데이터를 저차원의 의미 있는 특징으로 압축하고, 이를 기반으로 고객을 그룹화하는 과정으로 진행되었다.
먼저, 수만 개의 상품 차원을 가진 사용자-상품 평점 행렬에 **주성분 분석(PCA)**을 적용했다. 그 결과, 복잡했던 평점 데이터는 소수의 주성분(Principal Components)으로 효과적으로 요약되었다. 예를 들어, 첫 번째 주성분은 ‘전반적인 평점 수준’을 나타내어, 이 축의 값이 높으면 ‘긍정형 소비자’, 낮으면 ‘부정형 소비자’로 해석할 수 있다. 두 번째 주성분은 ‘평점의 분산’을 나타내어, 값이 높으면 ‘다양한 점수를 주는 소비자’, 낮으면 ‘일관된 점수만 주는 소비자’로 해석할 수 있는 식이다.
다음으로, 이렇게 추출된 각 소비자의 주성분 점수를 새로운 좌표값으로 사용하여 K-평균 군집분석을 수행했다. 그 결과, 유사한 평점 부여 ‘스타일’을 가진 소비자들이 통계적으로 의미 있는 몇 개의 군집으로 명확하게 나뉘는 것을 확인했다. 각 군집은 뚜렷하게 구분되는 평균 평점과 평점 분포 특성을 보여주었다.
핵심 결과
소비자들은 평점을 매기는 성향에 따라 ‘항상 후한 점수를 주는 긍정형’, ‘평점 편차가 큰 감정형’, ‘대체로 낮은 점수를 주는 비판형’ 등과 같이 의미 있는 그룹으로 명확하게 분류될 수 있었다.
본 연구의 핵심적인 발견은 고객의 ‘평점 부여 패턴’이 결코 무작위가 아니며, 그 안에 개인의 숨겨진 성향을 나타내는 일관된 정보가 담겨 있다는 것을 데이터 분석을 통해 증명한 것이다.
군집분석 결과, 소비자들은 다음과 같은 유형으로 성공적으로 분류되었다.
- 적극적 긍정형: 대부분의 상품에 높은 평점(4~5점)을 부여하며, 리뷰 활동에도 매우 적극적인 그룹.
- 소극적 일반형: 평균적인 수준의 평점(3~4점)을 주로 부여하며, 리뷰 활동이 많지 않은 다수의 그룹.
- 깐깐한 비평가형: 평점의 편차가 크고, 낮은 평점(1~2점)을 부여하는 것을 주저하지 않는 소수의 그룹.
이러한 발견은 기업이 고객 리뷰를 해석할 때, 단순히 보이는 점수만 믿어서는 안된다는 것을 의미한다. ‘깐깐한 비평가형’ 고객이 남긴 3점은, ‘적극적 긍정형’ 고객이 남긴 5점보다 더 가치 있는 긍정 신호일 수 있다.
시사점
고객이 생성한 ‘메타 데이터'(리뷰 평점 패턴)는 고객의 숨겨진 성향을 파악하는 매우 유용한 정보이며, 이를 분석하면 기존의 구매 데이터 기반 세분화로는 발견할 수 없는 새로운 인사이트를 얻을 수 있다.
이 연구는 고객 데이터 분석의 새로운 가능성을 제시하며 다음과 같은 중요한 시사점을 제공한다.
첫째, 분석의 대상을 확장해야 한다. 기업은 고객의 직접적인 행동(구매, 클릭 등) 데이터뿐만 아니라, 그 행동의 과정에서 파생되는 **’메타 행동 데이터(Meta-behavioral Data)’**에 주목해야 한다. 평점을 매기는 패턴, 검색어를 입력하는 방식, 마우스를 움직이는 경로 등 고객의 모든 ‘디지털 발자국’은 그들의 성향을 파악할 수 있는 단서가 될 수 있다.
둘째, 리뷰 데이터의 활용도를 높일 수 있다. 이 연구의 방법론을 활용하면, 기업은 자사 제품에 리뷰를 남긴 고객들의 성향을 파악하고, 이를 바탕으로 더 정교한 고객 관리가 가능해진다. 예를 들어, ‘깐깐한 비평가형’ 고객에게는 신제품 출시에 앞서 베타 테스트 참여를 요청하여 귀중한 피드백을 얻을 수 있고, ‘적극적 긍정형’ 고객에게는 앰버서더(Ambassador) 프로그램을 제안하여 긍정적인 바이럴 마케팅을 유도할 수 있다.
인사이트
고객의 ‘행동’이 아닌, 행동하는 ‘방식’을 분석하라.
AI 빅데이터 마케터의 관점에서 이 논문의 가장 큰 가치는, 분석의 관점을 ‘무엇을(What)’에서 **’어떻게(How)’**로 전환시켰다는 점이다. 고객이 어떤 상품을 샀는가도 중요하지만, 어떤 ‘방식’으로 평점을 매기고, 어떤 ‘방식’으로 정보를 탐색하는지를 분석할 때, 비로소 고객의 진짜 모습이 드러난다. 이 ‘How’에 대한 분석은 고객을 피상적인 존재에서 입체적인 페르소나로 바꾸는 열쇠이다.
- 페르소나 예시: “가스비 아티스트, 게리(Gary)”
- 특징: 게리는 DeFi를 사용할 때 단순히 거래를 성공시키는 것을 넘어, ‘어떻게’ 가스비를 최적화하는가에 매우 집착한다. 그는 가스비가 저렴한 특정 시간대(예: 주말 새벽)에만 활동하며, 트랜잭션을 보낼 때 항상 가스 추적 사이트를 참고하고 우선순위 수수료(priority fee)를 매우 정교하게(예: 0.01 gwei 단위로) 설정한다. 그의 **가스비 설정 ‘패턴’**은 그의 **’극도의 합리성과 비용 민감성’**이라는 성향을 명확하게 드러낸다.
- 데이터 기반 행동: 평균 가스비(gwei)가 시장 평균보다 현저히 낮음. 가스비 지출의 표준편차가 작음(항상 낮은 수준으로 일정). 특정 시간대에만 트랜잭션이 집중됨.
- 실질적인 마케팅 액션 제안:
- 가스비 패턴 기반 세분화: 이 논문의 아이디어를 적용하여, 사용자의
평균 가스비
,가스비 표준편차
,우선순위 수수료 설정 패턴
,L2 사용 비율
등을 변수로 사용하여 ‘가스비 민감도’에 따른 고객 세분화를 수행한다. ‘게리’와 같은 ‘가스비 최적화형’ 세그먼트를 정확히 식별한다. - 비용 효율적 솔루션 추천: 이 ‘가스비 최적화형’ 세그먼트에게는 높은 APY를 강조하기보다, “저희 프로토콜은 가스비 효율을 30% 개선한 V2를 출시했습니다” 또는 “트랜잭션 롤업(Roll-up) 기능을 통해 여러 거래를 한 번의 가스비로 처리하세요”와 같이, 이들의 핵심 니즈인 **’비용 절감’**에 직접적으로 소구하는 마케팅 메시지를 전달한다.
- L2 및 사이드체인 우선 안내: 새로운 기능이나 파트너십을 발표할 때, 이더리움 메인넷 기반의 서비스보다 Arbitrum, Optimism, Polygon 등 저렴한 수수료의 L2/사이드체인 기반 서비스를 이 세그먼트에게 우선적으로 안내하여 높은 반응률과 만족도를 유도한다.
- 가스비 패턴 기반 세분화: 이 논문의 아이디어를 적용하여, 사용자의