온라인 중고 자전거 거래 데이터를 군집분석과 연관규칙 분석으로 탐색하여, 유사한 거래 성향을 가진 사용자 그룹을 분류하고 함께 거래되는 부품 조합의 패턴을 발견하는 방법론을 제시한다.
논문 요약
- 논문 제목: 빅데이터 환경에서 사용자 거래 성향분석을 위한 머신러닝 응용 기법
- 저자: 최도현, 박중오
- 게재 학술지: 한국정보통신학회논문지
- 발행 연도: 2015
- 핵심 요약: 온라인 커뮤니티의 중고 자전거 거래 데이터를 대상으로 데이터 마이닝 기법을 적용했다. 군집분석을 통해 사용자의 거래 성향에 따라 여러 유형으로 그룹화했으며, 연관규칙 분석을 통해 특정 자전거 부품들이 함께 거래되는 강력한 패턴을 발견했다. 이를 통해 빅데이터 속에서 유의미한 사용자 및 상품 패턴을 발견하고, 이를 마케팅에 활용할 수 있는 가능성을 보였다.
연구 배경
“이 프레임을 산 사람은 어떤 휠셋을 함께 구매할까?” “우리 사이트에는 어떤 유형의 거래자들이 활동하고 있을까?” 이 연구는 거대한 온라인 거래 데이터 속에서 이러한 질문에 대한 답을 찾기 위해, 데이터 마이닝이라는 강력한 탐사 도구를 사용한다.
인터넷 커뮤니티와 중고 거래 플랫폼의 활성화로 인해, 과거에는 수집하기 어려웠던 방대한 양의 사용자 간 거래(C2C) 데이터가 축적되고 있다. 이러한 빅데이터 속에는 비즈니스에 매우 유용한 정보들이 숨겨져 있지만, 데이터의 양이 너무 많고 비정형적이라 의미 있는 패턴을 발견하기는 쉽지 않다.
**데이터 마이닝(Data Mining)**은 바로 이 거대한 데이터 더미 속에서 의미 있는 정보와 지식을 ‘채굴’하는 기술이다. 본 연구는 이 데이터 마이닝의 대표적인 두 가지 기법을 활용하여, 사용자의 거래 성향을 입체적으로 분석한다.
- 군집 분석 (Cluster Analysis): 고객을 유사한 특징을 가진 그룹으로 묶는 기법이다. 어떤 사용자들이 비슷한 가격대의 상품을 거래하는지, 얼마나 자주 거래하는지 등을 기준으로 ‘고가 부품 전문 거래상’, ‘입문용 부품 거래자’ 등과 같은 사용자 유형을 발견하는 데 사용된다.
- 연관규칙 분석 (Association Rule Mining): ‘장바구니 분석’이라고도 불리며, 어떤 항목들이 함께 구매되는 경향이 있는지를 분석하는 기법이다. “기저귀를 사는 고객은 맥주도 함께 구매한다”는 고전적인 예시처럼, “A 브랜드의 프레임을 구매한 고객은 B 브랜드의 구동계도 함께 구매한다”와 같은 규칙을 찾아내어 교차 판매나 추천 시스템에 활용할 수 있다.
이 연구는 이 두 가지 기법을 종합적으로 사용하여, 사용자 중심의 분석(누가 거래하는가)과 상품 중심의 분석(무엇이 함께 거래되는가)을 동시에 수행한다.
해결하려는 문제
방대한 양의 온라인 거래 데이터 속에 숨겨있는 고객의 다양한 거래 성향과 상품 간의 잠재적 연관성을 발견하고, 이를 통해 개인화 추천 및 타겟 마케팅의 정확도를 높인다.
온라인 중고 거래 사이트 운영자는 다음과 같은 비즈니스 문제에 직면한다.
- 고객 이해의 부족: 어떤 사용자들이 우리 플랫폼의 핵심적인 ‘큰 손’이고, 어떤 사용자들이 가끔씩만 활동하는지 객관적인 데이터로 파악하기 어렵다.
- 비효율적인 추천: 사용자에게 어떤 상품을 추천해야 할지 명확한 근거가 없다. 단순히 인기 상품이나 최신 상품을 나열하는 것은 사용자의 실제 관심사와 다를 수 있다.
- 숨겨진 기회 상실: 특정 부품들이 항상 함께 거래되는 패턴이 있음에도 이를 인지하지 못해, 관련 상품들을 함께 노출하거나 번들로 판매하여 추가적인 매출을 올릴 기회를 놓친다.
이 연구가 해결하고자 하는 문제는 바로 이러한 **’데이터 속에 숨겨진 기회’**를 발견하는 것이다. 머신러닝을 통해 사용자와 상품의 숨겨진 패턴을 자동으로 찾아내고, 이를 바탕으로 더 스마트한 마케팅과 개인화 서비스를 제공하기 위한 데이터 기반의 근거를 마련하는 것을 목표로 한다.
연구 모형
온라인 커뮤니티의 중고 자전거 거래 데이터에 군집분석을 적용하여 사용자를 유형별로 분류하고, 연관규칙 분석을 적용하여 상품(부품) 간의 동시 거래 패턴을 도출하는 2-Track 분석 모델을 사용한다.
본 연구는 사용자와 상품을 동시에 이해하기 위해, 다음과 같은 두 가지 분석 트랙을 병렬적으로 수행하는 연구 모형을 설계했다.
- Track 1: 사용자 유형 분석 (User-centric Analysis) – 군집분석
- 각 사용자별로 거래 활동 데이터를 요약하여 특징 벡터를 생성한다. (예: 총 거래 횟수, 평균 거래 금액, 주로 거래하는 브랜드 등)
- 생성된 특징 벡터를 기반으로 K-평균 군집분석과 같은 알고리즘을 사용하여, 유사한 거래 성향을 가진 사용자들을 몇 개의 군집으로 분류한다.
- Track 2: 상품 연관성 분석 (Product-centric Analysis) – 연관규칙 분석
- 각 거래를 하나의 ‘장바구니’로 간주하고, 한 거래에 포함된 상품(부품)들의 목록을 구성한다.
- Apriori 또는 FP-Growth와 같은 연관규칙 알고리즘을 적용하여, 특정 상품 조합이 함께 거래될 규칙과 그 규칙의 신뢰도(Confidence) 및 지지도(Support)를 계산한다.
- 결과 종합 및 전략 제안:
- 두 분석 결과를 종합하여 전략적 시사점을 도출한다. 예를 들어, “Track 1에서 발견된 ‘고가 부품 전문 거래상’ 그룹에게, Track 2에서 발견된 ‘고가 프레임과 고가 휠셋’의 연관 규칙을 활용하여 맞춤형 추천을 제공한다”와 같은 구체적인 전략을 수립한다.
데이터 설명
국내 유명 온라인 자전거 커뮤니티의 중고 장터 게시글 데이터를 활용했으며, 사용자들이 거래한 자전거 부품의 종류, 브랜드, 등급 등의 정보를 포함하는 오프체인(Off-chain) 데이터이다.
- 출처: 논문에 구체적인 출처는 명시되지 않았으나, ‘자전거로 출퇴근하는 사람들(자출사)’과 같은 국내 대형 온라인 자전거 커뮤니티의 중고 장터 게시글을 웹 크롤링(Web Crawling) 또는 스크레이핑(Scraping) 기술을 통해 수집한 데이터로 추정된다. 이는 사용자가 직접 생성한 오프체인(Off-chain) 데이터이다.
- 수집 방법: 웹 페이지의 HTML 구조를 분석하여 게시글 제목, 작성자 ID, 본문 내용, 거래 가격 등의 정보를 자동으로 추출했을 것이다.
- 데이터 변수 설명: 원본 데이터는 비정형 텍스트 형태의 게시글이므로, 데이터 마이닝을 위해 다음과 같이 정형 데이터로 가공하는 과정이 필요하다.
- 거래 기본 정보:
Transaction_ID
: 각 거래(게시글)의 고유 식별자.UserID
: 판매자 또는 구매자의 ID.
- 거래 상품 정보 (텍스트 본문에서 추출):
Product_Type
: 거래된 상품의 종류 (예:프레임
,구동계
,휠셋
).Brand
: 상품의 브랜드 (예:시마노
,스램
,캄파놀로
).Grade
: 상품의 등급 (예:듀라에이스
,울테그라
,105
).Price
: 거래 가격.
- 분석용 데이터 구조:
- 연관규칙 분석용: 각 거래(Transaction_ID)별로, 함께 거래된 상품(
Product_ID
또는Brand-Grade
조합)들의 집합. - 군집 분석용: 각 사용자(
UserID
)별로, 거래 횟수, 평균 거래 금액, 선호 브랜드, 선호 등급 등 행동을 요약한 특징 벡터.
- 연관규칙 분석용: 각 거래(Transaction_ID)별로, 함께 거래된 상품(
- 거래 기본 정보:
데이터 분석
연관규칙 분석을 통해 특정 프레임과 구동계, 휠셋 등 부품 간의 강한 결합 패턴을 발견했으며, 군집분석을 통해 사용자들을 ‘고가 부품 전문 거래상’, ‘입문용 부품 거래자’ 등 여러 유형으로 분류했다.
본 연구의 데이터 분석은 연관규칙 분석과 군집분석이라는 두 가지 기법을 통해 진행되었다.
먼저, 연관규칙 분석에서는 수많은 거래 데이터를 탐색하여 통계적으로 유의미한 상품 조합을 찾아냈다. 이 분석을 통해, 예를 들어 “A 브랜드의 카본 프레임을 구매한 사용자는 80%의 확률로 B 브랜드의 카본 휠셋도 함께 구매한다”와 같은 강력한 규칙들을 발견했다. 이러한 규칙들은 우연히 발생했다고 보기 어려운, 실제 사용자들의 구매 패턴에 내재된 의미 있는 관계를 나타낸다.
다음으로, 군집분석에서는 각 사용자의 거래 프로필을 기반으로 사용자들을 그룹화했다. K-평균 군집분석을 적용한 결과, 사용자들은 거래하는 상품의 가격대, 브랜드 선호도, 거래 빈도 등에 따라 몇 개의 뚜렷한 그룹으로 나뉘었다. 예를 들어, 고가의 최상급 부품만을 전문적으로, 그리고 자주 거래하는 ‘전문가/딜러’ 그룹과, 입문급의 저렴한 부품 위주로 가끔 거래하는 ‘초보 라이더’ 그룹 등이 식별되었다.
핵심 결과
데이터 마이닝 기법을 통해, 전문가의 직관만으로는 파악하기 어려운 특정 자전거 부품 간의 세밀한 연관 관계와 다양한 거래자 유형을 성공적으로 식별하고 정량화했다.
이 연구의 핵심적인 결과는, 대규모 비정형 거래 데이터 속에서도 데이터 마이닝 기술을 활용하여 객관적이고 실행 가능한 비즈니스 인사이트를 도출할 수 있음을 보여준 것이다.
- 상품 간 연관성 발견: 전문가의 경험으로는 알 수 있었던 ‘고가 프레임-고가 휠셋’ 조합뿐만 아니라, 특정 브랜드의 안장과 특정 브랜드의 핸들바가 함께 구매되는 경향과 같은, 데이터 분석을 통해서만 발견할 수 있는 세밀하고 예상치 못한 상품 간의 관계를 찾아냈다.
- 고객 유형의 객관적 정의: ‘전문가’, ‘동호인’, ‘초보자’와 같이 막연하게 생각했던 사용자 유형을, 실제 거래 데이터에 기반하여 ‘고가/고빈도 거래 그룹’, ‘중가/중빈도 거래 그룹’ 등과 같이 명확하고 객관적인 세그먼트로 정의할 수 있게 되었다.
이러한 결과는 온라인 마켓플레이스가 고객과 상품을 더 깊이 이해하고, 이를 바탕으로 한 단계 더 발전된 서비스를 제공할 수 있는 기반을 마련해준다.
시사점
연관규칙 분석은 고객의 장바구니 데이터를 분석하여 교차 판매 기회를 발굴하는 데 매우 효과적인 도구이며, 군집분석과 결합될 때, ‘어떤 고객에게’ ‘어떤 상품 조합을’ 추천해야 하는지에 대한 정교한 타겟팅 전략을 수립할 수 있다.
이 연구는 데이터 기반 마케팅, 특히 추천 시스템과 개인화 전략에 있어 중요한 시사점을 제공한다.
첫째, 두 분석 기법의 시너지를 활용해야 한다. 군집분석은 ‘누구에게’ 마케팅할 것인가(타겟 고객)를 알려주고, 연관규칙 분석은 ‘무엇을’ 마케팅할 것인가(추천 상품)를 알려준다. 이 두 가지를 결합하면, **”A라는 특성을 가진 고객 그룹에게는 B 상품과 C 상품을 함께 추천했을 때 구매 확률이 가장 높다”**와 같이, 매우 정교하고 효과적인 개인화 추천 전략을 수립할 수 있다.
둘째, B2C를 넘어 C2C, P2P 데이터 분석의 중요성이 커지고 있다. 기업이 생성하는 데이터뿐만 아니라, 사용자들이 자발적으로 생성하는 데이터(커뮤니티 게시글, 중고 거래 내역 등) 속에도 엄청난 비즈니스 기회가 숨어있다. 이러한 데이터를 수집하고 분석하는 역량은 미래 비즈니스의 중요한 경쟁력이 될 것이다.
인사이트
데이터 속에 숨은 ‘관계’를 찾아내 비즈니스의 ‘미래’를 연결하라.
이 논문은 데이터 분석의 진정한 가치가 ‘연결’과 ‘관계’를 발견하는 데 있음을 다시 한번 보여준다. 고객과 상품, 상품과 상품 사이의 보이지 않는 연결고리를 데이터 마이닝을 통해 찾아낼 때, 우리는 과거를 분석하는 것을 넘어 미래의 비즈니스 기회를 창출할 수 있다.
- 페르소나 예시: “DeFi 레고 마스터, 벨라(Bella)”
- 특징: 벨라는 단일 DeFi 프로토콜만 사용하지 않는다. 그녀는 유니스왑에서 LP 토큰을 생성하고, 그 LP 토큰을 다른 수익 최적화 프로토콜에 예치하며, 거기서 받은 보상 토큰을 또 다른 프로토콜의 거버넌스에 스테이킹하는 등, 여러 프로토콜을 마치 ‘레고 블록’처럼 조합하여 자신만의 최적화된 수익 전략을 구축한다. 그녀의 온체인 행동은 **’함께 사용되는 프로토콜 조합’**이라는 뚜렷한 패턴을 보인다.
- 데이터 기반 행동: 하나의 복합적인 목적을 위해, 여러 트랜잭션에 걸쳐 다수의 특정 프로토콜들을 순차적 또는 병렬적으로 사용하는 패턴.
- 실질적인 마케팅 액션 제안 (DeFi 생태계 활성화 관점):
- 프로토콜 연관규칙 분석 (DeFi 레고 조합 발견): 이 논문의 연관규칙 분석을 Web3에 적용하여, 어떤 DeFi 프로토콜들이 하나의 복합적인 투자 전략 안에서 함께 자주 사용되는지를 분석한다. 예를 들어,
IF {Lido에서 stETH를 발행} AND {Curve의 stETH 풀에 유동성 공급}, THEN {Convex Finance에 해당 LP 토큰을 스테이킹}
과 같은 ‘DeFi 레고 레시피’를 대규모 트랜잭션 데이터로부터 자동으로 발견한다. - ‘다음 행동’ 예측 및 추천: Lido와 Curve를 사용한 사용자에게, 연관규칙 분석 결과를 바탕으로 “Convex에 스테이킹하여 당신의 수익률을 추가로 2.5% 부스팅하세요!”와 같이, 그들의 투자 전략에서 가장 가능성 높은 ‘다음 행동’을 선제적으로 추천한다.
- 통합 대시보드 및 원클릭 솔루션 제공: ‘벨라’와 같은 ‘DeFi 레고 마스터’ 세그먼트를 위해, 연관성이 높은 프로토콜들의 자산 현황을 한눈에 보여주고, 여러 단계의 복잡한 트랜잭션(예: stETH 발행 → Curve LP 제공 → Convex 스테이킹)을 한 번의 클릭으로 실행시켜주는 통합 대시보드(Aggregator/Dashboard) 서비스를 개발하여 제공함으로써, 사용자 경험을 획기적으로 개선한다.
- 프로토콜 연관규칙 분석 (DeFi 레고 조합 발견): 이 논문의 연관규칙 분석을 Web3에 적용하여, 어떤 DeFi 프로토콜들이 하나의 복합적인 투자 전략 안에서 함께 자주 사용되는지를 분석한다. 예를 들어,