2007년 당시, 온라인 서점 고객의 구매 이력과 인구통계 정보를 인공신경망(ANN)에 학습시켜, ‘인문학 애호가’, ‘자녀 교육서 구매자’ 등 숨겨진 고객 유형을 분류하는 선구적인 방법론을 제시한다.
논문 요약
- 논문 제목: 신경망 기법을 이용한 온라인 서점 이용자들의 고객 유형 분석
- 저자: 전현치, 김지현
- 게재 학술지: 한국콘텐츠학회논문지
- 발행 연도: 2007
- 핵심 요약: 온라인 서점 고객의 인구통계 정보와 도서 구매 이력 데이터를 활용하여, 다층 퍼셉트론(MLP) 인공신경망 모델을 통해 고객 유형을 분류하는 연구를 수행했다. 이를 통해 단순 통계 기법으로는 발견하기 어려운 데이터 간의 비선형적 관계를 학습하고, 유사한 구매 패턴을 가진 잠재적 고객 그룹을 자동으로 분류하는 방법론의 가능성을 탐색했다.
연구 배경
고객의 구매 목록은 그들의 관심사와 정체성을 말해주는 데이터의 보고(寶庫)다. 이 연구는 2000년대 초반, 인공신경망이라는 새로운 렌즈를 통해 이 데이터 속에 숨겨진 고객의 다채로운 모습을 발견하고자 시도한다.
2000년대 중반, 온라인 서점의 등장은 고객 분석의 새로운 지평을 열었다. 오프라인 서점에서는 어떤 고객이 어떤 책을 구매하는지 추적하기 어려웠지만, 온라인 서점에서는 모든 고객의 구매 이력이 데이터베이스에 차곡차곡 쌓이기 시작했다. 기업들은 이 데이터를 활용하여 고객을 이해하고, 더 나은 서비스를 제공하고자 했다.
초기의 고객 분석은 주로 RFM(최근성, 빈도, 금액)이나 인구통계학적 정보(나이, 성별, 지역)를 기반으로 한 단순한 세분화에 그쳤다. 예를 들어, “최근 6개월간 10만 원 이상 구매한 30대 여성”과 같이, 명확한 규칙 기반으로 고객을 나누는 방식이었다. 하지만 이러한 방식은 고객의 복잡한 취향과 관심사를 제대로 반영하지 못하는 한계가 있었다. 예를 들어, 동일하게 10만 원을 구매했더라도, 한 명은 소설책만 10권을, 다른 한 명은 자녀를 위한 학습만화만 10권을 구매했을 수 있다. 이 둘은 전혀 다른 유형의 고객이다.
이러한 한계를 극복하기 위해, 본 연구는 인공신경망(Artificial Neural Network, ANN), 그중에서도 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 기법을 도입한다. 인공신경망은 인간의 뇌가 정보를 처리하는 방식을 모방한 머신러닝 모델로, 여러 층의 노드를 통해 데이터 간의 복잡하고 비선형적인(Non-linear) 관계를 스스로 학습하는 능력이 뛰어나다. 이 연구는 인공신경망을 통해, 고객의 구매 패턴 속에 숨겨진 미묘한 관계를 포착하고, 이를 바탕으로 고객을 의미 있는 유형으로 자동 분류하는 선구적인 시도를 한다.
해결하려는 문제
고객의 인구통계 정보와 구매 도서 카테고리 등 복합적인 데이터를 종합적으로 분석하여, 단순한 규칙 기반 세분화를 넘어 고객의 잠재된 ‘관심사’와 ‘취향’에 기반한 정교한 고객 유형을 발견한다.
온라인 서점 마케터는 다음과 같은 질문에 대한 답을 항상 찾고 있다.
- 우리 서점에는 어떤 취향을 가진 고객들이 주로 방문하는가?
- ‘인문학 서적’을 구매하는 고객들은 다른 어떤 분야의 책에도 관심을 보이는가?
- ’30대 남성’이라는 동일한 인구통계 그룹 안에도, 전혀 다른 구매 성향을 가진 하위 그룹들이 존재하지 않는가?
기존의 통계 분석 방법으로는 이러한 질문에 답하기 어려웠다. 데이터의 여러 변수(나이, 성별, 구매 카테고리 등)가 서로 복잡하게 얽혀서 최종적인 구매 행동에 영향을 미치기 때문이다.
이 연구가 해결하고자 하는 문제는 바로 이러한 **’데이터의 복잡성’**을 극복하는 것이다. 인공신경망 모델을 활용하여, 여러 변수 간의 비선형적 상호작용을 모델이 스스로 학습하게 함으로써, 인간의 직관이나 단순한 규칙으로는 발견하기 어려운 잠재적인 고객 유형을 데이터로부터 직접 도출해내는 것을 목표로 한다.
연구 모형
온라인 서점 고객의 인구통계 정보와 도서 구매 카테고리 데이터를 입력 변수로, 고객 유형을 출력 변수로 하는 다층 퍼셉트론(MLP) 신경망 모델을 구축하여 고객 분류를 수행한다.
본 연구는 고객 유형을 분석하기 위해, 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)의 특징을 결합한 인공신경망 기반의 분류(Classification) 또는 군집(Clustering) 모델을 사용했다. 구체적인 연구 모형은 다음과 같다.
- 입력 데이터 준비:
- 각 고객의 인구통계 정보(성별, 연령대 등)와 구매한 도서의 카테고리별 구매 횟수/금액 데이터를 준비한다.
- 예를 들어, 고객 A는
[성별:남, 연령:30대, 인문:5회, 경제:2회, 소설:0회, ...]
와 같은 형태의 **특징 벡터(Feature Vector)**로 표현된다.
- 인공신경망 모델 설계:
- 입력층, 하나 이상의 은닉층(Hidden Layers), 출력층으로 구성된 다층 퍼셉트론(MLP) 모델을 설계한다.
- 입력층의 노드 수는 특징 벡터의 차원 수(인구통계 변수 개수 + 도서 카테고리 개수)와 같다.
- 출력층의 노드 수는 분류하고자 하는 고객 유형의 개수와 같다. 예를 들어 4개의 고객 유형으로 분류하고 싶다면 출력 노드는 4개가 된다.
- 모델 학습 및 분류:
- 준비된 고객 데이터를 신경망 모델에 입력하여 학습을 진행한다. 이 과정에서 모델은 유사한 입력 패턴(특징 벡터)을 가진 고객들을 출력층의 동일한 노드로 모으도록 가중치를 조정한다. (이는 경쟁 학습이나 자기조직화지도(SOM)와 유사한 방식으로 작동할 수 있다.)
- 학습이 완료된 후, 각 고객은 활성화된 출력 노드에 따라 특정 유형으로 분류된다.
- 결과 해석:
- 각 유형으로 분류된 고객 그룹의 인구통계 및 구매 카테고리 특성을 분석하여, “1번 유형은 20대 여성이며 소설/에세이 구매가 많다”와 같이 각 유형의 페르소나를 정의한다.
데이터 설명
특정 온라인 서점의 고객 데이터를 활용했으며, 고객의 인구통계학적 정보와 특정 기간 동안의 도서 구매 이력을 포함하는 오프체인(Off-chain) 데이터이다.
- 출처: 논문에 구체적인 서점 이름은 명시되지 않았으나, 특정 온라인 서점의 CRM 및 주문 데이터베이스에서 추출된 데이터를 활용한 것으로 보인다. 이는 전형적인 오프체인(Off-chain) 데이터이다.
- 수집 방법: 기업 내부 데이터웨어하우스에서 일정 기간 동안의 고객 정보와 구매 기록을 SQL 등을 통해 추출하여 분석용 데이터셋을 구축했을 것이다.
- 데이터 변수 설명: 본 연구는 고객의 다차원적인 정보를 활용하여 유형을 분류하는 것을 목표로 하므로, 다음과 같은 변수들이 사용되었다.
- 입력 변수 (Input Features):
- 인구통계학적 변수 (Demographic Variables):
성별
: 남성, 여성.연령
: 20대, 30대, 40대 등 범주화된 연령 그룹.지역
: 거주 지역.
- 구매 행동 변수 (Behavioral Variables):
총 구매 금액 / 횟수
: 고객의 전반적인 구매 활동성.카테고리별 구매 빈도
: 연구의 핵심 변수로,인문
,사회
,과학
,경제/경영
,소설/시/희곡
,가정/생활
등과 같이 세분화된 각 도서 카테고리별 구매 횟수 또는 금액. 이 변수들이 고객의 ‘취향’을 나타낸다.
- 인구통계학적 변수 (Demographic Variables):
- 출력 변수 (Output / Target Variable):
고객 유형
: 모델이 학습을 통해 최종적으로 할당하게 될 고객의 그룹 번호 (예:유형 1
,유형 2
,유형 3
,유형 4
).
- 입력 변수 (Input Features):
데이터 분석
인공신경망 모델에 고객 데이터를 학습시킨 결과, 모델은 고객의 인구통계 정보와 구매 카테고리 간의 복잡한 관계를 학습하여, 통계적으로 유의미하고 해석 가능한 여러 고객 유형으로 성공적으로 분류했다.
본 연구의 데이터 분석은 인공신경망 모델을 통해 고객 데이터를 비선형적으로 분류하는 과정에 초점을 맞췄다. 전통적인 통계 기법(예: K-평균 군집분석)이 변수 간의 선형적인 관계나 거리를 기반으로 고객을 그룹화하는 반면, 인공신경망은 여러 은닉층을 거치면서 데이터의 복잡한 패턴과 상호작용을 스스로 학습한다.
예를 들어, 신경망 모델은 다음과 같은 복잡한 패턴을 발견할 수 있다.
- ’20대 여성’이라는 인구통계 정보는 ‘소설’ 카테고리 구매와 강한 양의 관계를 가지지만, ’30대 여성’은 ‘가정/생활’ 및 ‘자녀 교육’ 카테고리와 더 강한 관계를 가질 수 있다.
- ‘인문’과 ‘사회과학’ 서적을 함께 구매하는 패턴은 하나의 그룹으로, ‘경제/경영’과 ‘자기계발’ 서적을 함께 구매하는 패턴은 또 다른 그룹으로 묶일 수 있다.
분석 결과, 인공신경망은 이러한 복합적인 구매 패턴을 효과적으로 학습하여, 전체 고객을 몇 개의 의미 있는 그룹으로 성공적으로 분류해냈다. 각 그룹은 뚜렷하게 구분되는 인구통계학적 특성과 주력 구매 카테고리를 보여주어, 모델이 성공적으로 고객 유형을 식별했음을 증명했다.
핵심 결과
인공신경망은 온라인 서점 고객을 구매 패턴에 따라 ‘인문/사회과학 집중형’, ‘실용/경제서적 집중형’, ‘가정/생활 중심형’ 등과 같이 의미 있는 유형으로 성공적으로 분류했으며, 이는 딥러닝의 초기 모델이 복잡한 고객 세분화에 매우 효과적임을 보여준다.
이 연구의 핵심 결과는 2007년 당시로서는 첨단 기술이었던 인공신경망(신경망) 기법이 복잡한 고객 데이터를 분석하여 의미 있는 세그먼트를 도출하는 데 매우 유용한 도구임을 실증적으로 보여주었다는 점이다.
분석을 통해 도출된 고객 유형들은 단순히 구매량이 많은 고객, 적은 고객으로 나뉘는 것이 아니라, 각자의 뚜렷한 **’관심사’와 ‘취향’**을 가진 페르소나로 나타났다. 예를 들어, 특정 그룹은 인문학과 사회과학 서적 구매에 집중하는 ‘지식 탐구형’의 특성을 보였고, 다른 그룹은 경제/경영 서적과 자기계발서를 주로 구매하는 ‘커리어 지향형’의 모습을 보였다.
이러한 결과는 인공신경망이 데이터의 표면적인 특징뿐만 아니라, 그 이면에 숨겨진 고객의 라이프스타일이나 관심사와 같은 잠재적인 특성까지 포착하여 세분화할 수 있는 가능성을 제시했다.
시사점
인공신경망과 같은 비선형 모델을 활용하면, 기존의 선형적인 통계 모델로는 파악하기 어려운 고객 행동의 복잡한 패턴을 발견하고, 이를 통해 훨씬 더 정교하고 효과적인 고객 세분화 전략을 수립할 수 있다.
이 연구는 2007년에 수행되었지만, 오늘날 딥러닝 시대에 더욱 중요한 시사점을 제공한다.
첫째, 고객 행동의 비선형성을 이해해야 한다. 고객의 구매 결정은 ‘A를 샀기 때문에 B를 산다’와 같은 단순한 선형적 인과관계로 설명되지 않는다. 나이, 성별, 과거 구매 이력, 최근 검색 기록 등 수많은 요인들이 복잡하게 상호작용하여 다음 행동을 결정한다. 인공신경망과 그 후속 기술인 딥러닝은 이러한 비선형적 복잡성을 가장 잘 다룰 수 있는 도구이다.
둘째, 데이터 기반의 페르소나 구축이 가능하다. 마케터가 직관에 의존하여 고객 페르소나를 만드는 대신, 신경망 모델이 데이터로부터 직접 고객 유형을 발견하고 정의하게 할 수 있다. 이는 훨씬 더 객관적이고 실제 고객 행동에 기반한 페르소나를 구축하게 하여, 마케팅 메시지와 상품 추천의 정확도를 획기적으로 높일 수 있다.
인사이트
고객의 ‘구매 목록’은 그의 ‘정체성’이다. 그 정체성을 읽는 자가 시장을 지배한다.
AI 빅데이터 마케터의 관점에서 이 논문은 고객 데이터 분석의 본질이 ‘숨겨진 정체성 찾기’에 있음을 보여준다. 고객이 구매한 책들의 조합은 그가 ‘대학생’인지, ‘자녀를 둔 부모’인지, ‘전문직 종사자’인지를 알려주는 강력한 시그널이다. 인공신경망은 바로 이 시그널들의 복잡한 조합을 해독하여, 고객의 진짜 페르소나를 드러내 주는 ‘해독기’와 같다.
- 페르소나 예시: “DeFi 농부 겸 NFT 게이머, 다니엘(Daniel)”
- 특징: 다니엘의 지갑 활동을 보면, 그는 유니스왑, 커브, 에이브와 같은 주요 DeFi 프로토콜에서 활발하게 활동하면서도, 동시에 엑시 인피니티나 디센트럴랜드와 같은 P2E(Play-to-Earn) 게임의 NFT를 거래하는 이중적인 패턴을 보인다. 그의 **’dApp 포트폴리오’**는 그가 단순히 ‘DeFi 유저’나 ‘NFT 유저’가 아닌, **’수익 기회를 적극적으로 탐색하는 Web3 네이티브’**라는 더 복합적인 정체성을 가지고 있음을 보여준다.
- 데이터 기반 행동: 주요 DeFi dApp과 주요 GameFi dApp 양쪽에서 모두 꾸준한 트랜잭션 기록이 발견됨.
- 실질적인 마케팅 액션 제안:
- ‘dApp 포트폴리오’ 기반 세분화: 이 논문의 아이디어를 적용하여, 고객이 상호작용한 dApp들의 카테고리 조합(DeFi, NFT, GameFi, SocialFi 등)을 핵심 변수로 사용하여 인공신경망 기반의 세분화를 수행한다. 이를 통해 ‘다니엘’과 같이 여러 카테고리에 걸쳐 활동하는 ‘다각적 참여자(Multi-faceted Participant)’ 그룹을 식별한다.
- 교차 장르(Cross-genre) 상품 추천: ‘다니엘’에게는 DeFi 상품만 추천하는 것이 아니라, 그의 숨겨진 다른 정체성인 ‘게이머’ 성향을 공략하는 추천을 제공한다. 예를 들어, “회원님이 즐겨 하시는 엑시 인피니티 NFT를 담보로 Aave에서 대출받아 새로운 DeFi 투자를 시작해보세요”와 같이, 그의 두 가지 관심사를 연결하는 ‘교차 판매’ 기회를 창출한다.
- 통합 경험 제공: 이 ‘다각적 참여자’ 그룹은 여러 dApp을 오가는 데 불편함을 느낄 가능성이 높다. 이들을 위해 Zapper나 Debank와 같이, 다양한 DeFi와 NFT 자산을 한 곳에서 관리하고 실행할 수 있는 통합 대시보드(Aggregator) 서비스를 제휴하여 제공함으로써, 그들의 핵심적인 불편함을 해결해주고 충성도를 높인다.