군집 해석에서 알아야 할 K=3의 함정: 최대 변화량의 착시

세 개의 세그먼트로 나누면 세상은 단순해 보인다.

가장 크게 움직인 집단 하나만 보면
전체 변화가 설명되는 것처럼 느껴진다.

흥미로운 점은,
세 개일 때는 그 직관이 실제로 맞다는 것이다.

하지만 그 이유는 지표가 뛰어나서가 아니다.
구조 때문이다.


합이 고정된 데이터의 구조

점유율처럼 합이 1로 고정된 데이터에서는
한 집단이 늘어나면 반드시 다른 집단이 줄어든다.

이를 흔히 “제로섬”이라고 부른다.
정확히는 구성비 데이터의 수학적 제약이다.

Δ₁ + Δ₂ + Δ₃ = 0

이 한 줄이 모든 현상을 만든다.


간단한 숫자 예시

예를 들어 세 개의 세그먼트가 다음과 같이 변했다고 가정해보자.

세그먼트 이전 비중 이후 비중 변화량(Δ)
A 40% 30% -10
B 35% 30% -5
C 25% 40% +15

이때,

0.5 × Σ|Δ| = 0.5 × (10 + 5 + 15) = 15
max|Δ| = 15

전체 재편 강도와 최대 변화량이 정확히 같다.

이것은 특정 집단(C)이 나머지 두 집단(A, B)을 정확히 상쇄했기 때문이다.
세 개일 때는 이 구조가 항상 발생한다.


왜 착시가 생기는가

세 개로 나누면 우리는 이렇게 생각한다.

“가장 많이 움직인 집단이 곧 전체 변화다.”

세 개일 때는 실제로 그렇다.
그래서 이 사고방식이 굳어진다.

하지만 이건 지표의 힘이 아니라
차원이 만든 압축 효과다.


네 개 이상이면 달라진다

네 개 이상이 되면 상쇄가 여러 방향으로 나뉠 수 있다.

세그먼트 변화량(Δ)
A +1
B +1
C -1
D -1
max|Δ| = 1
0.5 × Σ|Δ| = 2

이제 최대 변화량은 전체 재편을 설명하지 못한다.
구조가 다축으로 분산되기 때문이다.


세 개는 요약에는 강하다

세 개는 요약에 적합하다.

  • 누가 가장 크게 움직였는가
  • 전체가 얼마나 재편되었는가

하지만 세 개는 구조를 모두 보여주지는 못한다.
강한 축 하나가 분산을 대부분 설명하면
다른 축은 눌려서 보이지 않는다.


행동 패턴 분석에서는 왜 중요한가

행동 패턴을 분석할 때는 단순히 “얼마나 움직였는가”보다
“어떤 방향으로, 어떤 유형으로 움직였는가”가 더 중요하다.

세 개로 나누면 변화는 하나의 축으로 보인다.

  • 활동이 늘었다
  • 활동이 줄었다
  • 중간이다

하지만 세그먼트를 다섯 개 이상으로 늘리면
다음과 같은 질문이 가능해진다.

  • 어느 채널에서 활동이 증가했는가
  • 어느 채널에서 유출이 발생했는가
  • 거래 횟수 중심인가, 거래 금액 중심인가

이때부터 단순 요약이 아니라
행동 유형의 분리가 시작된다.

즉, 세 개는 변화의 크기를 설명하기에 충분하지만,
행동 구조를 드러내기에는 부족할 수 있다.


정리

  • 세 개일 때 최대 변화량과 전체 재편 강도는 항상 같다.
  • 이는 지표의 특성이 아니라 차원의 제약 때문이다.
  • 세 개는 요약에 적합하다.
  • 하지만 구조 발견에는 해상도가 부족할 수 있다.
  • 중요한 것은 K가 아니라, 무엇을 보고 싶은가이다.

세 개는 단순해서 좋은 것이 아니다.
세 개는 단순하게 보이게 만든다.

행동 패턴을 이해하려는 순간,
우리는 단순한 요약을 넘어 구조를 보기 시작해야 한다.