공간을 가진 데이터: 유클리드 vs 비유클리드

데이터는 단순한 숫자와 문자의 나열이 아니다. 데이터는 마치 공간처럼 차원과 구조를 가지며, 이를 어떻게 이해하느냐에 따라 분석 방식과 결과가 달라진다. 데이터가 놓이는 공간을 유클리드 공간으로 볼지, 비유클리드 공간으로 볼지 구분하는 것은 데이터 분석의 출발점이다.

데이터에도 공간이 있다


데이터는 ‘좌표로 표현되는가’, 아니면 ‘관계로만 설명되는가’에 따라 유클리드/비유클리드로 나뉜다.

좌표란 무엇인가?
  • **좌표(Coordinate)**는 데이터를 수치로 위치에 대응시키는 방식이다.
  • 예시:
    • 엑셀 표 데이터: 학생 성적이 국어=90, 수학=85, 영어=80이라면 (90,85,80)(90, 85, 80)(90,85,80)이라는 3차원 벡터로 표현 가능하다.
    • 이미지 데이터: 28×28 흑백 이미지는 총 784개의 픽셀로, 이를 일렬로 펼치면 784차원 벡터가 된다.

좌표 공간에서는 두 점 사이 거리를 유클리드 거리로 정의할 수 있다.

$$
d(P, Q) = \sqrt{(x_1 – x_2)^2 + (y_1 – y_2)^2 + \cdots + (x_n – y_n)^2}
$$

즉, 데이터가 고정된 좌표에 올려지고, 직선 거리만으로 유사성을 설명할 수 있다면 유클리드 데이터라 할 수 있다.

유클리드 공간과 비유클리드 공간
  • 유클리드 공간 : 평평한 공간, 직선이 최단 경로이며 삼각형 내각 합은 항상 180°이다.
  • 비유클리드 공간 : 곡률(curvature)이 존재해 평행선 공리가 깨진다.
    • 구면 기하학: 지구 표면처럼 둥근 공간, 직선 대신 대권(geodesic)이 최단 거리.
    • 쌍곡 기하학: 말안장 모양 공간, 평행선이 여러 개 존재할 수 있고, 삼각형 내각 합이 180°보다 작다.

왜 유클리드와 비유클리드 개념이 중요한가?


데이터의 성격에 맞는 공간 개념을 써야 올바른 거리 계산과 정확한 분석이 가능하다.

선형 데이터는 유클리드로 충분하다
  • 좌표축이 명확하고 규칙적인 데이터는 유클리드 공간에서 잘 표현된다.
  • 예시: 이미지 픽셀, 수치형 표 데이터, 센서의 시간별 측정값.

비선형 데이터와 곡면 구조
  • 지구 위의 위도·경도 데이터는 평면 유클리드 좌표로 단순 계산하면 거리가 왜곡된다.
  • 실제 거리는 곡면 위의 지오데식 거리로 측정해야 정확하다.

관계와 연결을 담아내는 비유클리드 접근
  • SNS 친구 관계, 인용 네트워크, 추천 시스템은 **노드와 연결(edge)**이 핵심이다.
  • 단순 좌표 거리로는 “누가 누구와 더 가까운지”를 설명할 수 없으므로, 그래프 구조를 반영하는 비유클리드적 접근이 필요하다.

유클리드 vs 비유클리드 데이터 차이


유클리드 = 좌표 중심
비유클리드 = 관계·구조 중심.

구분유클리드 데이터비유클리드 데이터
거리 개념직선 거리 (Euclidean distance)최단 경로 거리, 지오데식 거리
표현 방식고정 차원의 벡터, 행렬그래프, 트리, 곡면 (가변 구조)
특징위치 기반, 규칙적 격자관계 기반, 복잡한 연결·위계 구조
대표 예시이미지, 시계열, 센서 데이터SNS 네트워크, 지식 그래프, 지도 좌표

같은 데이터, 다른 해석


동일한 데이터라도 표현 방식에 따라 유클리드적 또는 비유클리드적 성격을 띤다. 대표적인 예시로 이미지, 단어, 센서 데이터로 비교해볼 수 있다.
데이터의 표현과 해석 방식에 따라 같은 정보도 다른 공간에 속할 수 있다.

이미지
  • 픽셀 격자로 보면 유클리드
  • 이미지 내 영역을 노드로 연결하면 비유클리드.

단어 데이터
  • word2vec·BERT 임베딩 → 유클리드
  • 의미 관계를 연결한 그래프 → 비유클리드.

센서 데이터
  • 시간 순서로 기록된 수치 → 유클리드
  • 센서 간 네트워크 구조로 표현 → 비유클리드.

분석 기법의 선택


데이터의 구조와 성격에 따라 적합한 분석 기법은 달라진다. 아래 표는 유클리드 데이터와 비유클리드 데이터를 기준으로 어떤 신경망 모델을 선택해야 하는지 한눈에 보여준다.

  • 좌표 중심 데이터 → CNN, RNN, 전통적 ML
  • 관계 중심 데이터 → GCN, GAT 등 GNN
  • 계층 구조 데이터 → 하이퍼볼릭 임베딩
  • 곡면 데이터 → 지오데식 거리 기반 알고리즘

잘못된 구분의 위험


데이터를 잘못 이해하면 거리 계산이 틀리거나, 관계 정보가 손실되어 결과가 왜곡될 수 있다. 즉 모델링 성능 저하뿐 아니라 잘못된 해석과 의사결정 위험으로 이어진다.

지리 데이터 오해

서울–뉴욕 거리를 단순히 평면 좌표 거리로 계산하면 약 9,000km가 나오지만, 실제 비행기는 지구 곡면을 따라 약 11,000km를 이동한다. 잘못된 공간 가정은 물류 계획이나 교통 최적화에 큰 차이를 만든다.

SNS 친구 추천 실패

사용자 A와 C가 “친구의 친구” 관계임에도 불구하고, 단순 벡터 거리 기반으로 분석하면 두 사용자가 멀리 떨어져 있다고 인식된다. 이 경우 실제로 연결성이 높은 사람들을 추천하지 못하는 문제가 발생한다.

계층형 데이터 분석 오류

온라인 쇼핑몰의 상품 카테고리 트리를 유클리드 벡터로 강제로 표현하면, “운동화”와 “구두”가 비슷한 거리로 계산될 수 있다. 하지만 본질적으로 이들은 서로 다른 가지에 속하므로 계층적 구조를 반영할 수 있는 비유클리드 공간이 필요하다.

데이터 공간 인식의 힘


데이터공간 인식의 힘

“직선 거리로 설명 가능한가, 아니면 관계와 구조를 고려해야 하는가”가 유클리드 vs 비유클리드의 구분 기준이다.
데이터 분석은 결국 데이터가 어떤 공간에 속하는지 구분하는 일에서 시작한다.
올바른 구분을 통해 데이터를 바라보면, 더 정확하고 실무에 도움이 되는 분석을 수행할 수 있을 것이다.