Web Usability Segmentation – Applying K‑Means Clustering to the System Usability Scale 리뷰

웹사이트 사용성 평가 도구인 SUS(System Usability Scale) 점수에 K-평균 군집분석을 적용하여 사용자를 세분화하고, 각 그룹별 특성에 맞는 맞춤형 웹사이트 개선 전략을 제시하는 방법론을 다룬다.


논문 요약

  • 논문 제목: Web Usability Segmentation – Applying K-Means Clustering to the System Usability Scale
  • 저자: F. A. Bachtiar 외
  • 게재 학술지: 2023 International Conference on Data Science and Its Applications (ICoDSA)
  • 발행 연도: 2023
  • 핵심 요약: 전체 사용자의 평균적인 사용성 점수만으로는 파악하기 어려운 특정 사용자 그룹의 불편함을 식별하기 위해 K-평균 군집분석을 사용했다. 이를 통해 사용자를 만족도 수준에 따라 세 개의 뚜렷한 그룹으로 분류하고, 특히 만족도가 낮은 그룹이 겪는 핵심적인 사용성 문제를 구체적으로 분석하여 타겟 개선의 필요성을 증명했다.

연구 배경

웹사이트나 시스템의 성공은 사용자가 얼마나 쉽고 편리하게 느끼는지, 즉 ‘사용성(Usability)’에 크게 좌우되며, 이를 측정하기 위한 표준화된 방법론과 데이터 분석 기법이 요구된다.

웹사이트나 애플리케이션의 성공 여부를 판단하는 핵심 지표 중 하나는 **웹 사용성(Web Usability)**이다. 이는 사용자가 얼마나 효율적이고 효과적으로 목표를 달성할 수 있으며, 그 과정에서 얼마나 만족하는지를 나타낸다. 사용성이 낮은 서비스는 고객 이탈의 직접적인 원인이 되므로, 이를 측정하고 개선하는 것은 매우 중요하다.

이러한 사용성을 측정하는 표준화된 도구로 **시스템 사용성 척도(System Usability Scale, SUS)**가 널리 활용된다. SUS는 10개의 간단한 설문 문항을 통해 사용자가 시스템에 대해 주관적으로 느끼는 사용성을 정량적인 점수로 변환하는 기법이다. 저렴하고 신뢰도가 높아 업계 표준으로 자리 잡았다.

전통적으로 많은 연구는 전체 사용자의 평균 SUS 점수를 통해 시스템의 전반적인 사용성 수준을 평가했다. 하지만 평균값은 사용자 내부의 다양한 경험과 만족도 차이를 가리는 ‘평균의 함정’에 빠지기 쉽다. 일부 사용자는 매우 만족하는 반면, 다른 일부는 심각한 불편을 겪고 있을 수 있다. 이러한 문제의식 하에, 본 연구는 머신러닝 기법인 **K-평균 군집분석(K-Means Clustering)**을 도입하여 사용자들을 동질적인 소그룹으로 나누고, 각 그룹의 숨겨진 목소리를 듣고자 한다.


해결하려는 문제

단일 평균 점수로는 파악할 수 없는 사용자 그룹별 다양한 사용성 경험을 식별하고, 특정 그룹이 겪는 문제에 집중하여 실질적인 개선점을 도출한다.

기존의 웹 사용성 분석은 전체 사용자의 SUS 점수를 평균 내어 단일 값으로 평가하는 방식에 의존했다. 예를 들어, 특정 웹사이트의 평균 SUS 점수가 75점이라면 ‘좋은 편’이라고 결론 내릴 수 있다. 하지만 이 점수 뒤에는 90점대의 높은 만족도를 보인 사용자와 40점대의 심각한 불만을 가진 사용자가 섞여 있을 수 있다.

이처럼 평균 점수만으로는 어떤 사용자들이, 왜 불편을 겪는지 구체적으로 알 수 없다. 개발팀이나 마케팅팀은 개선의 우선순위를 정하기 어렵고, 결국 다수의 보통 사용자에게만 초점을 맞춘 무난한 업데이트에 그치게 될 위험이 있다.

본 연구는 이러한 한계를 극복하기 위해, ‘SUS 점수를 기반으로 사용자를 의미 있는 그룹으로 나눌 수 있는가?’ 라는 질문에서 출발한다. 군집분석을 통해 사용자를 사용성 인식 수준에 따라 여러 세그먼트(Segment)로 분리하고, 특히 ‘불만족’ 그룹의 특성을 심층 분석하여 웹사이트의 어떤 부분이 그들에게 가장 큰 장벽으로 작용하는지를 명확히 밝히는 것을 목표로 한다.


연구 모형

사용성 설문 데이터를 수집하여 K-평균 군집분석을 적용하고, 최적의 군집 수(K=3)를 결정한 뒤 각 군집의 특성을 비교 분석하여 그룹별 개선 방안을 제안한다.

본 연구의 모형은 다음과 같은 체계적인 단계를 거쳐 설계되었다.

  1. 데이터 수집: 특정 웹사이트 사용자들을 대상으로 표준화된 SUS 설문을 실시하여 원시 데이터를 수집한다.
  2. 데이터 전처리: 수집된 10개 문항의 답변을 SUS 채점 방식에 따라 0점에서 100점 사이의 최종 점수로 변환한다. 이 과정에서 긍정 문항과 부정 문항의 점수 계산법을 각각 적용한다.
  3. 최적 군집 수 결정: K-평균 알고리즘을 적용하기에 앞서, 데이터를 몇 개의 그룹으로 나누는 것이 가장 적절한지 판단해야 한다. 본 연구에서는 엘보우 방법(Elbow Method)을 사용하여 데이터의 분산을 가장 잘 설명하는 최적의 K값을 ‘3’으로 결정했다.
  4. K-평균 군집분석 수행: 결정된 K=3을 바탕으로 전체 사용자를 3개의 군집(Cluster)으로 분류한다. 알고리즘은 각 사용자의 SUS 점수를 기반으로, 군집 내 사용자들은 서로 유사한 점수를 가지도록, 군집 간 사용자들은 서로 다른 점수를 가지도록 그룹을 형성한다.
  5. 군집 프로파일링 및 해석: 분류된 3개의 군집을 각각 ‘높은 만족도(High)’, ‘중간 만족도(Medium)’, ‘낮은 만족도(Low)’ 그룹으로 명명한다. 각 그룹의 평균 SUS 점수와 인구통계학적 특성, 그리고 10개 세부 문항에 대한 응답 차이를 비교 분석하여 그룹별 특징을 구체화한다.
  6. 전략 제안: 분석 결과를 바탕으로, 특히 ‘낮은 만족도’ 그룹이 가장 부정적으로 응답한 항목들을 식별하고, 이 문제들을 해결하기 위한 구체적인 웹사이트 개선 전략을 제안한다.

데이터 설명

특정 웹사이트 사용자 40명을 대상으로 실시한 오프체인(Off-chain) 데이터인 SUS 설문조사 결과를 활용했으며, 10개 문항 응답을 핵심 변수로 사용했다.

  • 출처: 논문에 구체적인 출처는 명시되지 않았으나, 연구가 진행된 특정 웹사이트(예: 학술 정보 시스템)의 사용자를 대상으로 한 설문 데이터로 추정된다. 데이터의 성격은 오프체인(Off-chain) 데이터에 해당한다.
  • 수집 방법: 연구 대상 웹사이트를 사용한 경험이 있는 학생 40명을 대상으로 온라인 설문조사를 통해 SUS 데이터를 수집했다.
  • 데이터 변수 설명: 데이터의 핵심은 SUS의 10개 표준 문항에 대한 사용자의 응답(1점 ‘전혀 동의하지 않음’ ~ 5점 ‘전적으로 동의함’)이다. 이 변수들은 사용성(Usability)과 학습용이성(Learnability)이라는 두 가지 논리적 그룹으로 구조화할 수 있다.
    • 긍정 문항 (홀수 번호): 시스템 사용에 대한 긍정적 경험을 측정한다.
      • 예: “나는 이 시스템을 자주 이용하고 싶다(1번)”, “나는 이 시스템이 사용하기 쉽다고 생각했다(3번)”, “나는 이 시스템을 사용하면서 매우 자신감을 느꼈다(9번)”
    • 부정 문항 (짝수 번호): 시스템 사용에 대한 부정적 경험 및 어려움을 측정한다.
      • 예: “나는 이 시스템이 불필요하게 복잡하다고 느꼈다(2번)”, “나는 이 시스템에 일관성이 없다고 생각했다(6번)”, “이 시스템을 사용하기 전에 배워야 할 것이 너무 많았다(10번)”

각 사용자의 최종 SUS 점수는 이 10개 문항의 응답을 정해진 공식에 따라 변환하여 계산된 단일 값(0~100점)이며, 이 최종 점수가 K-평균 군집분석의 입력 데이터로 사용되었다.


데이터 분석

각 사용자의 SUS 설문 응답을 단일 점수로 변환한 뒤, 엘보우 방법을 통해 최적의 군집 수(K=3)를 찾아 K-평균 군집분석을 실행했다.

본 연구의 데이터 분석은 SUS 점수 계산과 K-평균 군집분석의 두 단계로 진행되었다.

첫째, 40명의 사용자로부터 수집된 10개 문항의 설문 응답(1~5점 척도)을 분석에 사용할 수 있는 최종 SUS 점수로 변환했다. 계산 과정은 다음과 같다.

  • 긍정 문항 (홀수 번호): 사용자가 응답한 점수에서 1을 뺀다. (예: 5점 응답 → 4점)
  • 부정 문항 (짝수 번호): 5에서 사용자가 응답한 점수를 뺀다. (예: 1점 응답 → 4점)
  • 이렇게 변환된 10개 문항의 점수를 모두 합산한 후, 2.5를 곱하여 0점에서 100점 사이의 최종 SUS 점수를 산출한다.

둘째, 개별 사용자의 최종 SUS 점수 데이터를 사용하여 K-평균 군집분석을 적용했다. 이 단계의 핵심은 최적의 군집 개수(K)를 결정하는 것이었다. 연구진은 데이터 내 그룹 수를 1개부터 10개까지 늘려가며 군집 내 오차 제곱합(Within-Cluster Sum of Squares, WCSS)의 변화를 시각화하는 **엘보우 방법(Elbow Method)**을 사용했다. 그 결과, K가 3일 때 그래프의 기울기가 팔꿈치처럼 급격히 꺾이는 지점(Elbow Point)이 관찰되었고, 이에 따라 전체 사용자를 3개의 군집으로 분류하는 것이 가장 통계적으로 유의미하다고 판단했다.

이후, K=3 조건으로 K-평균 알고리즘을 실행하여 모든 사용자를 3개의 군집 중 하나에 할당하고, 각 군집의 특성을 분석하는 단계로 나아갔다.


핵심 결과

K-평균 군집분석을 통해 사용자를 ‘높은 만족도’, ‘중간 만족도’, ‘낮은 만족도’의 세 그룹으로 성공적으로 분류했으며, 낮은 만족도 그룹은 특히 시스템의 복잡성과 학습의 어려움에 큰 불만을 나타냈다.

분석 결과, 40명의 사용자는 SUS 점수를 기준으로 뚜렷한 세 개의 군집으로 나뉘었다.

  • 군집 0 (Cluster 0): 중간 만족도 그룹 (Average SUS: 72.5)
    • 15명의 사용자가 포함되었으며, 전반적으로 ‘보통’ 또는 ‘좋은’ 수준의 사용성을 경험했다.
  • 군집 1 (Cluster 1): 낮은 만족도 그룹 (Average SUS: 46.43)
    • 7명의 사용자가 포함되었으며, SUS 점수가 50점 미만으로 심각한 사용성 문제를 겪고 있음을 시사한다. 이들은 특히 ‘시스템이 불필요하게 복잡하다(Q2)’, ‘사용 전 배워야 할 것이 많다(Q10)’는 부정적 문항에 강하게 동의했다.
  • 군집 2 (Cluster 2): 높은 만족도 그룹 (Average SUS: 86.88)
    • 18명의 사용자가 포함되었으며, 웹사이트 사용에 매우 만족하고 사용이 쉽고 직관적이라고 평가했다.

가장 중요한 발견은 ‘낮은 만족도’ 그룹의 존재와 그들의 특성을 명확히 식별했다는 점이다. 전체 평균 SUS 점수는 72.25점으로 ‘좋음’ 수준이었지만, 군집 분석을 통해 소수이지만 명확한 불만족 그룹이 존재함을 밝혀냈다. 이들은 단순히 시스템이 조금 불편한 수준을 넘어, 복잡성과 높은 학습 곡선으로 인해 서비스를 사용하는 데 큰 장벽을 느끼고 있었다. 이는 전체 평균만으로는 절대 파악할 수 없는 구체적인 문제점이다.


시사점

평균 점수에 의존하는 분석 방식에서 벗어나, 군집 분석을 통해 가장 불만족하는 소수 그룹을 찾아내고 그들의 문제에 집중하는 것이 전체 사용자 경험(UX)을 향상시키는 데 더 효율적이고 효과적이다.

본 연구는 웹사이트 및 서비스 기획자, 마케터에게 중요한 실무적 시사점을 제공한다.

첫째, ‘평균의 함정’을 경계해야 한다. 전체 평균 지표는 안정적으로 보일 수 있지만, 그 이면에는 서비스를 외면하게 만들 수 있는 치명적인 문제점을 경험하는 ‘소외된 사용자 그룹’이 존재할 수 있다. 군집 분석과 같은 세분화 기법은 이러한 그룹을 수면 위로 드러내는 강력한 도구이다.

둘째, 자원의 효율적 배분이 가능해진다. 모든 사용자를 만족시키려는 막연한 개선보다는, 가장 큰 고통을 겪는(pain point가 명확한) 사용자 그룹을 식별하고 그들이 겪는 핵심 문제를 먼저 해결하는 것이 투자 대비 효과(ROI)가 높다. 예를 들어, ‘낮은 만족도’ 그룹이 공통으로 지적한 ‘복잡성’ 문제를 해결하면, 이들의 만족도를 크게 높여 이탈을 막고, 결과적으로 전체 평균 만족도까지 끌어올릴 수 있다. 이는 한정된 개발 및 마케팅 자원을 어디에 집중해야 할지에 대한 명확한 근거를 제공한다.


인사이트

평균의 환상 뒤에 숨은 ‘소외된 사용자’를 발견하고, 그들의 목소리를 성장의 기회로 삼아라.

AI 빅데이터 마케터의 관점에서 이 논문은 단순히 기술적 분석을 넘어, 고객을 깊이 이해하는 새로운 창을 열어준다. 전체 평균이라는 지표에 안주하는 대신, 데이터 속에 숨겨진 이상 신호(anomaly)를 통해 충성 고객으로 전환될 잠재적 이탈 그룹을 찾아낼 수 있다.

  • 고객 페르소나 예시: “길 잃은 학습자, 에밀리”
    • 특징: 에밀리는 우리 서비스가 제공하는 가치에는 공감하지만, 서비스를 처음 사용할 때마다 길을 잃는 기분을 느낀다. 그녀는 “이 버튼 다음에 뭘 눌러야 할지”, “이 용어가 무슨 뜻인지” 몰라 좌절한다. 그녀는 시스템이 너무 복잡하고, 일관성이 없으며, 시작하기 전에 많은 학습이 필요하다고 느낀다. 결국 필요한 최소한의 기능만 사용하거나, 사용 자체를 포기하게 된다.
    • 데이터 기반 행동: 낮은 기능 사용률, 높은 도움말/FAQ 페이지 조회수, 짧은 세션 시간, 초기 단계에서의 잦은 이탈.
  • 실질적인 마케팅 액션 제안:
    1. 온보딩 경험 개인화: ‘에밀리’와 같은 행동 패턴을 보이는 신규 사용자 그룹을 자동으로 식별하여, 이들에게는 더욱 상세한 단계별 튜토리얼이나 팝업 팁을 제공하는 CRM 캠페인을 실행한다.
    2. 선제적 고객 지원: 이 그룹에게 “혹시 서비스 이용에 어려움은 없으신가요? 자주 묻는 질문 가이드를 보내드립니다.”와 같은 개인화된 이메일이나 인앱 메시지를 발송하여, 문제가 발생하기 전에 먼저 다가가 돕는다.
    3. UI/UX A/B 테스트 타겟팅: 복잡한 기능의 UI를 단순화하는 개선안을 전체 사용자에게 적용하기 전, ‘에밀리’ 그룹을 대상으로 먼저 A/B 테스트를 진행하여 개선 효과를 정밀하게 측정한다.