웹3와 에듀테크 관련 학술 논문 데이터를 토픽 모델링과 소셜 네트워크 분석으로 탐색하여, 해당 분야의 핵심 연구 주제와 트렌드, 그리고 연구자 간의 협력 네트워크 구조를 규명한다.
논문 요약
- 논문 제목: 웹3 환경에서 에듀테크의 주제, 트렌드 변화와 협력 네트워크 구조 연구: 과학계량학 및 소셜네트워크 분석
- 저자: 이재은
- 게재 학술지: 한양대학교 대학원 (박사학위논문)
- 발행 연도: 2023
- 핵심 요약: ‘웹3 에듀테크’라는 신흥 융합 연구 분야의 지식 구조를 파악하기 위해, 관련 학술 문헌 데이터를 과학계량학적 방법론으로 분석했다. 토픽 모델링(Topic Modeling)을 통해 ‘탈중앙화된 학습 증명’, ‘학습자 주권’ 등과 같은 핵심 연구 주제를 도출했으며, 소셜 네트워크 분석(Social Network Analysis)을 통해 해당 분야의 주요 연구 기관과 연구자 간의 협력 구조를 시각화하고 그 특징을 분석했다.
연구 배경
어떤 새로운 기술 분야가 떠오를 때, 우리는 어떻게 그 분야의 전체적인 지형을 파악할 수 있을까? 이 연구는 특정 분야의 ‘학술 논문’들을 하나의 거대한 데이터로 보고, 그 속에서 핵심 주제와 주요 전문가, 그리고 그들 간의 연결망을 찾아내는 ‘연구 분야에 대한 연구’ 방법론을 제시한다.
**웹3(Web3)**는 블록체인, 탈중앙화, 토큰 경제 등의 기술을 기반으로 하는 차세대 인터넷 패러다임을 의미한다. 이러한 웹3 기술이 교육과 만난 융합 분야가 바로 **웹3 에듀테크(EdTech)**이다. 웹3 에듀테크는 학습 이력을 위변조 불가능한 블록체인에 기록하거나(학습 이력 증명), 학습 활동에 대한 보상을 토큰으로 지급하는(Learn-to-Earn) 등 기존의 교육 방식을 혁신할 잠재력을 가지고 있다.
이렇게 새로운 연구 분야가 부상할 때, 연구자나 관련 기업들은 다음과 같은 질문들을 갖게 된다.
- 이 분야에서 가장 ‘핫’한 연구 주제는 무엇인가?
- 이 분야를 이끌고 있는 핵심 연구자나 연구 기관은 어디인가?
- 어떤 국가들이 이 분야의 연구를 주도하고 있는가?
이러한 질문에 답하기 위해, 본 연구는 **과학계량학(Scientometrics)**이라는 분석적 접근법을 사용한다. 과학계량학은 학술 논문, 특허 등 과학 기술 활동의 결과물을 계량적으로 분석하여, 특정 연구 분야의 구조와 동향을 파악하는 학문이다. 이를 위해 본 연구에서는 두 가지 핵심적인 데이터 분석 기법을 활용한다.
- 토픽 모델링 (Topic Modeling): 수많은 문서(본 연구에서는 논문 초록)들 속에 숨겨진 추상적인 ‘주제(Topic)’를 자동으로 발견하는 머신러닝 기법이다. (예: LDA – Latent Dirichlet Allocation)
- 소셜 네트워크 분석 (Social Network Analysis, SNA): 개체(본 연구에서는 연구자 또는 기관)들 간의 ‘관계(Relationship)’를 네트워크 형태로 시각화하고 분석하는 방법론이다.
해결하려는 문제
빠르게 부상하는 ‘웹3 에듀테크’라는 융합 연구 분야의 지식 구조를 객관적으로 파악하고, 주요 연구 주제의 변화를 추적하며, 핵심적인 역할을 하는 연구자 및 기관들의 협력 네트워크를 시각화한다.
‘웹3 에듀테크’와 같은 신흥 분야는 아직 학문적 체계가 완전히 정립되지 않았고, 연구 주제들이 여러 분야에 흩어져 있어 전체적인 흐름을 파악하기가 매우 어렵다. 어떤 연구가 중요한지, 누가 이 분야의 전문가인지에 대한 정보가 부족하여, 신규 연구자가 진입하거나 기업이 R&D 전략을 수립하는 데 어려움을 겪는다.
이 연구가 해결하고자 하는 문제는 바로 이러한 **’새로운 연구 분야에 대한 정보 부족과 불확실성’**이다. 개별 논문을 하나씩 읽어보는 방식으로는 전체적인 숲을 보기 어렵다. 따라서, 이 연구는 관련 학술 문헌 전체를 하나의 ‘빅데이터’로 간주하고, 데이터 마이닝 기술을 통해 다음과 같은 질문에 대한 객관적인 답을 찾고자 한다.
- 웹3 에듀테크 연구는 주로 어떤 세부 주제들로 구성되어 있는가? (토픽 모델링)
- 시간이 지남에 따라 연구 트렌드는 어떻게 변화해 왔는가? (토픽 트렌드 분석)
- 어떤 연구자와 기관들이 이 분야의 연구를 주도하고 있으며, 그들은 어떻게 협력하고 있는가? (네트워크 분석)
궁극적으로는 이 새로운 연구 분야의 ‘지식 지도(Knowledge Map)’를 그려, 향후 연구와 산업 발전에 대한 방향성을 제시하는 것을 목표로 한다.
연구 모형
학술 데이터베이스에서 ‘웹3’와 ‘에듀테크’ 관련 논문을 수집하고, 논문의 초록 및 키워드에 토픽 모델링을 적용하여 핵심 주제를 도출하며, 저자 및 소속기관 정보에 네트워크 분석을 적용하여 협력 구조를 분석한다.
본 연구는 연구 분야의 ‘내용’과 ‘구조’를 동시에 분석하기 위해, 다음과 같은 2-Track 분석 모형을 설계했다.
- Track 1: 내용 분석 (Content Analysis) – 토픽 모델링
- 주요 학술 데이터베이스(Scopus 등)에서 관련 키워드로 논문을 검색하고, 서지 정보(제목, 저자, 초록, 키워드 등)를 수집한다.
- 수집된 논문의 초록 텍스트 데이터를 전처리하고, LDA(Latent Dirichlet Allocation)와 같은 토픽 모델링 알고리즘을 적용한다.
- 모델이 도출한 ‘토픽’들을 해석하여, 웹3 에듀테크 분야의 핵심 연구 주제들을 정의한다. (예: ‘토픽 1: 탈중앙화 학습 증명’, ‘토픽 2: NFT 기반 교육 보상’)
- 연도별로 각 토픽의 비중 변화를 분석하여 연구 트렌드를 파악한다.
- Track 2: 구조 분석 (Structural Analysis) – 네트워크 분석
- 수집된 논문의 저자 정보와 소속 기관 정보를 추출한다.
- 공동 저자 네트워크 분석: 저자를 노드(Node)로, 논문을 함께 쓴 공동 저술 관계를 엣지(Edge)로 하는 네트워크를 구축한다. 이 네트워크에서 중심성(Centrality)이 높은 핵심 연구자를 식별한다.
- 기관 간 협력 네트워크 분석: 연구 기관을 노드로, 기관 간 공동 연구 관계를 엣지로 하는 네트워크를 구축하여, 연구 협력의 허브 역할을 하는 주요 기관들을 파악한다.
이 두 가지 분석 결과를 종합하여, 웹3 에듀테크 분야의 지식 구조와 생태계를 입체적으로 조망한다.
데이터 설명
Scopus, Web of Science 등 공신력 있는 학술 데이터베이스에서 특정 키워드로 검색된 학술 문헌(논문, 학술발표 자료)의 메타데이터를 활용했으며, 이는 연구 결과물에 대한 오프체인(Off-chain) 데이터이다.
- 출처: Scopus와 같은 세계적인 학술 논문 데이터베이스에서 데이터를 수집했다. 이는 연구자들이 생성한 출판물에 대한 정보이므로, 오프체인(Off-chain) 데이터에 해당한다.
- 수집 방법: ‘web3’, ‘edutech’, ‘blockchain’, ‘education’, ‘NFT’ 등 사전에 정의된 검색 키워드를 조합하여 관련 논문을 검색하고, 그 결과를 파일 형태로 다운로드(Export)하여 분석용 데이터를 구축했다.
- 데이터 변수 설명: 본 연구의 데이터는 학술 문헌의 서지정보(Bibliographic Data)로, 분석 목적에 따라 다음과 같이 활용된다.
- 토픽 모델링용 텍스트 데이터:
논문 제목 (Title)
초록 (Abstract)
저자 지정 키워드 (Author Keywords)
- 네트워크 분석용 관계 데이터:
- 노드(Nodes):
저자명 (Authors)
저자 소속 기관 (Affiliations)
발행 국가 (Country)
- 엣지(Edges):
공동 저술 관계
: 한 논문에 둘 이상의 저자가 함께 이름을 올린 관계.인용 관계
: 특정 논문이 다른 논문을 인용하거나, 다른 논문으로부터 피인용된 관계.
- 노드(Nodes):
- 토픽 모델링용 텍스트 데이터:
데이터 분석
토픽 모델링(LDA)을 통해 ‘탈중앙화 신원증명(DID) 기반 학습 이력 관리’, ‘NFT를 활용한 학습 보상’ 등 주요 연구 주제 그룹을 발견했으며, 네트워크 분석으로 연구자 및 기관 간의 협력 중심축을 시각적으로 파악했다.
본 연구의 데이터 분석은 텍스트 데이터와 관계 데이터를 대상으로 각각 다른 기법을 적용하여 진행되었다.
토픽 모델링 분석에서는 수집된 논문 초록 텍스트에 대해 LDA 알고리즘을 적용했다. LDA는 각 문서(초록)가 여러 개의 ‘주제(토픽)’의 확률적 혼합으로 이루어져 있다고 가정하고, 분석을 통해 각 주제를 대표하는 핵심 단어들의 묶음과, 각 문서가 어떤 주제들을 어떤 비율로 포함하는지를 계산해준다. 연구진은 이렇게 도출된 토픽별 핵심 단어들을 보고, “이 토픽은 학습 증명서(Credential)와 탈중앙 신원증명(DID)에 관한 것이구나” 와 같이 각 토픽에 의미를 부여했다.
네트워크 분석에서는 공동 저자 관계 데이터를 사용하여 네트워크 그래프를 시각화했다. 이 그래프에서 각 점은 연구자를, 점들을 잇는 선은 공동 연구를 의미한다. 연구진은 이 네트워크에서 연결선이 많이 집중된, 즉 다른 연구자들과의 협력이 많은 ‘허브(Hub)’ 연구자를 식별하기 위해 **연결 중심성(Degree Centrality)**과 같은 지표를 계산했다. 또한, 서로 다른 연구자 그룹을 연결하는 ‘가교(Bridge)’ 역할을 하는 연구자를 식별하기 위해 **매개 중심성(Betweenness Centrality)**을 분석했다.
핵심 결과
웹3 에듀테크 연구는 초기 기술 탐색 단계를 지나 ‘학습자 주권’, ‘탈중앙화된 교육 시스템’ 등 보다 구체적인 응용 사례 중심으로 발전하고 있으며, 소수의 핵심 연구 기관을 중심으로 한 협력 네트워크가 형성되어 있음을 확인했다.
데이터 분석을 통해 도출된 핵심 결과는 다음과 같다.
- 연구 주제의 발견 및 트렌드 변화: 토픽 모델링 결과, 웹3 에듀테크 분야는 ‘블록체인 기반 학습 이력 관리 및 증명’, ‘NFT와 메타버스를 활용한 교육 콘텐츠 및 보상’, ‘학습자 주권 및 데이터 소유권’ 등 몇 개의 핵심 주제군으로 구성되어 있음을 발견했다. 또한, 시간의 흐름에 따라 초기에는 블록체인 기술 자체에 대한 탐색적 연구가 많았다면, 최근으로 올수록 구체적인 교육 문제 해결을 위한 응용 연구의 비중이 높아지는 트렌드를 확인했다.
- 핵심 플레이어 및 협력 구조 식별: 네트워크 분석 결과, 전 세계적으로 웹3 에듀테크 연구를 주도하는 소수의 대학과 연구소가 존재하며, 이들이 연구 협력 네트워크의 ‘허브’ 역할을 하고 있음을 시각적으로 확인했다. 또한, 국가 간 협력보다는 동일 국가 내 기관 간의 협력이 더 활발하게 이루어지는 경향도 나타났다.
이러한 결과는 웹3 에듀테크라는 신흥 분야의 현재 지식 구조와 생태계를 거시적인 관점에서 조망하는 ‘지도’를 제공한다.
시사점
과학계량학적 분석(토픽 모델링, 네트워크 분석)은 특정 기술 또는 산업 분야의 거시적인 트렌드와 생태계 구조를 객관적으로 조망할 수 있는 강력한 ‘시장 분석’ 도구이다.
이 연구는 특정 연구 분야를 넘어, 다양한 산업의 실무자들에게 중요한 시사점을 제공한다.
첫째, 경쟁 환경 분석의 새로운 접근법이다. 기업의 전략 기획팀이나 R&D 부서는 토픽 모델링과 네트워크 분석을 활용하여 경쟁사들의 기술 특허나 연구 논문을 분석할 수 있다. 이를 통해 “경쟁사 A는 최근 어떤 기술 분야의 연구에 집중하고 있는가?” 혹은 “어떤 대학이나 스타트업이 우리가 주목해야 할 핵심 기술 허브인가?”와 같은 질문에 대한 데이터 기반의 답을 얻고, 경쟁 정보 분석의 수준을 한 단계 높일 수 있다.
둘째, R&D 전략 수립의 나침반이다. 토픽 트렌드 분석을 통해 현재 시장에서 뜨고 있는 기술 주제와 앞으로 중요해질 기술 주제를 예측할 수 있다. 이는 기업이 한정된 R&D 자원을 어디에 집중해야 할지 결정하는 데 중요한 근거를 제공하며, 기술 변화의 흐름에서 뒤처지지 않고 시장을 선도하는 데 도움을 준다.
인사이트
생태계를 알려면, 생태계의 ‘지도’를 그려라.
이 논문은 분석의 단위를 ‘개별 고객’에서 ‘시장 생태계 전체’로 확장하는 새로운 관점을 제시한다. 나무 하나하나(개별 고객)를 보는 것도 중요하지만, 때로는 숲 전체(생태계)의 구조와 지형을 조망하는 지도를 그려야만 어디에 길을 내고 어디에 나무를 심어야 할지 알 수 있다. 토픽 모델링과 네트워크 분석은 바로 이 ‘생태계의 지도’를 그리는 강력한 도구이다.
- 페르소나 예시: “Web3 생태계 분석가, 맵퍼 마리아(Mapper Maria)”
- 특징: 마리아는 특정 블록체인 재단(예: 이더리움 재단, 솔라나 재단)의 전략팀 소속이다. 그녀의 임무는 자사 블록체인 생태계의 건강 상태를 진단하고, 어떤 dApp 영역이 활발하며 어떤 영역이 아직 미개척 상태인지를 파악하여, 전략적인 지원(Grant) 프로그램을 기획하는 것이다. 그녀는 개별 사용자의 행동뿐만 아니라, 프로토콜(dApp)들 간의 관계와 자금 흐름, 그리고 개발자들의 활동 네트워크를 거시적으로 분석해야 한다.
- 데이터 기반 행동: Dune Analytics, Nansen 등 온체인 분석 플랫폼을 통해 생태계 전체의 KPI를 모니터링. 개발자 커뮤니티 동향과 경쟁 블록체인의 생태계 발전 현황을 분석.
- 실질적인 마케팅 액션 제안 (생태계 활성화 관점):
- dApp 생태계 토픽 모델링: 이 논문의 방법론을 적용하여, 특정 블록체인 생태계 위의 모든 dApp들을 설명하는 텍스트(공식 문서, 백서, 블로그 글)나, 이들과 상호작용한 사용자들의 지갑 주소(행동 패턴)를 기반으로 **’dApp 토픽 모델링’**을 수행한다. 이를 통해 생태계 내에 ‘고수익 DeFi’, ‘PFP NFT’, ‘RWA(실물자산)’, ‘SocialFi’ 등과 같은 주요 ‘dApp 클러스터(주제)’가 어떻게 형성되어 있는지 파악한다.
- 온체인 소셜 네트워크 분석: dApp들을 노드(Node)로, dApp 간에 공유되는 사용자(자금 이동)를 엣지(Edge)로 하는 **’dApp 상호작용 네트워크’**를 구축한다. 네트워크 분석을 통해, 어떤 dApp이 생태계의 ‘허브(Hub)’ 역할을 하는지(가장 많은 다른 dApp과 사용자를 공유함), 어떤 dApp이 서로 다른 클러스터를 연결하는 ‘브릿지(Bridge)’ 역할을 하는지 식별한다.
- 데이터 기반 생태계 펀딩(Grant) 전략: 분석 결과를 바탕으로, 생태계에서 아직 미개척된 영역(네트워크에서 고립된 노드)의 유망한 신규 프로젝트나, 서로 다른 dApp 클러스터를 연결하는 중요한 ‘브릿지’ 역할을 하는 인프라 프로젝트에 개발자 보조금(Grant)을 전략적으로 지원하여 생태계의 균형 잡힌 성장을 유도한다.