비트코인 관련 뉴스 기사 텍스트를 텍스트 마이닝 기법(토픽 모델링, 연관분석)으로 분석하여, 가격 급등락 시기별로 미디어의 보도 경향과 핵심 주제가 어떻게 변화했는지 객관적으로 추적한다.
논문 요약
- 논문 제목: 텍스트마이닝을 활용한 비트코인 관련 뉴스 경향 분석
- 저자: 송은비
- 게재 학술지: 이화여자대학교 대학원 (석사학위논문)
- 발행 연도: 2018
- 핵심 요약: 2017년 비트코인 가격 급등기 전후로, 관련 뉴스 기사 데이터에 나타난 사회적 인식의 변화를 텍스트 마이닝 기술을 통해 분석했다. 키워드 빈도 분석, 토픽 모델링, 동시출현 단어 네트워크 분석 등을 활용하여, 시장 상황에 따라 미디어가 비트코인을 조명하는 방식과 주요 담론(예: ‘투자’에서 ‘규제’로)이 어떻게 변화하는지를 정량적으로 규명했다.
연구 배경
“비트코인은 혁신인가, 투기인가?” 미디어는 이 질문에 어떻게 답해왔을까? 이 연구는 기자의 주관적인 목소리가 아닌, 수천 개의 뉴스 기사라는 ‘데이터’의 목소리를 직접 듣고, 비트코인을 둘러싼 사회적 담론의 거대한 흐름을 읽어내고자 한다.
뉴스 미디어는 특정 사안에 대한 대중의 인식과 여론을 형성하는 데 막강한 영향력을 행사한다. 특히 비트코인과 같은 새롭고 변동성이 큰 자산의 경우, 미디어가 어떤 프레임(Frame)으로 보도하는지에 따라 투자자들의 심리가 크게 좌우되며, 이는 곧 시장 가격의 급등락으로 이어지곤 한다. ‘포모(FOMO, Fear Of Missing Out)’나 ‘퍼드(FUD, Fear, Uncertainty, and Doubt)’와 같은 용어들은 이러한 현상을 단적으로 보여준다.
과거에는 이러한 미디어의 보도 경향을 파악하기 위해, 소수의 기사를 사람이 직접 읽고 질적으로 분석하는 방식에 의존했다. 하지만 이는 분석가의 주관이 개입될 여지가 크고, 수천, 수만 건의 기사에 나타난 전체적인 흐름을 파악하기는 불가능했다.
이러한 한계를 극복하기 위해, 본 연구는 **텍스트 마이닝(Text Mining)**이라는 데이터 과학 기술을 도입한다. 텍스트 마이닝은 비정형(Unstructured) 텍스트 데이터 속에서 유의미한 정보와 패턴을 자동으로 추출하고 분석하는 기술이다. 본 연구에서는 다음과 같은 구체적인 텍스트 마이닝 기법들을 활용한다.
- 빈도 분석 (Frequency Analysis): 어떤 단어가 얼마나 자주 등장했는지 분석하여 핵심 키워드를 파악한다 (TF-IDF 등).
- 토픽 모델링 (Topic Modeling): 문서 집합에 숨겨진 추상적인 ‘주제’들을 자동으로 발견한다 (LDA 등).
- 동시출현 분석 (Co-occurrence Analysis): 어떤 단어들이 함께 자주 등장하는지를 분석하여, 단어들 간의 의미적 연결 관계를 파악한다.
해결하려는 문제
비트코인에 대한 사회적 담론이 어떻게 형성되고 변화하는지를, 주관적인 인상이 아닌 실제 뉴스 데이터 분석을 통해 객관적으로 파악하고, 가격 변동과 미디어 보도 경향 간의 상호작용을 탐색한다.
2017년 말부터 2018년 초까지 비트코인 가격은 천국과 지옥을 오갔다. 이러한 극적인 가격 변동 기간 동안, 뉴스 미디어는 비트코인을 어떻게 묘사했을까? ‘4차 산업혁명의 총아’라고 했을까, 아니면 ‘위험한 투기 버블’이라고 했을까?
이 연구가 해결하고자 하는 핵심 문제는, 이러한 미디어의 보도 경향과 사회적 담론의 변화를 데이터 기반으로 객관적으로 측정하고 분석하는 것이다. 연구는 다음과 같은 구체적인 질문에 답하고자 한다.
- 비트코인 가격 급등 시기와 급락 시기에, 뉴스 기사에서 가장 중요하게 다루어진 키워드는 무엇이었는가?
- 각 시기별로, 비트코인과 관련된 핵심 ‘주제(토픽)’는 무엇이었으며, 그 주제들의 비중은 어떻게 변화했는가? (예: ‘기술’ 관련 주제 vs ‘규제’ 관련 주제)
- ‘비트코인’이라는 단어는 어떤 다른 단어들(예: ‘투자’, ‘위험’, ‘정부’)과 주로 함께 언급되었는가?
이를 통해, 시장 상황의 변화에 따라 사회적 인식이 어떻게 역동적으로 변하는지를 실증적으로 분석하고, 미디어와 시장 간의 복잡한 관계를 이해하고자 한다.
연구 모형
특정 기간의 비트코인 관련 온라인 뉴스 기사를 수집하여 텍스트 데이터를 정제하고, 빈도분석, 토픽 모델링, 동시출현 단어 네트워크 분석을 순차적으로 적용하여 시기별 뉴스 경향의 변화를 다각적으로 분석한다.
본 연구는 비트코인 관련 뉴스 기사 텍스트를 심층적으로 분석하기 위해, 다음과 같은 체계적인 텍스트 마이닝 파이프라인을 설계했다.
- 데이터 수집 및 전처리:
- 주요 포털 사이트에서 ‘비트코인’ 키워드를 포함하는 뉴스 기사를 기간별(예: 가격 급등기, 급락기)로 수집한다.
- 수집된 텍스트 데이터에서 불필요한 특수문자나 불용어(조사, 접미사 등)를 제거하고, 형태소 분석을 통해 의미 있는 명사, 동사, 형용사 등을 추출하는 텍스트 정제(Text Cleansing) 과정을 거친다.
- 핵심 키워드 분석:
- TF-IDF(Term Frequency-Inverse Document Frequency) 분석을 통해, 각 시기별로 가장 중요하고 핵심적인 키워드가 무엇인지 파악한다.
- 잠재 주제 분석:
- LDA(Latent Dirichlet Allocation) 토픽 모델링을 적용하여, 전체 뉴스 기사들에 내재된 주요 주제(토픽)들을 자동으로 발견한다. (예: ‘정부 규제’ 토픽, ‘기술 및 개발’ 토픽, ‘투자 및 시장’ 토픽)
- 각 시기별로 어떤 토픽이 주로 다루어졌는지 그 비중의 변화를 분석한다.
- 키워드 간 관계 분석:
- **동시출현 단어 네트워크 분석(Co-occurrence Network Analysis)**을 통해, 어떤 키워드들이 같은 기사 내에서 함께 자주 등장했는지를 분석한다.
- 이 관계를 네트워크 그래프로 시각화하여, ‘비트코인’이라는 키워드를 중심으로 어떤 다른 키워드들이 의미적으로 연결되어 있는지를 한눈에 파악한다.
데이터 설명
국내 주요 포털 사이트에서 특정 기간 동안 ‘비트코인’ 키워드를 포함하는 뉴스 기사 본문을 수집했으며, 이는 언론의 보도 내용을 담은 비정형 텍스트 형태의 오프체인(Off-chain) 데이터이다.
- 출처: 논문에 구체적인 포털명은 명시되지 않았으나, 네이버나 다음과 같은 국내 주요 포털 사이트의 뉴스 서비스에서 데이터를 수집한 것으로 보인다. 이는 언론사가 생산한 오프체인(Off-chain) 데이터이며, 대표적인 비정형(Unstructured) 텍스트 데이터이다.
- 수집 방법: 웹 크롤링(Web Crawling) 기술을 사용하여, 특정 기간 동안 ‘비트코인’ 키워드가 포함된 뉴스 기사의 제목과 본문 텍스트를 자동으로 수집했을 것이다.
- 데이터 변수 설명: 본 연구의 원본 데이터는 텍스트 그 자체이며, 분석 과정에서 다음과 같은 구조화된 데이터로 변환된다.
- 원본 데이터:
기사 제목
,기사 본문 텍스트
,게시 날짜
,언론사명
.
- 분석용 데이터 (Bag-of-Words 모델 기반):
- 문서-단어 행렬 (Document-Term Matrix, DTM): 텍스트 마이닝의 가장 기본적인 데이터 구조로, 각 행은 개별 뉴스 기사를, 각 열은 전체 기사에서 등장한 고유한 단어(Term)를 나타낸다. 행렬의 각 셀에는 해당 문서에서 해당 단어가 몇 번 등장했는지 그 빈도가 기록된다. 이 DTM이 빈도 분석, 토픽 모델링 등 후속 분석의 기본 입력값이 된다.
- 원본 데이터:
데이터 분석
TF-IDF 분석으로 핵심 키워드를 추출하고, LDA 토픽 모델링으로 주요 기사 주제들을 분류했으며, 단어 동시출현 네트워크 분석을 통해 ‘비트코인’과 ‘규제’, ‘투자’, ‘정부’ 등 주요 키워드 간의 의미적 연결 구조를 시각화했다.
본 연구의 데이터 분석은 다양한 텍스트 마이닝 기법을 활용하여, 뉴스 데이터에 담긴 다층적인 의미를 입체적으로 분석했다.
- TF-IDF 분석: 단순히 많이 등장한 단어가 아닌, 특정 시기의 뉴스에서만 유독 중요하게 강조된 키워드들을 식별했다. 예를 들어, 가격 급락기에는 ‘피해’, ‘손실’과 같은 단어의 TF-IDF 값이 높게 나타났을 것이다.
- LDA 토픽 모델링: 분석 결과, 뉴스 기사들은 몇 개의 주요 ‘토픽’으로 그룹화될 수 있었다. 예를 들어,
['정부', '규제', '금지', '대책']
과 같은 단어들이 자주 함께 등장하는 ‘정부 규제’ 토픽과,['기술', '블록체인', '미래', '혁신']
과 같은 단어들로 구성된 ‘기술 혁신’ 토픽이 발견되었다. 그리고 각 시기별로 이 토픽들의 비중이 어떻게 변했는지를 추적했다. - 동시출현 네트워크 분석: ‘비트코인’이라는 중심 노드와 다른 키워드 노드들이 어떻게 연결되어 있는지를 시각화했다. 가격 급등기에는 ‘비트코인’이 ‘수익’, ‘투자’, ‘기회’와 같은 긍정적 단어들과 강하게 연결된 반면, 급락기에는 ‘규제’, ‘위험’, ‘하락’과 같은 부정적 단어들과의 연결 강도가 높아지는 모습을 명확하게 확인할 수 있었다.
핵심 결과
분석 결과, 비트코인 가격이 급등한 시기에는 ‘투자’, ‘수익’ 관련 토픽이 주를 이루었으나, 가격 급락 이후에는 ‘규제’, ‘정부’, ‘피해’와 같은 부정적 토픽의 비중이 크게 증가하여, 시장 상황에 따라 미디어의 보도 프레임이 역동적으로 변화함을 확인했다.
텍스트 마이닝을 통한 객관적인 데이터 분석 결과, 미디어가 비트코인을 바라보는 시각이 시장 상황에 따라 극적으로 변화했음이 명확하게 드러났다.
- 가격 급등기 (2017년 하반기): 뉴스들은 주로 비트코인의 **’가격 상승’**과 **’높은 수익률’**에 초점을 맞췄다. ‘투자’, ‘거래소’, ‘수익’, ‘기회’와 같은 키워드들이 핵심적으로 다루어졌으며, 기술적 측면보다는 자산적 측면이 강하게 부각되었다.
- 가격 급락 및 조정기 (2018년 상반기): 시장 분위기가 반전되자, 뉴스의 주요 프레임도 급격히 바뀌었다. **’정부’**와 **’규제’**가 가장 중요한 키워드로 떠올랐으며, ‘거래소 폐쇄’, ‘자금세탁’, ‘피해자’ 등 부정적인 단어들의 출현 빈도가 크게 증가했다. ‘기술’이나 ‘혁신’에 대한 논의는 상대적으로 줄어들었다.
이 결과는 미디어의 보도 경향이 시장의 대중 심리를 반영하는 동시에, 역으로 그 심리를 더욱 강화하는 역할을 할 수 있음을 시사한다.
시사점
뉴스 기사와 같은 텍스트 데이터는 시장 참여자들의 심리와 사회적 인식을 반영하는 중요한 ‘대안 데이터(Alternative Data)’이며, 텍스트 마이닝을 통해 이를 분석하면 시장의 거시적인 트렌드와 잠재적 리스크를 파악하는 데 유용하다.
이 연구는 투자자, 기업, 정책 입안자들에게 다음과 같은 중요한 시사점을 제공한다.
첫째, 시장 분석의 범위를 넓혀야 한다. 가격, 거래량과 같은 전통적인 금융 데이터뿐만 아니라, 뉴스, 소셜 미디어, 커뮤니티 게시글 등 비정형 텍스트 데이터에 담긴 ‘시장 내러티브’와 ‘대중 심리’를 분석하는 것이 매우 중요하다. 이러한 대안 데이터 분석은 기존 계량 분석만으로는 포착하기 어려운 시장의 질적인 변화를 조기에 감지하게 해준다.
둘째, 미디어 리터러시(Media Literacy)의 중요성이다. 이 연구 결과는 미디어의 보도가 시장 상황에 따라 얼마나 크게 변할 수 있는지를 보여준다. 투자자들은 특정 시점의 뉴스에 일희일비하기보다, 현재 미디어가 어떤 프레임으로 시장을 바라보고 있는지 한발 떨어져서 비판적으로 분석할 수 있는 능력을 갖추는 것이 중요하다.
인사이트
시장의 ‘숫자’ 뒤에 숨은, 세상의 ‘이야기’를 읽어라.
이 논문은 데이터 분석의 진정한 힘이 숫자를 넘어 텍스트, 즉 ‘이야기(Narrative)’를 분석하는 데서 나올 수 있음을 보여준다. 시장을 움직이는 것은 결국 사람들의 마음이며, 그 마음은 숫자가 아닌 이야기의 형태로 표현되고 전파된다. 텍스트 마이닝은 바로 이 세상에 떠도는 수많은 이야기들 속에서 핵심적인 줄거리를 찾아내고, 그 이야기의 분위기 변화를 감지하는 강력한 도구이다.
- 페르소나 예시: “Web3 센티멘트 트레이더, 내러티브 나탈리(Narrative Natalie)”
- 특징: 나탈리는 온체인 데이터만 보지 않는다. 그녀는 트위터, 디스코드, 텔레그램, 그리고 주요 미디어의 서사(Narrative)와 시장 심리(Sentiment) 변화를 분석하여 다음 투자처를 결정한다. 그녀는 특정 토큰에 대한 긍정적 언급량이 급증하거나, ‘AI x Crypto’와 같은 새로운 ‘토픽’이 부상하는 것을 포착하면, 해당 내러티브가 가격에 반영되기 전에 선제적으로 투자한다. 그녀에게 텍스트 데이터는 온체인 데이터만큼이나 중요한 알파(Alpha)의 원천이다.
- 데이터 기반 행동: 주요 크립토 인플루언서들의 트위터를 실시간으로 모니터링, 특정 키워드에 대한 텔레그램/디스코드 언급량 급증 시 관련 토큰을 구매하는 패턴.
- 실질적인 마케팅 액션 제안 (Web3 프로젝트 관점):
- 실시간 내러티브 트래킹 시스템 구축: 이 논문의 방법론을 활용하여, 트위터, 디스코드, 텔레그램, 뉴스 등 다양한 채널에서 자사 프로젝트와 경쟁 프로젝트에 대한 텍스트 데이터를 실시간으로 수집하고 분석하는 대시보드를 구축한다. 토픽 모델링을 통해 현재 시장의 주요 관심사가 무엇인지(예: ‘RWA’, ‘DePIN’, ‘AI’), 우리 프로젝트에 대한 긍정/부정 여론은 어떤지 등을 객관적인 데이터로 파악한다.
- 데이터 기반 PR 및 커뮤니케이션 전략: 내러티브 트래킹 결과, 시장에서 ‘보안’에 대한 우려가 새로운 토픽으로 부상하고 있다면, 다음 PR 및 마케팅 메시지의 초점을 ‘높은 수익률’에서 **’강화된 보안 시스템과 최근 완료된 제3자 보안 감사 결과’**로 전환하여, 시장의 관심사와 우려에 선제적으로 대응한다.
- 커뮤니티 ‘핫 토픽’ 기반의 AMA/이벤트 기획: 자사 디스코드나 텔레그램 내에서 가장 뜨거운 토픽(예: ‘토크노믹스 개편’, ‘다음 파트너십에 대한 궁금증’)을 데이터로 파악하고, 해당 주제로 C-레벨이 직접 참여하는 AMA(Ask Me Anything)나 이벤트를 개최하여, 커뮤니티가 가장 원하는 정보를 제공하고 참여를 극대화한다.