NFT의 속성, 희소성, 거래 이력 등 다양한 데이터를 활용하여, LightGBM과 같은 머신러닝 회귀 모델이 NFT의 적정 가격을 높은 정확도로 예측할 수 있음을 증명한다.
논문 요약
- 논문 제목: NFT Appraisal Using Machine Learning
- 저자: Ahmed Dawod Mohammed Dawod 외 5인
- 게재 학술지: Proceedings of the 2023 6th Asia Pacific Information Technology Conference (APIT)
- 발행 연도: 2023
- 핵심 요약: NFT의 가치를 객관적으로 평가하기 위해, OpenSea에서 수집한 4개의 유명 PFP 컬렉션 데이터를 기반으로 머신러닝 기반 가격 예측 모델을 개발했다. NFT의 고유 속성(Traits), 희소성 점수, 시장 이벤트 등을 특징 변수로 사용하여 11개의 다른 머신러닝 회귀 알고리즘의 성능을 비교했으며, 그 결과 LightGBM 모델이 가장 높은 예측 정확도(R² ≈ 0.917)를 보이며 NFT 가치 평가의 가능성을 입증했다.
연구 배경
“이 디지털 그림이 왜 수십억 원의 가치를 가질까?” NFT 시장의 폭발적인 성장 이면에는 항상 ‘가치 평가의 불확실성’이라는 문제가 존재했다. 이 연구는 주관과 투기의 영역이었던 NFT 가격 책정에 머신러닝이라는 객관적인 잣대를 들이대는 시도이다.
NFT(대체 불가능 토큰) 시장은 2021년 이후 폭발적으로 성장했지만, 그 가격 결정 메커니즘은 매우 불투명하고 비합리적인 경우가 많았다. 특정 NFT의 가격이 하룻밤 사이에 수십 배씩 폭등하는가 하면, 아무런 이유 없이 폭락하기도 했다. 이러한 극심한 변동성과 정보 비대칭성은 시장의 건전한 성장을 저해하고, 신규 투자자들의 진입을 망설이게 하는 가장 큰 요인이었다.
주식이나 채권, 부동산과 같은 전통 자산은 수익, 자산 가치, 비교 가능한 매매 사례 등 비교적 명확한 가치 평가(Valuation) 모델이 존재한다. 하지만 세상에 단 하나뿐인 고유한 디지털 자산인 NFT는 그 가치를 평가할 객관적인 기준이 부족했다. 가격은 종종 소셜 미디어의 유행(Hype), 커뮤니티의 기대 심리, 그리고 소수 ‘고래’ 투자자들의 움직임에 따라 결정되었다.
이러한 문제를 해결하기 위해, 본 연구는 머신러닝 기반의 가치 평가(Machine Learning-based Appraisal) 방법론을 제안한다. 이는 마치 Zillow가 주택의 특성(방 개수, 면적, 위치)을 기반으로 ‘제스티메이트(Zestimate)’라는 예상 시세를 제공하는 것처럼, NFT가 가진 다양한 속성(Traits)과 희소성(Rarity), 그리고 과거 거래 이력을 데이터로 학습하여, 해당 NFT의 현재 ‘적정 시장 가격’을 예측하는 모델을 구축하는 것이다. 본 연구에서는 다양한 머신러닝 회귀 알고리즘들의 성능을 비교하여, 이 문제에 가장 적합한 모델이 무엇인지 탐색한다.
해결하려는 문제
주관적인 판단과 투기적 심리에 크게 좌우되는 불투명한 NFT 시장에, 데이터 기반의 객관적인 가치 평가 모델을 도입하여 가격 예측의 정확성과 시장의 투명성을 높인다.
NFT 투자자는 항상 다음과 같은 어려운 질문에 직면한다.
- “내가 사려는 이 NFT의 가격은 과연 합리적인가?”
- “수많은 NFT 중에서 어떤 것이 저평가되어 있고, 어떤 것에 거품이 끼어 있는가?”
- “내 NFT를 팔고 싶은데, 얼마에 내놓아야 가장 잘 팔릴까?”
기존에는 이러한 질문에 답하기 위해 rarity.tools와 같은 희소성 점수 사이트를 참고하거나, 커뮤니티의 여론에 의존해야 했다. 하지만 희소성이 높다고 해서 항상 비싼 것도 아니며, 커뮤니티의 여론은 쉽게 과열되거나 냉각된다.
이 연구가 해결하고자 하는 핵심 문제는 바로 이러한 **’NFT 가치 평가의 불확실성’**이다. NFT의 가격에 영향을 미치는 수많은 요인들(수십 개의 속성, 희소성, 시장 상황 등)을 종합적으로 고려하는 머신러닝 모델을 구축하여, 특정 NFT의 객관적인 시장 가치를 예측하는 것을 목표로 한다. 이는 투자자와 창작자 모두에게 합리적인 의사결정의 근거를 제공하고, NFT 시장 전체의 투명성과 효율성을 높이는 데 기여할 수 있다.
연구 모형
OpenSea에서 수집한 NFT의 속성 데이터와 거래 이력 데이터를 결합하여 특징 벡터를 생성하고, 이를 다양한 머신러닝 회귀 모델에 학습시켜 가격 예측 성능을 비교, 최적의 NFT 평가 모델을 도출한다.
본 연구는 NFT 가격을 예측하기 위해, 다음과 같은 표준적인 지도학습 기반의 회귀(Regression) 모델링 절차를 따랐다.
- 데이터 수집: 대표적인 NFT 마켓플레이스인 OpenSea의 API를 활용하여, 특정 NFT 컬렉션(예: BAYC)에 속한 모든 아이템의 데이터와 거래 이력을 수집한다.
- 특징 공학 (Feature Engineering): 수집된 원본 데이터로부터 NFT의 가격을 예측하는 데 사용될 유의미한 변수, 즉 **특징(Feature)**을 생성한다.
NFT 고유 속성
: 배경, 의상, 눈, 입 등 각 NFT가 가진 고유한 시각적 속성들.희소성 지표
: 각 속성의 희귀도, 전체 속성의 개수, 외부 사이트(rarity.tools)의 희소성 점수 등.시장 데이터
: 과거 평균 거래 가격, 최근 거래량, 소유자 변경 횟수, 시장 이벤트(에어드랍 등) 정보.
- 모델 학습 및 비교: 생성된 특징 벡터를 입력(X)으로, NFT의 마지막 거래 가격을 정답(Y)으로 하여, 11개의 서로 다른 머신러닝 회귀 알고리즘을 학습시킨다.
- 선형 모델: Linear Regression, Lasso, Ridge
- 비선형 모델: SVM, Random Forest, XGBoost, LightGBM, CatBoost
- 딥러닝 모델: TabNet
- 성능 평가 및 최적 모델 선정: 학습된 각 모델의 예측 가격과 실제 가격 간의 오차를 **RMSE(Root Mean Squared Error)**로, 모델의 설명력을 **R²(결정계수)**로 측정하여, 가장 뛰어난 성능을 보이는 최적의 NFT 평가 모델을 선정한다.
데이터 설명
대표적인 NFT 마켓플레이스인 OpenSea API를 통해 수집한 4개의 유명 PFP NFT 컬렉션(BAYC, MAYC 등) 데이터를 활용했으며, 이는 온체인 거래 기록과 오프체인 메타데이터가 결합된 데이터이다.
- 출처: 본 연구는 OpenSea API를 통해 수집된 데이터를 기반으로 한다. 이는 NFT의 거래 기록과 같은 온체인(On-chain) 데이터와, NFT의 이미지 속성 및 설명과 같은 오프체인(Off-chain) 메타데이터가 결합된 형태이다.
- 수집 방법: OpenSea API를 주기적으로 호출하여, 4개의 블루칩 PFP 컬렉션(BAYC, MAYC, Azuki, Doodles)에 속한 약 5만 개의 NFT 아이템 정보와 관련 거래 이력을 수집했다.
- 데이터 변수 설명: NFT 가격 예측 모델을 구축하기 위해 다음과 같이 다각적인 변수 그룹을 설계했다.
- 종속 변수 (Target Variable):
Price
: 해당 NFT의 마지막 거래 가격 (ETH 기준).
- 독립 변수 (Input Features):
NFT 고유 속성 (Visual/Trait Features)
:배경
,눈
,입
,털 색깔
등 각 NFT가 가진 수십 개의 시각적 특성(Trait)들을 범주형 변수로 변환 (원-핫 인코딩 등).
희소성 지표 (Rarity Features)
:Trait Count
: 해당 NFT가 가진 전체 속성의 개수.Rarity Score
: rarity.tools와 같은 외부 전문 사이트에서 제공하는 객관적인 희소성 점수.
거래 이력 데이터 (Market Features)
:과거 평균 거래가
,최근 거래량
,소유자 변경 횟수(전송 횟수)
.
시장 이벤트 데이터 (Event Features)
:- 특정 기간에 해당 컬렉션과 관련된
에어드랍
이벤트가 있었는지,유명인(Celebrity)이 구매
하는 이벤트가 있었는지 등을 나타내는 이진 변수(0 또는 1).
- 특정 기간에 해당 컬렉션과 관련된
- 종속 변수 (Target Variable):
데이터 분석
11개의 서로 다른 머신러닝 회귀 알고리즘을 학습시키고 예측 성능을 비교한 결과, 트리 기반 앙상블 모델인 LightGBM이 가장 낮은 예측 오차(RMSE)와 가장 높은 설명력(R²)을 기록하며 최적의 모델로 선정되었다.
본 연구의 데이터 분석은 NFT 가격 예측이라는 동일한 문제에 대해, 어떤 머신러닝 알고리즘이 ‘챔피언’인지를 가리는 **성능 비교 경쟁(Bake-off)**의 형태로 진행되었다.
연구진은 준비된 특징 데이터셋을 사용하여, 단순한 선형 회귀분석부터 복잡한 딥러닝 모델(TabNet)에 이르기까지 총 11개의 모델을 학습시키고, 각각의 예측 성능을 RMSE와 R² 지표로 엄격하게 평가했다.
분석 결과, LightGBM, XGBoost, CatBoost와 같이, 여러 개의 결정 트리를 결합하여 예측 성능을 높이는 그래디언트 부스팅 계열의 앙상블 모델들이 다른 모든 모델들을 압도하는 성능을 보였다. 특히, LightGBM은 가장 낮은 예측 오차(RMSE ≈ 0.905)와 가장 높은 설명력(R² ≈ 0.917)을 기록하며, NFT 가격 예측에 가장 적합한 모델임이 밝혀졌다. 이는 LightGBM이 고차원의 범주형 변수(NFT 속성)를 효율적으로 처리하고, 변수 간의 복잡한 상호작용을 잘 학습하기 때문으로 분석된다.
핵심 결과
NFT의 가격은 무작위가 아니며, 아이템의 속성(Traits), 희소성(Rarity), 그리고 시장의 이벤트와 같은 측정 가능한 데이터에 의해 90% 이상 설명될 수 있으며, LightGBM과 같은 머신러닝 모델을 통해 이를 매우 정확하게 예측할 수 있다.
이 연구의 가장 중요하고 놀라운 결과는, NFT의 가격이 결코 ‘근거 없는 거품’이 아니라는 것을 데이터로 증명했다는 점이다. 모델의 결정계수(R²) 값이 0.917이라는 것은, 이 연구에서 사용한 특징 변수들(속성, 희소성, 거래 이력 등)이 NFT 가격 변동의 약 91.7%를 설명할 수 있음을 의미한다.
이는 NFT 가격이 소수의 주관적인 판단이나 투기적 심리에 의해서만 움직이는 것이 아니라, 객관적으로 측정 가능한 데이터에 의해 상당 부분 예측 가능하다는 것을 의미한다. 즉, “NFT를 위한 Zestimate(부동산 시세 예측 서비스)”는 충분히 실현 가능하다는 것이다.
이 결과는 NFT 시장이 점차 성숙해지면서, 데이터에 기반한 합리적인 가치 평가가 가능한 투자 자산의 영역으로 진입하고 있음을 시사하는 중요한 발견이다.
시사점
데이터 기반의 NFT 가치 평가 모델은 투자자에게는 합리적인 의사결정의 근거를, 창작자에게는 적절한 가격 책정의 기준을 제공하며, 이는 시장의 투명성을 높이고 변동성을 줄여 NFT 시장 전체의 건전한 성장에 기여할 수 있다.
이 연구는 NFT 생태계의 다양한 참여자들에게 매우 구체적이고 실용적인 시사점을 제공한다.
- 투자자: NFT를 구매하기 전에, 해당 NFT의 가격이 머신러닝 모델이 예측한 ‘적정 가치’에 비해 고평가되었는지, 저평가되었는지 참고하여 투자 리스크를 관리할 수 있다.
- 창작자 및 프로젝트팀: 새로운 NFT 컬렉션을 발행할 때, 어떤 속성 조합이 시장에서 높은 가치를 인정받는지 분석하여, 더 매력적인 NFT를 기획하고 초기 판매 가격을 합리적으로 책정할 수 있다.
- 마켓플레이스: NFT 리스팅 페이지에 AI 기반의 ‘추정 시세’를 함께 제공함으로써, 사용자의 거래 편의성과 플랫폼의 신뢰도를 높일 수 있다.
- DeFi 프로토콜: 정확한 NFT 가격 피드(Price Feed)는 NFT를 담보로 한 대출(NFT-Fi), NFT 지수 펀드, 파생상품 등 더 복잡하고 정교한 금융 상품을 만드는 데 필수적인 인프라 역할을 한다.
인사이트
모든 자산은 그 가치를 데이터에 남긴다.
이 논문은 데이터 분석의 힘을 명확하게 보여준다. 세상에 존재하는 모든 자산은, 그것이 실물이든 디지털이든, 그 가치를 설명하는 데이터를 남긴다. 우리의 임무는 그 데이터를 수집하고, 그 속에서 가치를 결정하는 핵심 패턴을 학습하는 모델을 만들어, 세상의 불확실성을 줄이고 더 나은 의사결정을 돕는 것이다.
- 페르소나 예시: “NFT 가치 투자자, 밸류에이션 발레리(Valuation Valerie)”
- 특징: 발레리는 소셜미디어의 하이프(Hype)나 커뮤니티 분위기에 휩쓸려 NFT를 구매하지 않는다. 그녀는 투자하려는 NFT 컬렉션의 모든 속성(Trait) 데이터와 과거 거래 데이터를 분석하여, 현재 마켓플레이스 바닥가(Floor Price)가 자신이 개발한 머신러닝 평가 모델이 예측한 내재 가치보다 현저히 낮은 NFT만을 선별하여 구매한다. 그녀는 감정이 아닌, 데이터와 모델에 기반하여 저평가된 자산을 발굴하는 ‘퀀트(Quant)’ 투자자이다.
- 데이터 기반 행동: OpenSea API나 커스텀 노드를 통해 대량의 NFT 데이터를 수집, Python 라이브러리(Pandas, Scikit-learn)를 활용한 데이터 분석 및 모델링 수행.
- 실질적인 마케팅 액션 제안 (NFT 마켓플레이스 또는 분석 플랫폼 관점):
- ‘AI 적정가’ 표시 기능 제공: 이 논문의 모델을 기반으로, 마켓플레이스에 등록된 모든 NFT에 대해 **’AI 추천가’ 또는 ‘예상 시장가’**를 계산하여 가격과 함께 표시해준다. 이는 마치 부동산 사이트의 ‘시세’ 정보처럼, 구매자와 판매자 모두에게 유용한 참고 지표가 되어 거래를 촉진하고 플랫폼의 신뢰도를 높인다.
- 저평가/고평가 자산 알림 서비스: 사용자가 관심 있는 컬렉션을 등록하면, 해당 컬렉션 내에서 **AI 모델이 예측한 가치보다 현저히 낮은 가격에 리스팅된 ‘저평가 매물’**이 나타났을 때, 혹은 **가치보다 훨씬 높은 가격에 거래되는 ‘과열 징후’**가 보일 때, 사용자에게 실시간으로 알림을 보내주는 구독형 분석 서비스를 제공한다.
- NFT 포트폴리오 리스크 관리 툴: 사용자가 보유한 NFT 포트폴리오에 대해, 각 NFT의 현재 시장가와 AI 기반 평가 가치를 비교 분석하여, 전체 포트폴리오의 ‘거품’ 수준이나 리스크를 정량적으로 측정해주고, “이 NFT는 고평가 상태이니, 수익 실현을 고려해보세요”와 같은 자산 리밸런싱 전략을 제안하는 개인화된 자산 관리 툴을 제공한다.