TVING : Cold-Start problem on your Recsys

<aside>

목차

프로젝트 소개
Dataset
Model
Train/Valid/Test Split & Metrics
Preprocessing
Cold-Start 문제 정의
Cold-Start 개선 전략
결론
Appendix
회고 </aside>

1. 프로젝트 소개

<aside> 💡

프로젝트 기간 : 2025/01/10 ~ 2025/02/07
프로젝트 주제 : SASRec에서 발생하는 Cold-Start 문제 정의 및 개선
데이터셋 : MovieLens-20M
프로젝트 GitHub Link
프로젝트 개요

NAVER Connect Foundation Boostcamp AI Tech에서 진행한 TVING 기업 해커톤 MovieLens-20M 데이터셋으로 SASRec 기반 추천시스템을 개발 후 모델에서 발생한 Cold-Start 문제 정의, 개선 전략 고안 및 실험 결과를 담은 프로젝트

</aside>

프로젝트 진행 과정

<aside> ⚙

프로젝트 주제에 맞는 Public Dataset 선정
Dataset에 맞는 Baseline Model 탐색
프로젝트 기본 구조 수립 및 코드 작성
파트 별 역할 분담 진행
Cold-Start 실험 설계 및 문제 정의
Cold-Start 문제 개선 시도
결과 정리 및 문서화 </aside>

2. Dataset

2-1. 데이터셋 선정 조건

<aside>

User-Item interaction 존재하는 추천 데이터
User 수 10만, Item 수 1만 이상
저작권 관련 Public한 데이터
Side Information이 있거나, 없더라도 크롤링해서 구할 수 있어야 함
Sparsity가 지나치게 높거나 데이터의 크기가 너무 큰 데이터 셋은 제외 </aside>
조건을 만족하는 데이터셋 중 MovieLens-20M 선정 ✅
데이터셋 링크 : https://grouplens.org/datasets/movielens/20m/

2-2. 데이터셋 구성

데이터셋 파일 구성

파일 명	행 수	주요 내용
ratings.csv	20,000,263	사용자 시청 이력 (userId, movieId, rating, timestamp)
movies.csv	27,278	영화 정보 (movieId, title, genres)
tags.csv	465,548	영화에 대한 태그 정보 (userId, movieId, tag, timestamp)
links.csv	5,905	영화 id와 매칭되는 tmdb, imdb의 id(movieId, imdbId, tmdbId)
genome-score.csv	11,307	영화-태그 관련성 데이터 (movieId, tagId, relevance)
genome-tags.csv	15,934	genome tag id에 대한 tag 내용(tagId, tag)

2-3. 기본 EDA

ratings.csv

Interaction: 20,000,263개 / User: 138,493명 / Item: 26,744편 / Data Sparsity = 99.46%