TVING : Cold-Start problem on your Recsys

<aside>

목차

  1. 프로젝트 소개
  2. Dataset
  3. Model
  4. Train/Valid/Test Split & Metrics
  5. Preprocessing
  6. Cold-Start 문제 정의
  7. Cold-Start 개선 전략
  8. 결론
  9. Appendix
  10. 회고 </aside>

1. 프로젝트 소개

<aside> 💡

NAVER Connect Foundation Boostcamp AI Tech에서 진행한 TVING 기업 해커톤 MovieLens-20M 데이터셋으로 SASRec 기반 추천시스템을 개발 후 모델에서 발생한 Cold-Start 문제 정의, 개선 전략 고안 및 실험 결과를 담은 프로젝트

</aside>


프로젝트 진행 과정

<aside> ⚙

  1. 프로젝트 주제에 맞는 Public Dataset 선정
  2. Dataset에 맞는 Baseline Model 탐색
  3. 프로젝트 기본 구조 수립 및 코드 작성
  4. 파트 별 역할 분담 진행
  5. Cold-Start 실험 설계 및 문제 정의
  6. Cold-Start 문제 개선 시도
  7. 결과 정리 및 문서화 </aside>

2. Dataset

2-1. 데이터셋 선정 조건

<aside>

2-2. 데이터셋 구성

데이터셋 파일 구성

파일 명 행 수 주요 내용
ratings.csv 20,000,263 사용자 시청 이력 (userId, movieId, rating, timestamp)
movies.csv 27,278 영화 정보 (movieId, title, genres)
tags.csv 465,548 영화에 대한 태그 정보 (userId, movieId, tag, timestamp)
links.csv 5,905 영화 id와 매칭되는 tmdb, imdb의 id(movieId, imdbId, tmdbId)
genome-score.csv 11,307 영화-태그 관련성 데이터 (movieId, tagId, relevance)
genome-tags.csv 15,934 genome tag id에 대한 tag 내용(tagId, tag)

2-3. 기본 EDA

ratings.csv