<aside>
<aside> 💡
NAVER Connect Foundation Boostcamp AI Tech에서 진행한 TVING 기업 해커톤 MovieLens-20M 데이터셋으로 SASRec 기반 추천시스템을 개발 후 모델에서 발생한 Cold-Start 문제 정의, 개선 전략 고안 및 실험 결과를 담은 프로젝트
</aside>
<aside> ⚙
<aside>
User-Item interaction 존재하는 추천 데이터
User 수 10만, Item 수 1만 이상
저작권 관련 Public한 데이터
Side Information이 있거나, 없더라도 크롤링해서 구할 수 있어야 함
Sparsity가 지나치게 높거나 데이터의 크기가 너무 큰 데이터 셋은 제외 </aside>
조건을 만족하는 데이터셋 중 MovieLens-20M 선정 ✅
| 파일 명 | 행 수 | 주요 내용 |
|---|---|---|
| ratings.csv | 20,000,263 | 사용자 시청 이력 (userId, movieId, rating, timestamp) |
| movies.csv | 27,278 | 영화 정보 (movieId, title, genres) |
| tags.csv | 465,548 | 영화에 대한 태그 정보 (userId, movieId, tag, timestamp) |
| links.csv | 5,905 | 영화 id와 매칭되는 tmdb, imdb의 id(movieId, imdbId, tmdbId) |
| genome-score.csv | 11,307 | 영화-태그 관련성 데이터 (movieId, tagId, relevance) |
| genome-tags.csv | 15,934 | genome tag id에 대한 tag 내용(tagId, tag) |