Skip to content

lostdesire/Level1-BookRatingPrediction

Repository files navigation

header

일반적으로 책 한 권은 원고지 기준 800~1000매 정도 되는 분량을 가지고 있습니다.

뉴스기사나 짧은 러닝 타임의 동영상처럼 간결하게 콘텐츠를 즐길 수 있는 ‘숏폼 콘텐츠’는 소비자들이 부담 없이 쉽게 선택할 수 있지만,
책 한권을 모두 읽기 위해서는 보다 긴 물리적인 시간이 필요합니다.
또한 소비자 입장에서는 제목, 저자, 표지, 카테고리 등 한정된 정보로 각자가 콘텐츠를 유추하고 구매 유무를 결정해야 하기 때문에
상대적으로 선택에 더욱 신중을 가하게 됩니다.

해당 경진대회는 이러한 소비자들의 책 구매 결정에 대한 도움을 주기 위한 개인화된 상품 추천 대회입니다.

책과 관련된 정보와 소비자의 정보, 그리고 소비자가 실제로 부여한 평점,
총 3가지의 데이터 셋(users.csv, books.csv, train_ratings.csv)을 활용하여
이번 대회에서는 각 사용자가 주어진 책에 대해 얼마나 평점을 부여할지에 대해 예측하게 됩니다.

📚 Stack

⭐ Team

이원희 허 욱 이승준 곽윤석 배건우

@lostdesire

@wooksbaby

@llseungjun

@younne123

@gunwoof
EDA
category 전처리
CatBoost 모델 설계 & 튜닝
EDA
book ISBN 전처리
모델 튜닝
EDA
book language 전처리
CNN_FM 하이퍼파라미터 튜닝
EDA
User data 전처리
모델 일반화 작업
EDA
LightGbm 모델 설계 & 튜닝

📌 TOC

🔱 Project

  1. EDA

  • 데이터 수량 및 기초 통계량 검토
  • 결측치 확인
  • 데이터 시각화
  • 상관관계 분석
  • 피쳐 엔지니어링
  1. Preprocessing

  • User data 전처리
  • Book data 전처리
  1. Model

  • CatBoost
  • LightGBM
  • CNN_FM
  1. Hyperparameter Tuning

  • Catboost
  • CNN_FM
  • LightGBM
  1. Ensemble

  • 최종 Ensemble
    • CatBoost_v1 : CatBoost_v2 : CatBoost_v3 : CatBoost_v4 : CNN_FM = 2 : 2 : 2 : 2 : 2

🎓 Project Architecture

Project_Architecture

💾 Environment Requirements

requirements.txt

🎉 Result

score

Pasted image 20231222200217 Pasted image 20231222200241
리더보드 RMSE 순위
public 2.1285 3등
prviate 2.1223 3등

footer

About

BoostCamp RecSys Level1 Competition

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published