Skip to content

Latest commit

 

History

History
79 lines (61 loc) · 4.89 KB

README.md

File metadata and controls

79 lines (61 loc) · 4.89 KB

header

일반적으로 책 한 권은 원고지 기준 800~1000매 정도 되는 분량을 가지고 있습니다.

뉴스기사나 짧은 러닝 타임의 동영상처럼 간결하게 콘텐츠를 즐길 수 있는 ‘숏폼 콘텐츠’는 소비자들이 부담 없이 쉽게 선택할 수 있지만,
책 한권을 모두 읽기 위해서는 보다 긴 물리적인 시간이 필요합니다.
또한 소비자 입장에서는 제목, 저자, 표지, 카테고리 등 한정된 정보로 각자가 콘텐츠를 유추하고 구매 유무를 결정해야 하기 때문에
상대적으로 선택에 더욱 신중을 가하게 됩니다.

해당 경진대회는 이러한 소비자들의 책 구매 결정에 대한 도움을 주기 위한 개인화된 상품 추천 대회입니다.

책과 관련된 정보와 소비자의 정보, 그리고 소비자가 실제로 부여한 평점,
총 3가지의 데이터 셋(users.csv, books.csv, train_ratings.csv)을 활용하여
이번 대회에서는 각 사용자가 주어진 책에 대해 얼마나 평점을 부여할지에 대해 예측하게 됩니다.

📚 Stack

⭐ Team

이원희 허 욱 이승준 곽윤석 배건우

@lostdesire

@wooksbaby

@llseungjun

@younne123

@gunwoof
EDA
category 전처리
CatBoost 모델 설계 & 튜닝
EDA
book ISBN 전처리
모델 튜닝
EDA
book language 전처리
CNN_FM 하이퍼파라미터 튜닝
EDA
User data 전처리
모델 일반화 작업
EDA
LightGbm 모델 설계 & 튜닝

📌 TOC

🔱 Project

  1. EDA

  • 데이터 수량 및 기초 통계량 검토
  • 결측치 확인
  • 데이터 시각화
  • 상관관계 분석
  • 피쳐 엔지니어링
  1. Preprocessing

  • User data 전처리
  • Book data 전처리
  1. Model

  • CatBoost
  • LightGBM
  • CNN_FM
  1. Hyperparameter Tuning

  • Catboost
  • CNN_FM
  • LightGBM
  1. Ensemble

  • 최종 Ensemble
    • CatBoost_v1 : CatBoost_v2 : CatBoost_v3 : CatBoost_v4 : CNN_FM = 2 : 2 : 2 : 2 : 2

🎓 Project Architecture

Project Architecture

💾 Environment Requirements

requirements.txt

🎉 Result

score

Pasted image 20231222200217 Pasted image 20231222200241
리더보드 RMSE 순위
public 2.1285 3등
prviate 2.1223 3등

footer