diff --git a/Korean/Rossman Store Sales/Model documentation 1st place.ipynb b/Korean/Rossman Store Sales/Model documentation 1st place.ipynb index 4739021..07db7ad 100644 --- a/Korean/Rossman Store Sales/Model documentation 1st place.ipynb +++ b/Korean/Rossman Store Sales/Model documentation 1st place.ipynb @@ -24,7 +24,9 @@ "trees. My feature generation was guided by three main principles: for each train and\n", "test record, the model should have features on 1) recent data 2) temporal information\n", "and 3) current trends. For feature selection and model ensembling, I heavily exploited\n", - "a holdout set consisting of the last six weeks of the sales history.\n" + "a holdout set consisting of the last six weeks of the sales history.\n", + "\n", + "저는 이 competition에서 3년의 판매이력을 이용해, 1000개의 Rossmann store들의 6주간의 판매를 예측하였습니다. 제가 사용한 model은 extreme gradient boosting (XGBoost [1]) 으로 decision tree에 바탕을 두는 일반적인 tool입니다. 저의 Feature generation은 3개의 주요 원칙에 따릅니다 : 각 train과 test record에서 model은 1) 최근 data 2) 일시적인 정보 3) 현재의 트랜드 에 대한 feature를 가져야 합니다. feature selection과 model ensembling을 위해, 마지막 6주간의 판매 이력을 포함하고 있는 holdout set을 중점적으로 이용했습니다." ] }, { @@ -34,7 +36,9 @@ "### Features Selection / Extraction\n", "For feature extraction, I distinguish three types of features, on 1) recent data 2)\n", "temporal information and 3) current trends. I extracted a lot more features then I\n", - "ended up using.\n" + "ended up using.\n", + "\n", + "Feature extraction을 위해, 저는 다음과 같이 3가지 feature type으로 분리했습니다 : 1) 최근 data 2) 시간 정보 3) 현재 trend. 저의 경우 먼저 굉장히 많은 feature들을 extract한 후에 그것들을 사용하였습니다." ] }, { @@ -57,7 +61,9 @@ "10%/ 90% percentiles. I also tried to log transform the sales before summarizing, but\n", "only one of those transformed variables survived the feature selection.\n", "In one variation to the main model, I calculated the recent data features on number of\n", - "customers, instead of sales amount.\n" + "customers, instead of sales amount.\n", + "\n", + "최근 data에 대한 feature들을 만들기 위해, train set에서 각 월별로 가게에 한정되어있는 판매 data를 골랐습니다 (예 : 3년간의 판매 이력). 그리고 난 뒤 각 기록을 위해, 그 기록의 날짜를 가져와서 지난 달, 그리고 훨씬 이전의 data를 그 기록의 최근 기록으로 사용하였습니다. 지난 분기, 지난 반년, 지난 1년, 지난 2년간의 feature를 extract하였습니다. 지난 달의 기록만도 사용해 봤었는데, 6주간의 판매를 예상하는 데에는 유용하지 않은 것 같습니다. " ] }, { @@ -331,7 +337,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.6.6" + "version": "3.6.5" } }, "nbformat": 4,