Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

XGBoost をためす #4

Open
Inazuma110 opened this issue Apr 22, 2021 · 5 comments
Open

XGBoost をためす #4

Inazuma110 opened this issue Apr 22, 2021 · 5 comments
Assignees
Labels
Observation 学習結果への考察など result 学習の結果

Comments

@Inazuma110
Copy link
Owner

No description provided.

@Inazuma110 Inazuma110 self-assigned this Apr 23, 2021
@Inazuma110
Copy link
Owner Author

とりあえず,#2 #3 #6 #9 をしてoptunaでハイパラチューニングして300回回してます.

探索範囲は

    params = {
        'objective': 'binary:logistic',
        'max_depth': trial.suggest_int('max_depth', 1, 9),
        'n_estimators': trial.suggest_int('n_estimators', 10, 1000),
        'learning_rate': trial.suggest_loguniform('learning_rate', 1e-8, 1.0)
    }

にしていますが,適当な例を引っ張ってきてるだけなので,改善案があったら教えてほしいです.

あと,ローカルで回すと結構時間かかりそうです.
自分は研究室のサーバを使ってみますが,サーバ使える状態じゃない人はGoogle Colab使ったほうがいいかもです……….

@Inazuma110
Copy link
Owner Author

XGBoostのパラメータ決定する際,これを見ると良さそう
https://qiita.com/2357gi/items/913af8b813b069617aad

@Inazuma110
Copy link
Owner Author

Inazuma110 commented Apr 23, 2021

引用コメントのジャンル推定結果のヒストグラムです.
何故か後ろにめっちゃ偏ってますが,F1 scoreは0.58です.なんでだろう:thinking_face:
そういうテストデータと言われたら,そうなのかあとなりますが…
image

今回の予測で,結果に寄与した特徴量TOP15です.画像が透過されて見にくいので,右クリックして画像だけを表示をクリックして見てください:bow:
曲の制作地の寄与率はかなり低く,冷静に考えるとたしかに関係は浅そうな気がします.
国籍とかだったら寄与しそうですけどね…
image

見にくいですが,一応全特徴量の寄与率を可視化したものも載せておきます.
image

学習結果は,ここに保存しました.

とりあえず,#2 #3 #6 #9 をしてoptunaでハイパラチューニングして300回回してます.

探索範囲は

    params = {
        'objective': 'binary:logistic',
        'max_depth': trial.suggest_int('max_depth', 1, 9),
        'n_estimators': trial.suggest_int('n_estimators', 10, 1000),
        'learning_rate': trial.suggest_loguniform('learning_rate', 1e-8, 1.0)
    }

にしていますが,適当な例を引っ張ってきてるだけなので,改善案があったら教えてほしいです.

あと,ローカルで回すと結構時間かかりそうです.
自分は研究室のサーバを使ってみますが,サーバ使える状態じゃない人はGoogle Colab使ったほうがいいかもです……….

@Inazuma110
Copy link
Owner Author

#11 とハイパラの探索空間を変えて学習させてます.
自分がぱっと思いつく精度が確実に上がる前処理はこれでだいたい全部やりました…
終わったら提出する予定です.
探索空間はこうなっています.もっと良いのがあれば教えてください.

params = {
        'objective': 'multi:softmax',
        'num_class': 11,
        'max_depth': trial.suggest_int('max_depth', 1, 20),
        'min_child_weight': trial.suggest_int('min_child_weight', 1, 20),
        'subsample': trial.suggest_discrete_uniform('subsample', 0.5, 0.9, 0.1),
        'colsample_bytree': trial.suggest_discrete_uniform('colsample_bytree', 0.5, 0.9, 0.1),
        'n_estimators': trial.suggest_int('n_estimators', 10, 1000),
        'learning_rate': trial.suggest_loguniform('learning_rate', 1e-8, 1.0),
        'reg_lambda': trial.suggest_discrete_uniform('lambda', 0, 1, 0.1)
    }

@Inazuma110
Copy link
Owner Author

Inazuma110 commented Apr 24, 2021

提出結果,特に変化なし!
CV: 0.5177888883352211

#11 とハイパラの探索空間を変えて学習させてます.
自分がぱっと思いつく精度が確実に上がる前処理はこれでだいたい全部やりました…
終わったら提出する予定です.
探索空間はこうなっています.もっと良いのがあれば教えてください.

params = {
        'objective': 'multi:softmax',
        'num_class': 11,
        'max_depth': trial.suggest_int('max_depth', 1, 20),
        'min_child_weight': trial.suggest_int('min_child_weight', 1, 20),
        'subsample': trial.suggest_discrete_uniform('subsample', 0.5, 0.9, 0.1),
        'colsample_bytree': trial.suggest_discrete_uniform('colsample_bytree', 0.5, 0.9, 0.1),
        'n_estimators': trial.suggest_int('n_estimators', 10, 1000),
        'learning_rate': trial.suggest_loguniform('learning_rate', 1e-8, 1.0),
        'reg_lambda': trial.suggest_discrete_uniform('lambda', 0, 1, 0.1)
    }

@Inazuma110 Inazuma110 added Observation 学習結果への考察など result 学習の結果 labels Apr 24, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Observation 学習結果への考察など result 学習の結果
Projects
None yet
Development

No branches or pull requests

1 participant