wikitext_bpe_extra_embed_finetune.sh

# train freq, approx 3V, all init
python train.py --task language_modeling \
    data-bin/wikitext103-bpe \
  --save-dir checkpoints/wikitext103-bpe-extra-embed-3v-init-finetune \
  --arch transformer_lm_wikibpe  --restore-file checkpoints/wikitext103-bpe/checkpoint_best.pt \
  --reset-optimizer --reset-dataloader --reset-meters \
  --finetune-out-embed --num-extra-embed-file analysis/train_freq_num_extra_embed_3v.json \
  --criterion agg_softmax \
  --max-update 286000 --optimizer nag --lr 5e-2 --clip-norm 100 \
  --max-tokens 3072 --update-freq 3 --tokens-per-sample 3072 --seed 1 \
  --sample-break-mode none --skip-invalid-size-inputs-valid-test --ddp-backend=no_c10d --fp16

# continue
python train.py --task language_modeling \
    data-bin/wikitext103-bpe \
  --save-dir checkpoints/wikitext103-bpe-extra-embed-3v-init-finetune \
  --arch transformer_lm_wikibpe  --restore-file checkpoints/wikitext103-bpe-extra-embed-3v-init-finetune/checkpoint_last.pt \
  --finetune-out-embed --num-extra-embed-file analysis/train_freq_num_extra_embed_3v.json \
  --criterion agg_softmax \
  --max-update 286000 --optimizer nag --lr 5e-2 --clip-norm 100 \
  --max-tokens 3072 --update-freq 3 --tokens-per-sample 3072 --seed 1 \
  --sample-break-mode none --skip-invalid-size-inputs-valid-test --ddp-backend=no_c10d --fp16

# train freq, approx 3V, preserve pretrained embedding (first block)
python train.py --task language_modeling \
    data-bin/wikitext103-bpe \
  --save-dir checkpoints/wikitext103-bpe-extra-embed-3v-preserve-finetune \
  --arch transformer_lm_wikibpe  --restore-file checkpoints/wikitext103-bpe/checkpoint_best.pt \
  --reset-optimizer --reset-dataloader --reset-meters \
  --finetune-out-embed --num-extra-embed-file analysis/train_freq_num_extra_embed_3v.json \
  --criterion agg_softmax --preserve-out-embed \
  --max-update 286000 --optimizer nag --lr 1e-3 --clip-norm 100 \
  --max-tokens 3072 --update-freq 3 --tokens-per-sample 3072 --seed 1 \
  --sample-break-mode none --skip-invalid-size-inputs-valid-test --ddp-backend=no_c10d --fp16 --dropout 0.1

# train total loss, approx 3V, all init
python train.py --task language_modeling \
    data-bin/wikitext103-bpe \
  --save-dir checkpoints/wikitext103-bpe-extra-embed-loss-3v-init-finetune \
  --arch transformer_lm_wikibpe  --restore-file checkpoints/wikitext103-bpe/checkpoint_best.pt \
  --reset-optimizer --reset-dataloader --reset-meters \
  --finetune-out-embed --num-extra-embed-file analysis/train_loss_num_extra_embed_3v.json \
  --criterion agg_softmax \
  --max-update 286000 --optimizer nag --lr 5e-2 --clip-norm 100 \
  --max-tokens 3072 --update-freq 3 --tokens-per-sample 3072 --seed 1 \
  --sample-break-mode none --skip-invalid-size-inputs-valid-test --ddp-backend=no_c10d --fp16

# train total loss, approx 3V, preserve pretrained embedding (first block)
python train.py --task language_modeling \
    data-bin/wikitext103-bpe \
  --save-dir checkpoints/wikitext103-bpe-extra-embed-loss-3v-preserve-finetune \
  --arch transformer_lm_wikibpe  --restore-file checkpoints/wikitext103-bpe/checkpoint_best.pt \
  --reset-optimizer --reset-dataloader --reset-meters \
  --finetune-out-embed --num-extra-embed-file analysis/train_loss_num_extra_embed_3v.json \
  --criterion agg_softmax --preserve-out-embed \
  --max-update 286000 --optimizer nag --lr 1e-3 --clip-norm 100 \
  --max-tokens 3072 --update-freq 3 --tokens-per-sample 3072 --seed 1 \
  --sample-break-mode none --skip-invalid-size-inputs-valid-test --ddp-backend=no_c10d --fp16 --dropout 0.1

## eval
python eval_lm.py data-bin/wikitext103-bpe \
    --path checkpoints/wikitext103-bpe-extra-embed-3v-init-finetune/checkpoint_best.pt \
    --sample-break-mode complete --max-tokens 3072 \
    --context-window 2560 --softmax-batch 1024 --num-extra-embed-file analysis/train_freq_num_extra_embed_3v.json \
    --gen-subset valid --bpe subword_nmt --remove-bpe --save-scores extra_embed_scores/3v-init-finetune.npy

python eval_lm.py data-bin/wikitext103-bpe \
    --path checkpoints/wikitext103-bpe-extra-embed-loss-3v-init-finetune/checkpoint_best.pt \
    --sample-break-mode complete --max-tokens 3072 \
    --context-window 2560 --softmax-batch 1024 --num-extra-embed-file analysis/train_loss_num_extra_embed_3v.json \
    --gen-subset valid --bpe subword_nmt --remove-bpe --save-scores extra_embed_scores/loss-3v-init-finetune.npy

python eval_lm.py data-bin/wikitext103-bpe \
    --path checkpoints/wikitext103-bpe-extra-embed-3v-preserve-finetune/checkpoint_best.pt \
    --sample-break-mode complete --max-tokens 3072 \
    --context-window 2560 --softmax-batch 1024 --num-extra-embed-file analysis/train_freq_num_extra_embed_3v.json \
    --gen-subset valid --bpe subword_nmt --remove-bpe --save-scores extra_embed_scores/3v-preserve-finetune.npy


python eval_lm.py data-bin/wikitext103-bpe \
    --path checkpoints/wikitext103-bpe-extra-embed-loss-3v-preserve-finetune/checkpoint_best.pt \
    --sample-break-mode complete --max-tokens 3072 \
    --context-window 2560 --softmax-batch 1024 --num-extra-embed-file analysis/train_loss_num_extra_embed_3v.json \
    --gen-subset valid --bpe subword_nmt --remove-bpe --save-scores extra_embed_scores/loss-3v-preserve-finetune.npy