以下、Geniac LLM開発案件におけるLLM開発コード・手順の標準化です。
利用しても利用しなくても構いません。ご自由にお使いください。
ただし「LLM評価手順」は必ず利用してください(開発したLLMのランキングに使うため)。
サーバにログインしてジョブシステムを利用する手順です。
こちら
LLM学習用データを収集加工する手順です。
mC4(Japanese)のダウンロード、一連の加工処理を含みます。
こちら
LLM学習手順です。
トークナイザー学習、事前学習、事後学習(ファインチューニング)を含みます。
こちら
LLM評価手順です。
本企画の評価指標であるNejumi Leaderboard Neoにおける評価手順となります。
こちら
@software{ucllm-nedo,
author = {Kawanishi, Hotsuyuki and
Shinozuka, Fumiya and
Taniguchi, Masachika and
Yamazaki, Yudai and
Yamagiwa, Manami and
Sekioka, Satoshi and
Harada, Keno and
Alfredo, Solano Martinez and
Noumi, Yoshihiro and
Yu, Zhenxuan and
Kobashi, Yohei and
Kojima, Takeshi},
title = {Standard Codes and Procedures for LLM Development},
month = 3,
year = 2024,
url = {https://github.com/matsuolab/ucllm_nedo_prod}
}