关于分词器处理后的预训练语料是通过哪个代码生成的 #84

livevivaer · 2024-09-09T06:46:45Z

为了给大家节省数据预处理的时间，本项目开源了经过ChatGLM2-6B的分词器处理后的预训练语料，共计634亿Tokens的数据量，链接如下：Baby-llama2-chinese Corpus 提取码：6unr。将下载好的数据放到./data目录下即可。

上面提到的分词器处理器后的预训练语料，这部分是如何生成的。

Provide feedback