Pretrain performance? #5

vcpudding · 2021-04-26T01:54:24Z

在ColdRec2数据集上pretrain，收敛的时候正常的HR@5应该是多少？
'mrr_5:', 0.030770833333333344, 'hit_5:', 0.05375, 'ndcg_5:', 0.03643626106347057
这个数值范围是不是预训练不成功？

fajieyuan · 2021-04-26T02:18:12Z

我没记错的话mrr_5应该是0.047左右，按照论文提供的超参数应该是可以得到这个值的，建议看下是否converge

vcpudding · 2021-04-26T02:30:33Z

100+个batch之后训练集和验证集的loss下降都很不明显，判断converge主要是看mrr_5这几个数值的变化情况吗？

fajieyuan · 2021-04-26T02:35:31Z

我记得代码会隔一段时间打印accuracy，采用accuracy判断更可靠些。请核对一下相关超参数跟论文中是否有出入，100个batch肯定不行，可以算一下总样本有多少，100个batch可能还不到总样本的十分之一，至少需要pre-train 10个小时以上

vcpudding · 2021-04-27T03:16:18Z

感谢原教授~~我的实验复现成功了~~
然后，这可能是另一个问题：为什么demo数据里的pretrain和finetune数据都是一一对应的？如果在pretrain时加入更多在target domain没有交集用户的数据，对系统整体性能会有什么影响？

fajieyuan · 2021-04-27T03:22:53Z

demo写法主要是未来让刚学习这个算法的同学好理解，可以的，pre-train可以包含更多的用户，finetune可以仅仅其中一部分用户，建议写个词典对应准确就可以，不要错位，我代码是最简单的写法，主要是为了好读

fajieyuan · 2021-04-27T03:24:01Z

感谢原教授~~我的实验复现成功了~~
然后，这可能是另一个问题：为什么demo数据里的pretrain和finetune数据都是一一对应的？如果在pretrain时加入更多在target domain没有交集用户的数据，对系统整体性能会有什么影响？

demo写法主要是未来让刚学习这个算法的同学好理解，可以的，pre-train可以包含更多的用户，finetune可以仅仅其中一部分用户，建议写个词典对应准确就可以，不要错位，我代码是最简单的写法，主要是为了好读

jh-lau · 2022-05-11T07:45:22Z

hello, 这里提到的词典对应、不要错位是啥意思？我理解finetune的user ids应该是pre-train用到的user ids的子集即可？

fajieyuan · 2022-05-11T07:47:22Z

就是这个意思。我为了使用简单就没有加userID，别对错号从 Windows 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>发送发件人: ***@***.***> 发送时间: 2022年5月11日 15:45 收件人: ***@***.***> 抄送: Fajie YUAN ***@***.***>; ***@***.***> 主题: Re: [fajieyuan/SIGIR2020_peterrec] Pretrain performance? (#5) hello, 这里提到的词典对应、不要错位是啥意思？我理解finetune的user ids应该是pre-train用到的user ids的子集即可？ ― Reply to this email directly, view it on GitHub<#5 (comment)>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/ADTZGLJWMCQLEBESLJ25I43VJNQR3ANCNFSM43R5FAMA>. You are receiving this because you commented.Message ID: ***@***.***>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Pretrain performance? #5

Pretrain performance? #5

vcpudding commented Apr 26, 2021

fajieyuan commented Apr 26, 2021

vcpudding commented Apr 26, 2021

fajieyuan commented Apr 26, 2021

vcpudding commented Apr 27, 2021

fajieyuan commented Apr 27, 2021

fajieyuan commented Apr 27, 2021

jh-lau commented May 11, 2022

fajieyuan commented May 11, 2022 via email

Pretrain performance? #5

Pretrain performance? #5

Comments

vcpudding commented Apr 26, 2021

fajieyuan commented Apr 26, 2021

vcpudding commented Apr 26, 2021

fajieyuan commented Apr 26, 2021

vcpudding commented Apr 27, 2021

fajieyuan commented Apr 27, 2021

fajieyuan commented Apr 27, 2021

jh-lau commented May 11, 2022

fajieyuan commented May 11, 2022 via email