diff --git a/agl/python/examples/kcan_movielens/readme.md b/agl/python/examples/kcan_movielens/readme.md index 7544999..4c622e0 100755 --- a/agl/python/examples/kcan_movielens/readme.md +++ b/agl/python/examples/kcan_movielens/readme.md @@ -14,14 +14,15 @@ ## 说明 > Warning: 模型部分实现和论文中略有不同,原文是知识图谱表征学习和kcan交替训练,这里只有kcan的训练。同时开源数据只有正边没有负边,所以负样本是随机采样的导致数据集中负样本和原论文不一样,因此效果并不能完全对齐论文。 -由于link类算法的样本数量过多,只能在分布式模式(比如yarn)运行,为了方便不想搭建yarn集群的用户,我们提供了采样好的图样本下载地址为:,用户可以直接进行模型训练 + ### 数据下载: 从 https://drive.google.com/drive/folders/12_mU1jt7ntuWEMQ-bogF0cLQjFJijnab?usp=sharing 下载数据文件,把图数据文件node_table.csv,link_table.csv,edge_table.csv放在data_process/目录下。 -由于link模式的样本量巨大,用户需要搭建spark集群运行。对于无法搭建集群的用户,可以下载预先采样的子图数据part-subgraph_kcan_train_test.csv,放在data_process/output_graph_feature目录下 ### 数据预处理 以movielens为例子 首先我们要把原始数据压缩成子图(pb string)的形式,使用如下data_process/submit.sh的命令 +由于link模式的样本量巨大,用户需要搭建spark集群运行。对于无法搭建集群的用户,可以下载预先采样的子图数据part-subgraph_kcan_train_test.csv,放在data_process/output_graph_feature目录下 + ``` base=`dirname "$0"` cd "$base" @@ -50,7 +51,10 @@ python ../../run_spark.py \ - input_node_feature - 包含node_id,node_feature两个字段 -运行data_process/split_graph_features.py,将output_graph_feature目录下的子图根据train_flag划分为subgraph_kcan_movielens_train.txt和subgraph_kcan_movielens_test.txt文件给下游训练。 +``` +python data_process/split_graph_features.py +``` +运行上面的脚本,将output_graph_feature目录下的子图根据train_flag划分为subgraph_kcan_movielens_train.txt和subgraph_kcan_movielens_test.txt文件给下游训练。 ### 模型运行 ```