Update readme.md

TuGraph-family · Sep 5, 2023 · ea06351 · ea06351
1 parent 6d46735
commit ea06351
Showing 1 changed file with 7 additions and 3 deletions.
diff --git a/agl/python/examples/kcan_movielens/readme.md b/agl/python/examples/kcan_movielens/readme.md
@@ -14,14 +14,15 @@
 
 ## 说明
 > Warning: 模型部分实现和论文中略有不同，原文是知识图谱表征学习和kcan交替训练，这里只有kcan的训练。同时开源数据只有正边没有负边，所以负样本是随机采样的导致数据集中负样本和原论文不一样，因此效果并不能完全对齐论文。
-由于link类算法的样本数量过多，只能在分布式模式（比如yarn）运行，为了方便不想搭建yarn集群的用户，我们提供了采样好的图样本下载地址为:，用户可以直接进行模型训练
+
 ### 数据下载：
 从 https://drive.google.com/drive/folders/12_mU1jt7ntuWEMQ-bogF0cLQjFJijnab?usp=sharing 下载数据文件,把图数据文件node_table.csv,link_table.csv,edge_table.csv放在data_process/目录下。
-由于link模式的样本量巨大，用户需要搭建spark集群运行。对于无法搭建集群的用户，可以下载预先采样的子图数据part-subgraph_kcan_train_test.csv，放在data_process/output_graph_feature目录下
 
 ### 数据预处理
 以movielens为例子
 首先我们要把原始数据压缩成子图(pb string)的形式，使用如下data_process/submit.sh的命令
+由于link模式的样本量巨大，用户需要搭建spark集群运行。对于无法搭建集群的用户，可以下载预先采样的子图数据part-subgraph_kcan_train_test.csv，放在data_process/output_graph_feature目录下
+
 ```
 base=`dirname "$0"`
 cd "$base"
@@ -50,7 +51,10 @@ python ../../run_spark.py \
 - input_node_feature
     - 包含node_id,node_feature两个字段
 
-运行data_process/split_graph_features.py，将output_graph_feature目录下的子图根据train_flag划分为subgraph_kcan_movielens_train.txt和subgraph_kcan_movielens_test.txt文件给下游训练。
+```
+python data_process/split_graph_features.py
+```
+运行上面的脚本，将output_graph_feature目录下的子图根据train_flag划分为subgraph_kcan_movielens_train.txt和subgraph_kcan_movielens_test.txt文件给下游训练。
 
 ### 模型运行
 ```