Skip to content

Commit

Permalink
Update readme.md
Browse files Browse the repository at this point in the history
  • Loading branch information
stevenHust authored Sep 5, 2023
1 parent 6d46735 commit ea06351
Showing 1 changed file with 7 additions and 3 deletions.
10 changes: 7 additions & 3 deletions agl/python/examples/kcan_movielens/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -14,14 +14,15 @@

## 说明
> Warning: 模型部分实现和论文中略有不同,原文是知识图谱表征学习和kcan交替训练,这里只有kcan的训练。同时开源数据只有正边没有负边,所以负样本是随机采样的导致数据集中负样本和原论文不一样,因此效果并不能完全对齐论文。
由于link类算法的样本数量过多,只能在分布式模式(比如yarn)运行,为了方便不想搭建yarn集群的用户,我们提供了采样好的图样本下载地址为:,用户可以直接进行模型训练
### 数据下载:
https://drive.google.com/drive/folders/12_mU1jt7ntuWEMQ-bogF0cLQjFJijnab?usp=sharing 下载数据文件,把图数据文件node_table.csv,link_table.csv,edge_table.csv放在data_process/目录下。
由于link模式的样本量巨大,用户需要搭建spark集群运行。对于无法搭建集群的用户,可以下载预先采样的子图数据part-subgraph_kcan_train_test.csv,放在data_process/output_graph_feature目录下

### 数据预处理
以movielens为例子
首先我们要把原始数据压缩成子图(pb string)的形式,使用如下data_process/submit.sh的命令
由于link模式的样本量巨大,用户需要搭建spark集群运行。对于无法搭建集群的用户,可以下载预先采样的子图数据part-subgraph_kcan_train_test.csv,放在data_process/output_graph_feature目录下

```
base=`dirname "$0"`
cd "$base"
Expand Down Expand Up @@ -50,7 +51,10 @@ python ../../run_spark.py \
- input_node_feature
- 包含node_id,node_feature两个字段

运行data_process/split_graph_features.py,将output_graph_feature目录下的子图根据train_flag划分为subgraph_kcan_movielens_train.txt和subgraph_kcan_movielens_test.txt文件给下游训练。
```
python data_process/split_graph_features.py
```
运行上面的脚本,将output_graph_feature目录下的子图根据train_flag划分为subgraph_kcan_movielens_train.txt和subgraph_kcan_movielens_test.txt文件给下游训练。

### 模型运行
```
Expand Down

0 comments on commit ea06351

Please sign in to comment.