-
推荐算法
- 基于用户的协同过滤
- 基于内容的推荐
- 基于热点的推荐
-
Mahout:整体框架,实现了协同过滤
-
Deeplearning4j,构建VSM
-
Jieba:分词,关键词提取
-
HanLP:分词,关键词提取
-
Spring Boot:提供API、ORM
- 直接调用Mahout相关接口即可
- 选择不同的用户相似度度量方法,这里选择了基于谷本系数、基于对数似然和基于曼哈顿距离
- 对新闻文本进行分词
- 调用Deeplearning4j中构建paragraphvector的方法,通过doc2vec构建VSM
- 用Gensim会更方便点
- 统计最高浏览量
- 过滤一定时间前的新闻保证热点的准确
- 测试数据集
- F1-Measure(precision + recall)
算法 | 最近邻数量K | 推荐数N | F1-Measure |
---|---|---|---|
UserCF--Tanimoto | 20 | 11 | 0.481591183699049 |
UserCF--LogLike | 10 | 11 | 0.486337485027766 |
UserCF--CityBlock | 30 | 8 | 0.424612102745937 |
ContentBased | - | 5 | 0.0491655390166893 |
HotSpots | - | 14 | 0.118524972063865 |