Skip to content

A toy programme about Search Engine as final project of Infomation Retrival Class

License

Notifications You must be signed in to change notification settings

KKCHANNEL-kk/AmazonSearchEngine

Repository files navigation

An Search Engine Face to Reviews of Goods in Amazon

SZU Information Retrival Final Project

TODO

BackEnd

  • 后端起服务框架,路由
  • 接口层

FrontEnd

  • 检索首页,只带有搜索框和确认按钮,点击跳转检索列表页
  • 检索列表页,展示返回的前n条结果。点击跳转检索详情页
  • 检索详情页。商品信息

Algo

  • 功能层
  • redis 读取重构。目前只写了json格式cache的读取
  • index初始化的排序,和每次加入新数据时的排序。前面作业已经实现过两个有序倒排索引的合并,时间复杂度O(n)
  • 存储层
  • 计算层

NOTE

  • 两数组都无序。先合并,再排序。
  • 一有序,一无序。先排序,再合并。
  • 对于指向同一个商品的多条评论,可以视作一条长文本。这个时候,词(如形容词)的复现频率,实际上是多条短文本中的共现,与相似度是可以看作正相关的。每一次复现,都是对相关性的贡献。特别是形容词更符合这个假设,代表评论用户【们】对这个形容的认可。如检索词”鞋 耐磨“,某商品1000条评论中有999条包含”耐磨“,”耐磨“的tf中,该商品”耐磨“词频极高,也应该符合”耐磨“。对于名词,可能会稍弱,比如每条评论可能都带有”鞋“。但是起码保证,与”鞋“相关的评论,可以联系到”鞋“类商品,保证召回。形容词更能体现信息需求满足的精细程度。

About

A toy programme about Search Engine as final project of Infomation Retrival Class

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published