Skip to content

xiantang/Spider

Repository files navigation

所有的爬虫脚本

简介

这个爬虫脚本合集是2017年到现在所有本人写的py爬虫脚本,可能部分脚本因为网站更新无法使用,但是里面使用的技术仍有参考意义,故开源出来供大家学习。 如果这个仓库有帮助到你,请star哦!

  • 安居客
    • 采集安居客50w 房源数据
  • 豆瓣
    • 使用多进程采集7w 豆瓣电影数据
  • 链家网
    • 使用urllib下载链家网的视频,并且有进度条
  • 美团差评
    • 采集美团差评并且分析词频创建图云
  • 淘宝登录
    • 使用微博账号模拟登陆淘宝
  • 淘宝店铺
    • 爬取淘宝指定分类前十的店铺名,使用无头浏览器爬取
  • 天猫
    • 爬取天猫的商品数据(详细数据)
  • 微博
    • 采集微博博主下的评论
  • 西刺
    • 采集代理IP
  • 知乎问题
    • 使用scrapy框架并且使用dfs算法深度优先遍历所有的知乎用户并获取用户提出的问题
  • github
    • 模拟登陆github,并且使用dfs和知乎问题爬虫一样的方式爬取followers
  • 大众点评
    • 采集餐馆的评论
  • 破解js加密
    • 使用exejs运行网页返回的js,获得cookie 并且携带cookie访问
  • 京东全站商品
    • 使用scrapy框架爬取所有分类页面,数据量2000W这样,目前配合spring-boot搭建为监控平台
  • 支持抓取HTTP|HTPPS的免费代理池
    • 免费的ip代理吃

外包脚本

Releases

No releases published

Packages

No packages published

Languages