这个爬虫脚本合集是2017年到现在所有本人写的py爬虫脚本,可能部分脚本因为网站更新无法使用,但是里面使用的技术仍有参考意义,故开源出来供大家学习。 如果这个仓库有帮助到你,请star哦!
- 安居客
- 采集安居客50w 房源数据
- 豆瓣
- 使用多进程采集7w 豆瓣电影数据
- 链家网
- 使用urllib下载链家网的视频,并且有进度条
- 美团差评
- 采集美团差评并且分析词频创建图云
- 淘宝登录
- 使用微博账号模拟登陆淘宝
- 淘宝店铺
- 爬取淘宝指定分类前十的店铺名,使用无头浏览器爬取
- 天猫
- 爬取天猫的商品数据(详细数据)
- 微博
- 采集微博博主下的评论
- 西刺
- 采集代理IP
- 知乎问题
- 使用scrapy框架并且使用dfs算法深度优先遍历所有的知乎用户并获取用户提出的问题
- github
- 模拟登陆github,并且使用dfs和知乎问题爬虫一样的方式爬取followers
- 大众点评
- 采集餐馆的评论
- 破解js加密
- 使用exejs运行网页返回的js,获得cookie 并且携带cookie访问
- 京东全站商品
- 使用scrapy框架爬取所有分类页面,数据量2000W这样,目前配合spring-boot搭建为监控平台
- 支持抓取HTTP|HTPPS的免费代理池
- 免费的ip代理吃