GitHub - xiantang/Spider: web crawler

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Anti_Anti_Spider_521		Anti_Anti_Spider_521
CEO		CEO
HeiongjiangBids		HeiongjiangBids
TaoBaoLogin		TaoBaoLogin
TaoBaoShop		TaoBaoShop
TweetApi		TweetApi
WZBC_ele		WZBC_ele
anjuke		anjuke
douban		douban
ducez		ducez
excel_local		excel_local
from_to_spider		from_to_spider
github		github
golden		golden
jD		jD
lianjia		lianjia
loanApp		loanApp
meituanbad		meituanbad
rabbr		rabbr
tmail		tmail
use_cookiejar		use_cookiejar
weibo		weibo
windApi		windApi
xici		xici
zhihuq		zhihuq
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
comment.txt		comment.txt

Repository files navigation

所有的爬虫脚本

简介

这个爬虫脚本合集是2017年到现在所有本人写的py爬虫脚本，可能部分脚本因为网站更新无法使用，但是里面使用的技术仍有参考意义，故开源出来供大家学习。如果这个仓库有帮助到你，请star哦！

安居客
- 采集安居客50w 房源数据
豆瓣
- 使用多进程采集7w 豆瓣电影数据
链家网
- 使用urllib下载链家网的视频，并且有进度条
美团差评
- 采集美团差评并且分析词频创建图云
淘宝登录
- 使用微博账号模拟登陆淘宝
淘宝店铺
- 爬取淘宝指定分类前十的店铺名,使用无头浏览器爬取
天猫
- 爬取天猫的商品数据(详细数据)
微博
- 采集微博博主下的评论
西刺
- 采集代理IP
知乎问题
- 使用scrapy框架并且使用dfs算法深度优先遍历所有的知乎用户并获取用户提出的问题
github
- 模拟登陆github，并且使用dfs和知乎问题爬虫一样的方式爬取followers
大众点评
- 采集餐馆的评论
破解js加密
- 使用exejs运行网页返回的js,获得cookie 并且携带cookie访问
京东全站商品
- 使用scrapy框架爬取所有分类页面，数据量2000W这样，目前配合spring-boot搭建为监控平台
支持抓取HTTP|HTPPS的免费代理池
- 免费的ip代理吃

外包脚本

About

web crawler

crawler python3

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%