GitHub - violetmooncd/totalstsation_scrapy: 基于scrapy-redis scrapy-splash的通用爬虫（包括ajax请求的数据）

网站通用爬虫 scrapy-splash and scrapy-redis

scrapy redis splash高度结合

主要框架：

scrapy
scrapy-splash
scrapy-redis

splash 可以采用负载均衡，多节点部署。

scrapy 爬虫也需要多节点部署。单机全站爬取太慢。

splash 安装

安装教程官方文档

数据表结构

表结构在项目下的models.py中

python3 models.py

测试环境下的分布式splash

宿主机安装 nginx

apt install nginx -y
# or
yum install nginx -y

启动splash 容器

sudo ./create_splash.sh

修改 nginx 的配置文件(/etc/nginx/nginx.conf)，在 http 中增加

upstream splash {
    least_conn;
    server 127.0.0.1:8051;
    server 127.0.0.1:8052;
    server 127.0.0.1:8053;
    server 127.0.0.1:8054;
    server 127.0.0.1:8055;
}
server {
    listen 8050;
    location / {
        proxy_pass http://splash;
        proxy_connect_timeout 300;
        proxy_read_timeout 400;
    }
}

重新加载 nginx 配置文件

nginx -s reload

测试环境下docker启动爬虫

git clone http://git.epmap.org/tao.liu/totalstation_spider.git

cd totalstation_spider

请修改 .env_sample 文件

# 编译镜像
docker build -t totalspider:v1 .

# 启动docker容器
docker run -itd --name xxx totalspider:v1

然后向redis 中添加代爬取的网站，

# 连接redis
redis-cli -h xx.xx.xx.xx -p xxxx

# 向redis中添加数据
lpush waiting_for_crawl:start_urls http://www.gov.cn

爬虫已经开始全站爬取。

TODO

网页返回数据去重复
网页相似度检测
监测网页更新

Name		Name	Last commit message	Last commit date
Latest commit History 47 Commits
totalstation_spider		totalstation_spider
.env_sample		.env_sample
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
create_splash.sh		create_splash.sh
main.py		main.py
models.py		models.py
pip.conf		pip.conf
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg
sources.list		sources.list

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

网站通用爬虫 scrapy-splash and scrapy-redis

splash 安装

数据表结构

测试环境下的分布式splash

测试环境下docker启动爬虫

TODO

About

Releases

Packages

Languages

violetmooncd/totalstsation_scrapy

Folders and files

Latest commit

History

Repository files navigation

网站通用爬虫 scrapy-splash and scrapy-redis

splash 安装

数据表结构

测试环境下的分布式splash

测试环境下docker启动爬虫

TODO

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages