CrawCity

实现功能：
从企查查网站爬取一些公司的地址信息，并且保存结果到excel中去

不同方式：
1.查询单个公司地址
2.查询多个公司地址(excel列表)
3.聚合查询的结果(因为会被封ip,所以分多次请求，保存每一次请求的结果)

需要安装的库:

xlrd==1.2.0
xlwt==1.3.0
fake-useragent==0.1.11
requests==2.25.0

文件说明：
main.py 主程序
proxy_ip.json 代理ip，json格式(可选，目前代码没有使用)
done.pickle 已经完成的公司名（用于一次查询多个公司，每次ip被封之后保存结果，类似于断点传输）
res0.xls等每次查询的结果（由于ip会被封，因为每个公司列表可能需要分多次查询）
run.log 运行程序的日志
target.xlsx 需要查询的公司名称
QueryFailed.txt 查询失败的公司名称
final_result2.xls 查询的结果（名字可以自己配置）

运行说明：
usage: main.py [-h] [--path PATH] [--indice INDICE] [--file_list FILE_LIST] [--save_name SAVE_NAME] mode
python main.py 2 --file_list=01234
其中mode是每次运行程序的模式：0代表查询多个公司(excel),1代表查询单个公司,2代表聚合查询的结果

需要注意的是：
1.model=0 时需要注意indice的值，从已经保存的文件序号开始，不用每次都从0开始
2.mode=2 时，需要输入file_list用来聚合最后的结果
3.第一次运行注意删掉res0.xls等还有done.pickle文件，不然可能无法生成最新的结果

存在问题：
1.需要查询的公司名称变更的情况无法查询到
2.代理ip用起来还是会被封掉

TODO:
1.补充https/http的参数含义
2.用seleuim完成，比较和request的区别
3.尝试用数据库代替excel保存结果

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
QueryFailed.txt		QueryFailed.txt
README.md		README.md
done.pickle		done.pickle
final_result2.xls		final_result2.xls
main.py		main.py
proxy_ip.json		proxy_ip.json
res0.xls		res0.xls
res1.xls		res1.xls
res2.xls		res2.xls
res3.xls		res3.xls
res4.xls		res4.xls
run.log		run.log
target.xlsx		target.xlsx
test.xls		test.xls

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CrawCity

About

Releases

Packages

Languages

JXQI/CrawCity

Folders and files

Latest commit

History

Repository files navigation

CrawCity

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages