招聘网站爬虫实践 #3

JanusChoi · 2020-01-02T02:05:18Z

Day 1

打算做一个招聘网站爬虫，配合前端输出分析结果。从Python招聘网站爬虫合集入手，发现调不通，不明白作者为何要自己生成Cookie。尝试跳过Cookie之后直接被网站block，看来是必须项。但搞不懂生成规则，于是回到爬虫原教程开始学习。

收获：
找到一个招聘数据分析例子，可参考

行动：
试试能不能直接把爬到的数据推送到小程序后台数据库
测试普通爬虫教程爬拉勾，忽略robots限制
搞清楚Cookie token的作用

插曲：
有点莫名其妙地把Mac上的mysql恢复了，找了stackoverflow里面好几个homebrew的恢复方式都不行，直接用brew remove把mysql移除之后，安装了官网的pkg文件后，initial database重新设置了root密码，然后在server目录下才能登录。现在看起来似乎少了一个客户端，在可登录的前提下再用brew装回去试试看？

Day 2

使用例程尝试，发现几个问题：

例程中的搜狐链接失效
正则表达式失效

调整后可以采集到搜狐主页的标题，但这种纯粹使用正则表达式来匹配网站pattern的方式较为低效，决定使用原来自己的熟悉的XPath来进行下一步开发。

ChangeLog

2020/1/2 10:02 补充前面学习复盘记录
2020/1/2 10:02 添加昨天实践复盘

JanusChoi · 2020-01-02T02:06:32Z

中间还经历了一次小插曲是手贱跑去升级了Mac Catalina

还好根据官方意见，用time machine给整个系统做了备份，不然后续把原系统要回来可就千辛万苦了。

备份过程蛮简单，连接一个200G以上的硬盘，然后启动time machine对整个系统进行备份。

为什么不用Catalina，官网上有反映升级后电池用得特别快，而且许多原来能用的App都会失效，因为Catalina全面取消了对32位程序的支持，测试后发现确实如此。

于是开始进行降级，开机是按住 Command+R 进入恢复模式，使用time machine回到上一个备份状态。

试了几次之后，都出现未知错误，因此只能够采取：重装系统，再同步会之前数据的方法。

第一次重装，没有把两个盘都抹掉就直接进了系统，导致出现了多个账户，应用程序同步不完整等问题。

第二次，重装前先把Mac内可见的SSD硬盘分区都抹掉。然后再重装的引导程序里面，进行数据恢复。（切记是在重装时就完成这一步）

最后，终于找回了自己熟悉的系统。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

招聘网站爬虫实践 #3

招聘网站爬虫实践 #3

JanusChoi commented Jan 2, 2020

JanusChoi commented Jan 2, 2020

招聘网站爬虫实践 #3

招聘网站爬虫实践 #3

Comments

JanusChoi commented Jan 2, 2020

Day 1

Day 2

ChangeLog

JanusChoi commented Jan 2, 2020