Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

招聘网站爬虫实践 #3

Open
JanusChoi opened this issue Jan 2, 2020 · 1 comment
Open

招聘网站爬虫实践 #3

JanusChoi opened this issue Jan 2, 2020 · 1 comment

Comments

@JanusChoi
Copy link
Owner

Day 1

打算做一个招聘网站爬虫,配合前端输出分析结果。从Python招聘网站爬虫合集入手,发现调不通,不明白作者为何要自己生成Cookie。尝试跳过Cookie之后直接被网站block,看来是必须项。但搞不懂生成规则,于是回到爬虫原教程开始学习。

收获:
找到一个招聘数据分析例子,可参考

行动:
试试能不能直接把爬到的数据推送到小程序后台数据库
测试普通爬虫教程爬拉勾,忽略robots限制
搞清楚Cookie token的作用

插曲:
有点莫名其妙地把Mac上的mysql恢复了,找了stackoverflow里面好几个homebrew的恢复方式都不行,直接用brew remove把mysql移除之后,安装了官网的pkg文件后,initial database重新设置了root密码,然后在server目录下才能登录。现在看起来似乎少了一个客户端,在可登录的前提下再用brew装回去试试看?

Day 2

使用例程尝试,发现几个问题:

  1. 例程中的搜狐链接失效
  2. 正则表达式失效

调整后可以采集到搜狐主页的标题,但这种纯粹使用正则表达式来匹配网站pattern的方式较为低效,决定使用原来自己的熟悉的XPath来进行下一步开发。

ChangeLog

  • 2020/1/2 10:02 补充前面学习复盘记录
  • 2020/1/2 10:02 添加昨天实践复盘
@JanusChoi
Copy link
Owner Author

中间还经历了一次小插曲是手贱跑去升级了Mac Catalina

还好根据官方意见,用time machine给整个系统做了备份,不然后续把原系统要回来可就千辛万苦了。

备份过程蛮简单,连接一个200G以上的硬盘,然后启动time machine对整个系统进行备份。

为什么不用Catalina,官网上有反映升级后电池用得特别快,而且许多原来能用的App都会失效,因为Catalina全面取消了对32位程序的支持,测试后发现确实如此。

于是开始进行降级,开机是按住 Command+R 进入恢复模式,使用time machine回到上一个备份状态。

试了几次之后,都出现未知错误,因此只能够采取:重装系统,再同步会之前数据的方法。

第一次重装,没有把两个盘都抹掉就直接进了系统,导致出现了多个账户,应用程序同步不完整等问题。

第二次,重装前先把Mac内可见的SSD硬盘分区都抹掉。然后再重装的引导程序里面,进行数据恢复。(切记是在重装时就完成这一步)

最后,终于找回了自己熟悉的系统。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant