-
Notifications
You must be signed in to change notification settings - Fork 520
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
第六章实战项目基础爬虫 #94
Comments
检查几遍代码没有错误,提示crawl faile |
你需要去分析百科的前端代码啊,它的代码已经变了。可以参考一下我写的代码https://gitee.com/zmrwego/webCrawler |
403 |
用 2to3.py 工具迁移下就好了。 |
这个代码最后打开查看只有一半的数据,比如爬100个但html中只有50个。把self.datas.remove(data)这句话去掉html里就有100个了。没想清楚为什么。(python rookie) |
重复的去掉了。 |
我对比了一下输出html里的和内存里的,不是去掉重复的。 |
是dataoutput.py 这个文件么? 没有 self.datas.remove(data) 这个啊 。 |
对就是在dataoutput.py里。在for data in self.datas这个循环里最后一句。 |
你看看 哪有 更新下Git啊coding:utf-8
|
datas满10个进行一次读写,减轻cpu负担,然后去掉已经写入的datas.remove(data),如果没有这句的话,只会重复写入前10个data。在结束前加入time.sleep(3),是数据完全写入后关闭进程。具体看这里https://gitee.com/zmrwego/a_simple_reptile |
貌似百度百科用书上的代码已经爬取不了了
The text was updated successfully, but these errors were encountered: