如果你正在学习编程,那么“爬虫”绝对是你不可忽视的爬虫工具。那么,学习python爬虫之前需要哪些准备?
一颗热爱学习爬虫工具,不屈不挠的心
一台有键盘的电脑(什么系统都行爬虫工具。我用的os x,所以例子会以这个为准)
html相关的一些知识爬虫工具。不需要精通,能懂一点就行
Python的基础语法知识 爬虫工具。
当这些你都具备了爬虫工具,这个时候你需要学习:
0.基本的爬虫工作原理
1.基本的
2.Bloom Filter: Bloom Filters by Example
3.如果需要大规模网页抓取,你需要学习分布式爬虫的概念爬虫工具。简单来说,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq:
4.rq和Scrapy的结合:darkrho/scrapy-redis · GitHub
5.后续处理:网页析取(grangier/python-goose · GitHub)爬虫工具,存储(Mongodb)
python的火爬虫工具,很大原因就是各种好用的模块,这些模块是居家旅行爬网站常备的——
NO.1 F12 开发者工具
看源代码:快速定位元素
分析xpath:1、此处建议谷歌系浏览器,可以在源码界面直接右键看
NO.2 抓包工具
推荐工具都要好,可以方便查看网站收包发包的信息
NO.3 XPATH CHECKER (火狐插件)
非常不错的xpath测试工具爬虫工具,不过也有几个小缺点,:
xpath checker生成的是绝对路径爬虫工具,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径很有可能造成错误,所以这里建议在真正分析的时候,只是作为参考
记得把如下图xpath框里的“x:”去掉,貌似这个是早期版本xpath的语法,目前已经和一些模块不兼容(比如scrapy),还是删去避免报错爬虫工具。
NO.4 正则表达测试工具
在线正则表达式测试 爬虫工具,拿来多练练手,也辅助分析!里面有很多现成的正则表达式可以用,也可以进行参考!
添加上方▲技术, 在线咨询
复制微信号
声明
一、本站原创内容,其版权属于本网站所有。其他媒体、网站或个人转载使用时不得进行商业性的原版原式的转载,也不得歪曲和篡改本网站所发布的内容。如转载须注明文章来源。
二、本网站转载其它媒体作品的目的在于传递更多信息,并不代表本网站赞同其观点和对其真实性负责;如侵犯你的权益请告诉我们立即删除;其他媒体、网站或个人转载使用自负法律责任。
发表评论
2021-11-23 01:01:54回复