在之前介绍过很多爬虫库的使用,其中大多数也是 Python 相关的,当然这些库很多都是给开发者来用的爬虫工具。但这对一个对爬虫没有什么开发经验的小白来说,还是有一定的上手难度的。现在市面上其实也出现了非常多的爬虫服务,如果你仅仅是想爬取一些简单的数据的话,或者懒得写代码的话,其实利用这些工具还是可以非常方便地完成爬取的,那么本文就来总结一下一些比较实用的爬取服务和工具,希望在一定程度上能够帮助你摆脱数据爬取的困扰。
下面总结的一部分工具其实都算是一些爬虫工具的高层封装、实用工具甚至是一些完善的商业服务,包括国内的和国外的爬虫工具。
工具服务列表
Chrome 扩展
Web Scraper:/框架
Scrapy:/商业服务
Parsehub:/下面来对这些工具和服务进行简单的介绍和总结爬虫工具。
Web Scraper它是一个独立的 Chrome 扩展,安装数目已经到了 20w爬虫工具。它支持点选式的数据抓取,另外支持动态页面渲染,并且专门为 JavaScript、Ajax、下拉拖动、分页功能做了优化,并且带有完整的选择器系统,另外支持数据导出到 CSV 等格式。另外它们还有自己的 Cloud Scraper,支持定时任务、API 式管理、代理切换功能。
Web Scraper
官网:/
Data ScraperData Scraper 同样是一个 Chrome 扩展,它可以将单个页面的数据通过点击的方式爬取到 CSV、XSL 文件中爬虫工具。在这个扩展中已经预定义了 5w 多条规则,可以用来爬取奖金 1.5w 个热门网站。
不过这个扩展的使用是有限制的,免费版本每个月只能爬取 500 个页面,更多则需要付费爬虫工具。
Data Scraper
官网:/
Listly这同样是一个 Chrome 插件,它可以快速地将网页中的数据进行提取,并将其转化为 Excel 表格导出,操作非常便捷爬虫工具。比如获取一个电商商品数据,文章列表数据等,使用它就可以快速完成。另外它也支持单页面和多页面以及父子页面的采集,值得一试。
Data Scraper
官网:/
Mercury这是一个开源的提供自动化解析的工具,使用 JavaScript 编写,同时还提供了 Chrome 扩展工具爬虫工具。利用它我们可以完成页面的智能解析,如自动提取文章标题、正文、发布时间等内容。
另外它开放了源代码,放在了 GitHub,我们可以直接安装使用,使用命令行即可完成页面的智能解析,速度还非常快爬虫工具。
Data Scraper
官网:/
Scrapy这可能是 Python 爬虫学习者使用最多的爬虫框架了,利用这个框架我们可以快速地完成爬虫的开发爬虫工具。而且框架本身性能卓越、可配置化极强,另外开发者社区十分活跃,并且 Scrapy 具有配套的各种插件,几乎可以实现任何站点的爬取逻辑,强烈推荐。
Scrapy
官网:/
PySpiderPySpider 是一个基于 Python 开发的爬虫工具,它带有可视化的管理工具,并且可以通过在线编程的方式完成爬虫的创建和运行爬虫工具。另外它还支持分布式爬取,并支持存储到各种数据库。由于是代码来实现编程,因此其可扩展性还是很强的,简单易用。
PySpider
GitHub:
Apify它是一个基于 Node.js 开发的爬虫库,由于是 JavaScript 编写,因此它对 JavaScript 渲染页面的爬取是完全支持的,对接了 Puppeteer、Cheerio爬虫工具。另外其可定制化也非常强,支持各种文件格式的导出,并且支持和 Apify Cloud 的对接实现云爬取。
Apify
官网:/
ParsehubParseHub 是一个基于 Web 的抓取客户端工具,支持 JavaScript 渲染、Ajax 爬取、Cookies、Session 等机制,该应用程序可以分析和从网站获取数据并将其转换为有意义的数据爬虫工具。它还可以使用机器学习技术识别复杂的文档,并能导出为 JSON、CSV、Google 表格等格式的文件。
Parsehub 支持 Windows,Mac 和 Linux,而且可用作Firefox扩展爬虫工具。另外它还支持一些高级功能,如分页,无限滚动页面,弹出窗口和导航。另外还可以将 ParseHub 中的数据可视化为 Tableau。
当然这个也收费的,免费版本限制为 5 个项目,每次限制爬取 200 页爬虫工具。如果付费订阅可以获得 20 个私有项目,每次抓取 10000 个页面,而且支持高级版的 IP 代理切换等功能。
官网:
Dexi.ioDexi.io,之前称为 CloudScrape爬虫工具。它是一个爬虫的商业服务,它支持可视化点击抓取,而且配有自然语言解析工具使得解析更为精准,所有的抓取配置都在网页端完成,并且可以通过控制台来完成任务的运行和调度。另外它还提供许多代理 IP,还与第三方记性了集成,包括 Box.net、Google Drive 等工具。
这也是收费的,收费标准版是 119 美刀一个月,支持一个 Worker 和基础服务,另外还有更高级别的服务爬虫工具。不过支持免费试用。
Dexi.io
官网:/
Octparse也是一个可视化爬虫工具,支持在网页上进行可视化点选,并且也支持常见的 JavaScript 渲染、Ajax 爬取等等,同样是在云端运行和控制,另外提供了代理服务爬虫工具。
免费版支持创建 10 个爬取,但是提供了最基础的服务,如果想要提供更多的服务如代理切换,则需要购买付费版本,标准版是 75 美金一个月爬虫工具。
Dexi.io
官网:/
Content GrabberContent Grabber 同样也是一个可视化的爬虫工具,同样支持可视化点选,支持 JavaScript 渲染、Ajax 爬取等功能,另外还有验证码识别等解决方案,并使用 Nohodo 作为 IP 代理爬虫工具。数据支持导出常用格式,也支持 PDF 格式导出。
Centent Grabber
官网:/
MozendaMozenda 类似,也是基于一个云端爬虫服务,同样支持可视化点选操作爬虫工具。它由两个部分组成,一部分是用来完成数据提取功能,另一部分是 Web 控制台来运行和控制各个爬虫服务。另外它还提供了 FTP、亚马逊 S3、Dropbox 等的支持。
Mozenda
官网:/
ScraperAPI这个站点提供了简易的页面渲染服务,站如其名,其爬取结果都是通过 API 来操作的爬虫工具。该站点提供了许多渲染引擎,我们通过调用提供的 API 并传以不同的参数就可以完成页面的渲染,类似于 Splash。
Mozenda
官网:/
DiffbotDiffbot 是一个提供智能化解析的站点爬虫工具。例如一个新闻页面,我们不再需要规则即可完成对其中内容的提取,例如标题、正文、发布时间等等。它通过一些机器学习算法、图像识别、自然语言处理等方案综合解析,可以说是目前业界数一数二的页面智能解析方案提供商。
Mozenda
官网:/
Import.ioImport.io 可以说不仅仅是一个提供爬虫服务的网站了,它提供了从数据爬取、清洗、加工到应用的一套完整解决方案,涉及到零售与制造业、数据爬取与加工、机器学习算法、风控等等方案爬虫工具。
Import.io
官网:/
Embed.ly其实 Embed.ly 是提供了自动获取图像,视频,民意调查,幻灯片,音乐,实时视频,表格,GIF,图表等功能的服务,其中和爬虫相关的就是页面解析了爬虫工具。它提供了智能化页面解析方案,类似 Diffbot,可以自动完成页面的解析。
Embed.ly
官网:/
ScrapeStorm这个网站提供了一个可视化爬虫工具,支持 Mac、Windows、Linux,工具十分强大,支持自动识别翻页、自动识别内容,另外支持 JavaScript 渲染,另外支持模拟登录爬取等等爬虫工具。
然而我下载下来之后使用了一下,里面居然是后裔采集器?看来是这个站点盗用了了后裔采集器的源码吧爬虫工具。
添加上方▲技术, 在线咨询
复制微信号
声明
一、本站原创内容,其版权属于本网站所有。其他媒体、网站或个人转载使用时不得进行商业性的原版原式的转载,也不得歪曲和篡改本网站所发布的内容。如转载须注明文章来源。
二、本网站转载其它媒体作品的目的在于传递更多信息,并不代表本网站赞同其观点和对其真实性负责;如侵犯你的权益请告诉我们立即删除;其他媒体、网站或个人转载使用自负法律责任。
发表评论
2021-11-22 17:12:46回复