网站首页 > 行业资讯 > 正文

实战运行手册——爬虫工具之一：Webhose

idm.org.cn 行业资讯 2021-11-29 1103 2

任何项目的开发都需要有数据的支持，数据采集的准确性直接关系到数据分析结果的价值，而从各种网站收集数据（Web抓取）是一项非常繁琐的任务爬虫工具。

由于工作原因我会不断试用一些爬虫工具，接我们后面会出一个 “爬虫工具”系列，尽量找那些比较简单、易用且高效的小工具，说下它们的特点，通过截图做运行实战演示爬虫工具。

本期是webhose.io，它主要被用来爬取新闻、博客、评论方面的数据爬虫工具。

地址：下面简单演示一下使用步骤

第一步：注册账号

（邮箱处必须使用企业邮箱爬虫工具，个人邮箱无法注册）第二步：注册完后登录并保存密钥

实战运行手册——爬虫工具之一：Webhose 第1张

第三步：

用这个地址下载Webhose提供在github上代码爬虫工具，把它克隆到本地，而后把它运行起来；如下图截屏所示，我把注册时的API密钥替换在了遮挡部分

实战运行手册——爬虫工具之一：Webhose 第2张

第四步：

在过滤条件中添加自己要搜索的条件爬虫工具，其中可选项目有：语言、作者、视频、外部链接、评分、图片、时间、关键字、地域等

下面链接是Webhose所提供的文档

如果不会设置搜索规则的话爬虫工具，可以参考Webhose提供的示例

下面提供了数据格式的选择、时间筛选以及排序规则

以上如果操作完成爬虫工具，在下方会根据填写的搜索条件自动生成对应代码，如截屏所示

只要按照我前面的操作步骤来爬虫工具，并把代码跑起来，就可以获得所需要的数据这就是一个数据爬取的截屏演示爬虫工具，归纳下Webhose的主要特点

Webhose不同于其他爬取工具，你完全不需要关注爬取的过程，仅在设置列表中选择你需要的过滤条件，Webhose会据此条件进行搜索，再把爬取的数据返回给你；这个工具可以让使用者快速获取数据，从而把大量精力放在对数据后期的利用上，从而不用去考虑网站的爬取规则和修改爬虫代码；Webhose可在任何在线资源中提取企业级实时数据，收集的数据是结构化的，并且可以以XML、RSS和JSON等不同格式使用；Webhose的免费版本每月可以调用1000次HTTP请求爬虫工具。