市面上的美团数据采集软件是否真的能够突破美团限制限流?

我们在采集过程中会遇到以下问题:

1、在收集过程中封IP;

2、经常弹出验证码;

3、突破只能收集50页限制;

我们逐一解密上述问题。

解决问题1:在收集过程中密封IP,因为您在收集过程中收集得太快。根据美团数据的访问策略,一般在2秒内访问一个数据,永远不会密封IP;

解决问题2:事实上,这个问题几乎是由于访问速度过快,只要访问速度稍微调整,就永远不会有验证码;

对于第三个问题,只能收集50页的限制性问题,解决方案是:使用抓包工具fidler获取APP的访问地址htp://meishi.meituan.com/i/cateid=17&onlylist=1。

其实,

美团——吃喝玩乐全都有,作为如今网上外卖行业和餐饮行业的头部平台,所以很多公司都会想着抓取美团网上所有商家信息。

市面上美团数据采集软件是否真的能够突破美团采集限制限流?  第1张

那么如何批量收集美团网全国商家的数据呢?

在爬行过程中,我们可以先抓取所有城市数据。

查看页面代码时发现很有规律,所以很容易抓取:

将城市数据保存到txt文件中,然后先获取分类信息:

当获取这些数据时,它们被用来拼接成url链接。由于美团商家的一些数据是用ajax加载的,虽然有办法处理,但是比较麻烦,所以我觉得不用处理ajax加载就可以分类获取区/县、商圈。

然后拼接之前获得的类型,这样我们就可以获得一个商业区的一个小类别,这是一个相对较小的范围,所以没有太多的企业。为了方便下次爬数据,我先保存商家的url,然后进入每个商家获取数据。

获得所有商家的url后,现在是我们的最后一步,但需要注意的是,不同类型的数据页面是不同的,比如酒店。

因此,对于不同的类型,我们需要写不同的分析函数。最后,我们不应该在爬行时追求快速。美团有严格的限制。最好有多个线程,每秒请求一次。然后慢慢地让它跑掉。最后,我跑了两个多星期才跑完全部。

微信号:565859400
添加上方技术, 在线咨询
复制微信号