市面上的美团数据采集软件是否真的能够突破美团限制限流?
我们在采集过程中会遇到以下问题:
1、在收集过程中封IP;
2、经常弹出验证码;
3、突破只能收集50页限制;
我们逐一解密上述问题。
解决问题1:在收集过程中密封IP,因为您在收集过程中收集得太快。根据美团数据的访问策略,一般在2秒内访问一个数据,永远不会密封IP;
解决问题2:事实上,这个问题几乎是由于访问速度过快,只要访问速度稍微调整,就永远不会有验证码;
对于第三个问题,只能收集50页的限制性问题,解决方案是:使用抓包工具fidler获取APP的访问地址htp://meishi.meituan.com/i/cateid=17&onlylist=1。
其实,
美团——吃喝玩乐全都有,作为如今网上外卖行业和餐饮行业的头部平台,所以很多公司都会想着抓取美团网上所有商家信息。
那么如何批量收集美团网全国商家的数据呢?
在爬行过程中,我们可以先抓取所有城市数据。
查看页面代码时发现很有规律,所以很容易抓取:
将城市数据保存到txt文件中,然后先获取分类信息:
当获取这些数据时,它们被用来拼接成url链接。由于美团商家的一些数据是用ajax加载的,虽然有办法处理,但是比较麻烦,所以我觉得不用处理ajax加载就可以分类获取区/县、商圈。
然后拼接之前获得的类型,这样我们就可以获得一个商业区的一个小类别,这是一个相对较小的范围,所以没有太多的企业。为了方便下次爬数据,我先保存商家的url,然后进入每个商家获取数据。
获得所有商家的url后,现在是我们的最后一步,但需要注意的是,不同类型的数据页面是不同的,比如酒店。
因此,对于不同的类型,我们需要写不同的分析函数。最后,我们不应该在爬行时追求快速。美团有严格的限制。最好有多个线程,每秒请求一次。然后慢慢地让它跑掉。最后,我跑了两个多星期才跑完全部。
添加上方▲技术, 在线咨询
复制微信号
声明
一、本站原创内容,其版权属于本网站所有。其他媒体、网站或个人转载使用时不得进行商业性的原版原式的转载,也不得歪曲和篡改本网站所发布的内容。如转载须注明文章来源。
二、本网站转载其它媒体作品的目的在于传递更多信息,并不代表本网站赞同其观点和对其真实性负责;如侵犯你的权益请告诉我们立即删除;其他媒体、网站或个人转载使用自负法律责任。
发表评论
2022-06-15 08:36:57回复