这里介绍一种简单的方式—BeautifulSoup爬虫工具,利用BeautifulSoup将爬虫获取到的html页面转化为树形结构,然后再根据需要提取标签的内容及属性,不需要正则表达式,下面我简单介绍一下BeautifulSoup安装和使用,实验环境win10+python3.6+pycharm5.0,主要内容如下:
1.安装bs4爬虫工具,这里直接在cmd窗口输入命令“pip install bs4”就行,如下,很快就能安装完毕:2.安装成功后爬虫工具,我们就可以进行测试了,为了更好地说明问题,这里假设爬取的数据如下,内容比较简单:
对应的网页源码结构如下:根据网页结构爬虫工具,解析代码如下,这里我是本地打开html文件,爬虫的话,直接使用requests请求对应的页面(requests.get(url)),解析的方式是一样的:
程序运行截图如下爬虫工具,已经成功获取到数据:至此,我们就完成了利用BeautifulSoup来解析网页内容,整个过程不需要正则表达式爬虫工具。总的来说,这种方式很简单,对于常见的简单的页面来说,完全够用了(不过,正则表达式的使用范围比较广,建议还是认真学习一下),网上也有相关教程和资料,感兴趣的可以搜一下,希望以上分享的内容能对你有所帮助吧。
添加上方▲技术, 在线咨询
复制微信号
声明
一、本站原创内容,其版权属于本网站所有。其他媒体、网站或个人转载使用时不得进行商业性的原版原式的转载,也不得歪曲和篡改本网站所发布的内容。如转载须注明文章来源。
二、本网站转载其它媒体作品的目的在于传递更多信息,并不代表本网站赞同其观点和对其真实性负责;如侵犯你的权益请告诉我们立即删除;其他媒体、网站或个人转载使用自负法律责任。
发表评论
2021-11-23 01:30:59回复