python爬虫有多少种方式？只会最简单的正则表达式，还有其他什么工具吗？

idm.org.cn 行业资讯 2021-11-27 857 1

这里介绍一种简单的方式—BeautifulSoup爬虫工具，利用BeautifulSoup将爬虫获取到的html页面转化为树形结构，然后再根据需要提取标签的内容及属性，不需要正则表达式，下面我简单介绍一下BeautifulSoup安装和使用，实验环境win10+python3.6+pycharm5.0，主要内容如下：

1.安装bs4爬虫工具，这里直接在cmd窗口输入命令“pip install bs4”就行，如下，很快就能安装完毕：2.安装成功后爬虫工具，我们就可以进行测试了，为了更好地说明问题，这里假设爬取的数据如下，内容比较简单：

python爬虫有多少种方式？只会最简单的正则表达式，还有其他什么工具吗？第1张

对应的网页源码结构如下：根据网页结构爬虫工具，解析代码如下，这里我是本地打开html文件，爬虫的话，直接使用requests请求对应的页面（requests.get(url)），解析的方式是一样的：

程序运行截图如下爬虫工具，已经成功获取到数据：至此，我们就完成了利用BeautifulSoup来解析网页内容，整个过程不需要正则表达式爬虫工具。总的来说，这种方式很简单，对于常见的简单的页面来说，完全够用了（不过，正则表达式的使用范围比较广，建议还是认真学习一下），网上也有相关教程和资料，感兴趣的可以搜一下，希望以上分享的内容能对你有所帮助吧。