位置: - 正文

python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python)

编辑：rootadmin

推荐整理分享python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:python爬虫介绍,python爬虫介绍,python 爬虫,python爬虫类,python 爬虫,python爬虫详解,python 爬虫,pythonb爬虫,内容如对您有帮助，希望把文章链接给更多的朋友！

前言：

作为一名从小就看篮球的球迷，会经常逛虎扑篮球及湿乎乎等论坛，在论坛里面会存在很多精美图片，包括NBA球队、CBA明星、花边新闻、球鞋美女等等，如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧！

所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。

运行效果：

源程序主要步骤如下：

1.入口main函数中，在E盘下创建图片文件夹Picture_HP，然后输入图集url，本打算输入tag来进行访问的，因为URL如下：

但是解析URL中文总是错误，故改成输入URL，这不影响大局。同时你可能发现了代码中while循环条件为num<=1，它只执行一次，建议需要下载哪页图集，就赋值URL即可。但是虎扑的不同页链接如下，通过分析URL拼接也是可以实现循环获取所有页的。

2.调用getTitle(rul)函数，通过Selenium和Phantomjs分析HTML的DOM结构，通过find_elements_by_xpath函数获取原图路径URL、图集的主题和图片数量。如图：

通过该函数即可获取每个图集的主题、URL及图片个数，同时根据图集主题创建相应的文件夹，代码中涉及正则表达式获取图片数量，从"共张"到数字""。如图：

3.再调用函数getScript(elem_url, path, nums)，参数分别是图片url、保存路径和图片数量。那么如何获取下一张图片的URL呢？

当通过步骤二爬取了图集URL，如： pic_path + pic_name)下载图片即可。

当然你可能会遇到错误“Error: [Errno ] invalid mode ('wb') or filename”，参考 stackoverflow

总结：

这是一篇讲述Selenium和Python爬取虎扑图集的文章，文章内容算是爬虫里面比较基础的，其中下载的“陈露”图片和网站给出的个图集、张图片一样。同时采用正则后时间估计3分钟左右，很快~当然，虎扑里面的标签很多，足球应该也是类似，只要修改URL即可下载图集，非常之方便。

本文链接地址:https://www.jiuchutong.com/biancheng/372259.html 转载请保留说明！

下一篇链接:https://www.jiuchutong.com/biancheng/372260.html