位置: 编程技术 - 正文
推荐整理分享python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:python爬虫介绍,python爬虫介绍,python 爬虫,python爬虫类,python 爬虫,python爬虫详解,python 爬虫,pythonb爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!
前言:
作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!
所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。
运行效果:
源程序主要步骤如下:
1.入口main函数中,在E盘下创建图片文件夹Picture_HP,然后输入图集url,本打算输入tag来进行访问的,因为URL如下:
但是解析URL中文总是错误,故改成输入URL,这不影响大局。同时你可能发现了代码中while循环条件为num<=1,它只执行一次,建议需要下载哪页图集,就赋值URL即可。但是虎扑的不同页链接如下,通过分析URL拼接也是可以实现循环获取所有页的。
2.调用getTitle(rul)函数,通过Selenium和Phantomjs分析HTML的DOM结构,通过find_elements_by_xpath函数获取原图路径URL、图集的主题和图片数量。如图:
通过该函数即可获取每个图集的主题、URL及图片个数,同时根据图集主题创建相应的文件夹,代码中涉及正则表达式获取图片数量,从"共张"到数字""。如图:
3.再调用函数getScript(elem_url, path, nums),参数分别是图片url、保存路径和图片数量。那么如何获取下一张图片的URL呢?
当通过步骤二爬取了图集URL,如: pic_path + pic_name)下载图片即可。
当然你可能会遇到错误“Error: [Errno ] invalid mode ('wb') or filename”,参考 stackoverflow
总结:
这是一篇讲述Selenium和Python爬取虎扑图集的文章,文章内容算是爬虫里面比较基础的,其中下载的“陈露”图片和网站给出的个图集、张图片一样。同时采用正则后时间估计3分钟左右,很快~当然,虎扑里面的标签很多,足球应该也是类似,只要修改URL即可下载图集,非常之方便。
标签: 爬虫 python
本文链接地址:https://www.jiuchutong.com/biancheng/372259.html 转载请保留说明!友情链接: 武汉网站建设