位置: 编程技术 - 正文

python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python)

编辑:rootadmin

推荐整理分享python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫介绍,python爬虫介绍,python 爬虫,python爬虫类,python 爬虫,python爬虫详解,python 爬虫,pythonb爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

前言:

作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!

所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。

运行效果:

源程序主要步骤如下:

1.入口main函数中,在E盘下创建图片文件夹Picture_HP,然后输入图集url,本打算输入tag来进行访问的,因为URL如下:

但是解析URL中文总是错误,故改成输入URL,这不影响大局。同时你可能发现了代码中while循环条件为num<=1,它只执行一次,建议需要下载哪页图集,就赋值URL即可。但是虎扑的不同页链接如下,通过分析URL拼接也是可以实现循环获取所有页的。

python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python)

2.调用getTitle(rul)函数,通过Selenium和Phantomjs分析HTML的DOM结构,通过find_elements_by_xpath函数获取原图路径URL、图集的主题和图片数量。如图:

通过该函数即可获取每个图集的主题、URL及图片个数,同时根据图集主题创建相应的文件夹,代码中涉及正则表达式获取图片数量,从"共张"到数字""。如图:

3.再调用函数getScript(elem_url, path, nums),参数分别是图片url、保存路径和图片数量。那么如何获取下一张图片的URL呢?

当通过步骤二爬取了图集URL,如: pic_path + pic_name)下载图片即可。

当然你可能会遇到错误“Error: [Errno ] invalid mode ('wb') or filename”,参考 stackoverflow

总结:

这是一篇讲述Selenium和Python爬取虎扑图集的文章,文章内容算是爬虫里面比较基础的,其中下载的“陈露”图片和网站给出的个图集、张图片一样。同时采用正则后时间估计3分钟左右,很快~当然,虎扑里面的标签很多,足球应该也是类似,只要修改URL即可下载图集,非常之方便。

标签: 爬虫 python

本文链接地址:https://www.jiuchutong.com/biancheng/372259.html 转载请保留说明!

上一篇:给你选择Python语言实现机器学习算法的三大理由(python让用户选择)

下一篇:Python set常用操作函数集锦(python里的set)

  • 增值税小规模纳税人免征增值税政策
  • 网上代增值税专用发票流程
  • 小规模企业增值税减免政策
  • 增值税销项税额和进项税额
  • 初次购买金税盘一般多少钱
  • 资产负债表怎么填
  • 二房东开发票交多少税
  • 管理费里面可以取现金吗
  • 增值税纳税义务发生时间
  • 招待费税前扣除是什么意思
  • 开了专票不报销犯法吗
  • 不得抵扣啥意思
  • 私对私转账是否缴纳个人所得税
  • 最新定额是哪年
  • 外购的货物用于集体福利企业所得税
  • 跨期做账如何处理当事人
  • 大额转账人行审核通过
  • 税务稽查补缴增值税税款的账务处理
  • 华为手机蓝牙传送照片到苹果手机
  • 联想电脑bios启动项设置方法
  • 送积分怎么做账
  • 简易计税的方式
  • 财务报表包括哪几个表
  • 小微企业可以享受六税两费吗
  • 公司招的兼职员工怎么报个税
  • 公司入股的钱怎么做账
  • 苹果发布首款MR头显
  • win10任务视图怎么用
  • 企业清算剩余财产分配是否交个人所得税
  • newsupd.exe - newsupd是什么进程 有什么用
  • netsurf.exe - netsurf是什么进程 有什么用
  • 进口付汇业务流程
  • 股权换股权会计分录
  • php time
  • 制造企业的印花税税率
  • 债务重组利得计入其他收益还是营业外收入
  • php分层
  • ps怎么把图片套入样机快捷键
  • 一般纳税人注销税务流程
  • Ficstar Software � Web Data Extraction Tools
  • 财务费用在贷方,怎么结转到本年利润?
  • 工业总产值和收入产值哪个大
  • 什么是指企业的所有部门彼此协调为顾客服务
  • 资产负债表的编制原理
  • 事业单位收到专票的风险
  • 生产成本帐
  • 个人独资企业是小规模纳税人吗
  • 公司开发新产品的建议
  • 扇贝的储存方式
  • 开出咨询费发票应该注册什么企业?
  • 失控发票已补交什么意思
  • 员工工资怎么入账
  • 在建工程工伤保险延期费用计算
  • 长期股权投资收回账务处理
  • 委托加工业务的财务职责
  • 不动产租赁行业代码
  • 低值易耗品的金额
  • 票据质押如何做账
  • 应收应付的意思
  • linux系统安装yum
  • 硬盘 linux
  • win8 start menu
  • win10蓝屏出现错误
  • xp系统怎么删除应用程序
  • macpro教程
  • win7系统有自带的杀毒软件吗
  • cocos creator 碰撞检测
  • css filter blur
  • nodejs搭建本地服务器运行html
  • node.js网站
  • hashmap详细讲解
  • cocos2dx4.0入门
  • JavaScript中的this指向
  • unity toggle切换状态
  • 上海税务网上报税
  • 个人所得税如何办理退税
  • 不想订亲
  • 郑州地方税务局网站官网
  • 云南省昆明市税收优惠政策
  • 二手车中介公司怎么做账报税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设