位置: 编程技术 - 正文

python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python)

编辑:rootadmin

推荐整理分享python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫介绍,python爬虫介绍,python 爬虫,python爬虫类,python 爬虫,python爬虫详解,python 爬虫,pythonb爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

前言:

作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!

所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。

运行效果:

源程序主要步骤如下:

1.入口main函数中,在E盘下创建图片文件夹Picture_HP,然后输入图集url,本打算输入tag来进行访问的,因为URL如下:

但是解析URL中文总是错误,故改成输入URL,这不影响大局。同时你可能发现了代码中while循环条件为num<=1,它只执行一次,建议需要下载哪页图集,就赋值URL即可。但是虎扑的不同页链接如下,通过分析URL拼接也是可以实现循环获取所有页的。

python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python)

2.调用getTitle(rul)函数,通过Selenium和Phantomjs分析HTML的DOM结构,通过find_elements_by_xpath函数获取原图路径URL、图集的主题和图片数量。如图:

通过该函数即可获取每个图集的主题、URL及图片个数,同时根据图集主题创建相应的文件夹,代码中涉及正则表达式获取图片数量,从"共张"到数字""。如图:

3.再调用函数getScript(elem_url, path, nums),参数分别是图片url、保存路径和图片数量。那么如何获取下一张图片的URL呢?

当通过步骤二爬取了图集URL,如: pic_path + pic_name)下载图片即可。

当然你可能会遇到错误“Error: [Errno ] invalid mode ('wb') or filename”,参考 stackoverflow

总结:

这是一篇讲述Selenium和Python爬取虎扑图集的文章,文章内容算是爬虫里面比较基础的,其中下载的“陈露”图片和网站给出的个图集、张图片一样。同时采用正则后时间估计3分钟左右,很快~当然,虎扑里面的标签很多,足球应该也是类似,只要修改URL即可下载图集,非常之方便。

标签: 爬虫 python

本文链接地址:https://www.jiuchutong.com/biancheng/372259.html 转载请保留说明!

上一篇:给你选择Python语言实现机器学习算法的三大理由(python让用户选择)

下一篇:Python set常用操作函数集锦(python里的set)

  • 个税一般劳务报酬所得如何申报
  • 外部奖励与内部奖励
  • 年度应纳税所得额计算公式
  • 怎么控制酒店的设备
  • 固定资产折旧准予扣除是什么意思
  • 非营利组织缴纳社保
  • 油票发票在报销中怎么开
  • 普通发票作废要交税吗
  • 出口的港杂费包括哪些
  • 三方协议缴款账户状态错
  • 财务报表可以补充分类吗
  • 出租房屋确认收入列简易计税还是销项税
  • 股票交易印花税税率
  • 产品成本核算方法体系的内容包括
  • 应纳税调增调减会计分录
  • 企业线上销售的好处
  • 支付平台使用费怎么算
  • 个人增值税业务有哪些?
  • 电梯安装简易征收的优点
  • 稳岗补贴会计怎么做账
  • 有限合伙人公司
  • 报销单大写金额填写格式1000
  • 金融企业贷款损失税前扣除
  • 土地作价入股政策
  • 个体工商户怎么办对公账户
  • 双软企业两免三减半企业所得税优惠政策
  • 受委托研发企业可以享受研发支出吗
  • 资本公积的借方和贷方各表示什么
  • 应收账款期初余额是借还是贷
  • 附加税减免要计税吗
  • 公司买车怎么入户
  • 销售补差是怎么算的
  • PHP:Memcached::prependByKey()的用法_Memcached类
  • 我告诉你win7旗舰版
  • 公司出租房屋怎样开发票的税务局率?
  • 工程物资发生报废损毁
  • Chrome谷歌浏览器官网
  • 大雾山国家公园在哪里
  • php一个页面多个分页
  • 水利建设基金的计税依据及税率
  • 转让技术所有权计入什么科目
  • 盈余公积转增资本的最高限额
  • 有关的拼音
  • 人类记忆存储在哪
  • JavaWeb之Servlet
  • 本期应纳税额是怎么算
  • 工程款发票的数量和单价
  • 支票小写金额前的羊
  • 个人所得税生产经营所得B表
  • 公司向法人借款会计分录
  • 结转制造费用金额
  • 软件信息技术服务业
  • 以前年度损益调整在利润表中怎么填
  • 购买电脑一次性计入费用吗合理吗
  • 工业企业新产品收入的调研报告
  • 购进原材料发生的保险费
  • 当月发生业务下月开票如何做账
  • 外埠存款主要使用范围
  • 进项大于销项月末怎么处理
  • 本年利润月末怎么处理
  • 赔偿给别人的钱还能要回来吗
  • 企业新增的残疾税
  • 小企业如何建立风险管理制度
  • 监控mysql数据变化
  • windows任务管理器怎么打开
  • centos部署tomcat配置
  • find命令支持哪些查找方式
  • ExtJS中设置下拉列表框不可编辑的方法
  • 样式的使用方法
  • jQuery javascript获得网页的高度与宽度的实现代码
  • android指南针源码
  • [置顶]马粥街残酷史
  • unity learn premium
  • javascript语言入门教程
  • unity3d颜色
  • 理解Python中的变量
  • javascript面向对象编程指南 pdf
  • python中lxml模块
  • 东莞地税电话号码
  • 2016年小微企业所得税优惠政策文号
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设