位置: 编程技术 - 正文

python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python)

编辑:rootadmin

推荐整理分享python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫介绍,python爬虫介绍,python 爬虫,python爬虫类,python 爬虫,python爬虫详解,python 爬虫,pythonb爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

前言:

作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!

所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。

运行效果:

源程序主要步骤如下:

1.入口main函数中,在E盘下创建图片文件夹Picture_HP,然后输入图集url,本打算输入tag来进行访问的,因为URL如下:

但是解析URL中文总是错误,故改成输入URL,这不影响大局。同时你可能发现了代码中while循环条件为num<=1,它只执行一次,建议需要下载哪页图集,就赋值URL即可。但是虎扑的不同页链接如下,通过分析URL拼接也是可以实现循环获取所有页的。

python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python)

2.调用getTitle(rul)函数,通过Selenium和Phantomjs分析HTML的DOM结构,通过find_elements_by_xpath函数获取原图路径URL、图集的主题和图片数量。如图:

通过该函数即可获取每个图集的主题、URL及图片个数,同时根据图集主题创建相应的文件夹,代码中涉及正则表达式获取图片数量,从"共张"到数字""。如图:

3.再调用函数getScript(elem_url, path, nums),参数分别是图片url、保存路径和图片数量。那么如何获取下一张图片的URL呢?

当通过步骤二爬取了图集URL,如: pic_path + pic_name)下载图片即可。

当然你可能会遇到错误“Error: [Errno ] invalid mode ('wb') or filename”,参考 stackoverflow

总结:

这是一篇讲述Selenium和Python爬取虎扑图集的文章,文章内容算是爬虫里面比较基础的,其中下载的“陈露”图片和网站给出的个图集、张图片一样。同时采用正则后时间估计3分钟左右,很快~当然,虎扑里面的标签很多,足球应该也是类似,只要修改URL即可下载图集,非常之方便。

标签: 爬虫 python

本文链接地址:https://www.jiuchutong.com/biancheng/372259.html 转载请保留说明!

上一篇:给你选择Python语言实现机器学习算法的三大理由(python让用户选择)

下一篇:Python set常用操作函数集锦(python里的set)

  • 申报个税后发生扣工资
  • 一次性医用外科口罩哪个牌子好
  • 怎么添加临时办社保卡
  • 计提所得税比实际缴纳的少
  • 财政的税收
  • 翻唱歌曲发行时怎么把原唱名字改了
  • 个体工商户怎么变更法人
  • 无形资产开发阶段
  • 申报个税人员金额一般
  • 本年利润借方专栏有什么
  • 强制解除财务负责人
  • 固定资产报废的会计科目
  • 农产品增值税进项税额核定扣除办法
  • 堤围防护费什么时候停止征收
  • 将债务转为资本会引起负债总额发生变动吗
  • 营改增后接受实物投资是否需要缴纳增值税?
  • 营改增后小规模纳税人
  • 财产税放在哪个科目
  • 民办非企业是否可以出资设立公司
  • 加盟费怎么算的
  • 竹笋属于什么税目类别
  • 分类所得申报要申报吗
  • 记账凭证按照填列方式的分类包括
  • 现金日记账对方科目是什么意思
  • 退休返聘人员工伤怎么赔偿
  • 工程承包付款最佳方式
  • 固定资产入账的方式
  • bios设置定时重启
  • ipados15 支持机型
  • 讨论:利息与贴息的关系?
  • 材料按计划成本计价下,外购材料结算
  • 月末库存商品怎么记账
  • 质押的应收票据怎么做账
  • linux版笔记本什么意思
  • 购买电脑应该怎么做账
  • 企业从政府取得的经济资源均应当
  • 加班餐费税前扣除问题
  • win11多开
  • 如何在 Windows 11 上更改锁屏壁纸
  • scureapp.exe - scureapp是什么进程 有什么用
  • 简易计税方法的适用主体有
  • 进项税额是
  • 总结一些php中好用的软件
  • 融资租赁售后回租账务处理
  • 金融资产减值损益怎么算
  • softag
  • 威尔士黄水仙
  • 开源代码网站github
  • 一阶段目标检测算法
  • 身份证校验python代码
  • 外聘人员怎么申报个税
  • 装修费用一次性计入成本
  • 长期待摊费用的账务处理
  • 预付账款和挂账的区别
  • 增值税加计扣除计入什么科目
  • 无偿受让股权是利好吗
  • 折旧费和折旧额的区别
  • 获取sqlsession
  • 破产企业资产拍卖后,管理人仅办理产权登记未交付房屋
  • 营业利润为负数表示什么
  • 叉车累计折旧如何结转
  • 残保金什么时候截止
  • ubuntu有线正在连接
  • 苹果MAC电脑怎么砸壳应用app
  • windows显示缩略图
  • windowsxp怎么装windows7
  • winxp如何打开控制面板
  • win8 桌面图标
  • 验证win10
  • python基本用法
  • 关于javascript函数
  • 隐藏磁盘空间
  • css怎么设置表单居中
  • python爬虫全套教程
  • js数组如何定义
  • 安卓wifi已连接不可上网设置
  • javascript的弹窗
  • python读写文件wr
  • jquery mobile怎么样
  • 江苏省国税务局严三国
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设