位置: 编程技术 - 正文

python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python)

编辑:rootadmin

推荐整理分享python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫介绍,python爬虫介绍,python 爬虫,python爬虫类,python 爬虫,python爬虫详解,python 爬虫,pythonb爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

前言:

作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!

所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。

运行效果:

源程序主要步骤如下:

1.入口main函数中,在E盘下创建图片文件夹Picture_HP,然后输入图集url,本打算输入tag来进行访问的,因为URL如下:

但是解析URL中文总是错误,故改成输入URL,这不影响大局。同时你可能发现了代码中while循环条件为num<=1,它只执行一次,建议需要下载哪页图集,就赋值URL即可。但是虎扑的不同页链接如下,通过分析URL拼接也是可以实现循环获取所有页的。

python爬虫系列Selenium定向爬取虎扑篮球图片详解(爬虫 python)

2.调用getTitle(rul)函数,通过Selenium和Phantomjs分析HTML的DOM结构,通过find_elements_by_xpath函数获取原图路径URL、图集的主题和图片数量。如图:

通过该函数即可获取每个图集的主题、URL及图片个数,同时根据图集主题创建相应的文件夹,代码中涉及正则表达式获取图片数量,从"共张"到数字""。如图:

3.再调用函数getScript(elem_url, path, nums),参数分别是图片url、保存路径和图片数量。那么如何获取下一张图片的URL呢?

当通过步骤二爬取了图集URL,如: pic_path + pic_name)下载图片即可。

当然你可能会遇到错误“Error: [Errno ] invalid mode ('wb') or filename”,参考 stackoverflow

总结:

这是一篇讲述Selenium和Python爬取虎扑图集的文章,文章内容算是爬虫里面比较基础的,其中下载的“陈露”图片和网站给出的个图集、张图片一样。同时采用正则后时间估计3分钟左右,很快~当然,虎扑里面的标签很多,足球应该也是类似,只要修改URL即可下载图集,非常之方便。

标签: 爬虫 python

本文链接地址:https://www.jiuchutong.com/biancheng/372259.html 转载请保留说明!

上一篇:给你选择Python语言实现机器学习算法的三大理由(python让用户选择)

下一篇:Python set常用操作函数集锦(python里的set)

  • 进货增值税税率
  • 需要考虑的税务问题
  • 印花税是什么时候交的钱
  • 材料入库的会计分录材料采购损失
  • 公司的货款直接到账吗
  • 加计抵减进项税转出需要调减吗
  • 基本户零流水如何处理
  • 五联发票一般用于哪种单位
  • 系统集成 税点
  • 水资源税怎么入账
  • 餐饮企业销售外购食品 增值税税率cpa
  • 增值税即征即退政策适用范围
  • 电子银行承兑汇票已承兑已锁定
  • 划转税务的非税收入2023
  • 关于转让费的问题
  • 分配利润顺序
  • 营改增之后的增值税
  • 领钱签字表格模板图片
  • 纳税人跨县(市、区)是指
  • 期末结转生产成本会计分录
  • 实验设备折旧率
  • 小规模季报都报哪些税种
  • 连续亏损二年怎么处理
  • 个体工商税务登记需要费用
  • 桌面图标被篡改怎么办
  • 建筑公司合作模式有哪几种
  • vue获取本地文件生成流
  • 让劳务公司代发工资
  • 进价金额核算法的账务处理特点
  • window7无法正常启动怎么办
  • vue适配pc
  • php框架yii
  • win11系统自动更新
  • sql批量替换值
  • phpcms验证码不显示
  • 织梦cms官网
  • 稽查补缴税款会计处理
  • 销售收入未开票
  • 小企业会计准则适用于哪些企业
  • 合营企业和联营企业的概念
  • 开发无形资产过程中发生的支出计入什么科目
  • 购买研发设备的发票可以申报创新券吗?
  • 对公账户是怎样的
  • 计提福利费的会计分录
  • 应付账款调整科目余额分录
  • 申报过的印花税在哪查询呢
  • 暂估商品会计分录
  • 个人购买股权和公司购买股权比较
  • 卸车费属于什么费用类别
  • 简易征收计算企业所得税怎么算
  • 当月发票未到怎么做账
  • 已经开了发票需要退款怎么处理?
  • 年数总和法和双倍余额递减法的公式
  • 盈余公积金计算方法
  • 会计工作移交的时候需要有谁在场
  • macos怎么切换桌面
  • 如何win8.1升级win10正式版
  • linux远程界面
  • win10系统电脑无法开机怎么办
  • windows窗口跑到了侧面
  • windows 10为什么不能关掉自动更新
  • win1020h2累积更新
  • 2015年win10共发布135个安全补丁 创历年之最
  • linux命令文件移动并改名
  • js call.call
  • jquery 瀑布流
  • 环境篇-幸福家庭是孩子心灵健康的关键.mp3
  • linux bash shell
  • linux系统mysql自动备份并使用ftp上传的方法
  • js如何创建类
  • jquery的动画效果
  • 简述javascript的常用控制结构
  • W3C Group的JavaScript1.8 新特性介绍
  • 猫的游戏视频
  • python提取html内容
  • js怎么定义类
  • 在css中
  • 国税总局河南省税务局官网
  • 印花税核算有两种情况,是如何处理的?
  • 新四板企业哪里可以查询
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设