位置: IT常识 - 正文

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

编辑:rootadmin
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两: import requests //用于请求网页 import re / ...

推荐整理分享python爬虫入门教程:爬取网页图片(python爬虫入门教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫快速入门,python爬虫全套教程,python爬虫教程,python爬虫:入门+进阶,python爬虫入门教程,python爬虫入门教程pdf,python爬虫教程,python爬虫入门教程pdf,内容如对您有帮助,希望把文章链接给更多的朋友!

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

import requests //用于请求网页import re //正则表达式,用于解析筛选网页中的信息

其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序首先肯定要通过python访问这个网站,代码如下:headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'

像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)

返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码import requestsimport reimport osimage = '表情包'if not os.path.exists(image): os.mkdir(image)headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)response.encoding = 'GBK'response.encoding = 'utf-8'print(response.request.headers)print(response.status_code)t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'result = re.findall(t, response.text)for img in result: print(img) res = requests.get(img[0]) print(res.status_code) s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif with open(image + '/' + img[1] + '.' + s, mode='wb') as file: file.write(res.content)

最后结果就是这个样子:

本文链接地址:https://www.jiuchutong.com/zhishi/310334.html 转载请保留说明!

上一篇:python包和文件夹有什么区别(python27文件夹)

下一篇:长篇图解etcd核心应用场景及编码实战(etcd4)

  • 苹果怎么取消自动续费订阅(苹果怎么取消自动补位)

    苹果怎么取消自动续费订阅(苹果怎么取消自动补位)

  • 安卓微信深夜模式怎么开(安卓手机微信深夜模式怎么打开)

    安卓微信深夜模式怎么开(安卓手机微信深夜模式怎么打开)

  • 360电话手表开不了机是怎么回事(360电话手表开不了机是什么原因)

    360电话手表开不了机是怎么回事(360电话手表开不了机是什么原因)

  • 苹果xr开机怎么这么慢(苹果XR开机怎么会跳出来要ID密码)

    苹果xr开机怎么这么慢(苹果XR开机怎么会跳出来要ID密码)

  • 抖音视频下载权限怎么打开(抖音视频下载权限破解)

    抖音视频下载权限怎么打开(抖音视频下载权限破解)

  • 苹果微信有办法美颜吗(苹果微信有办法开美颜视频功能吗)

    苹果微信有办法美颜吗(苹果微信有办法开美颜视频功能吗)

  • 联通5g升级包什么意思(联通5g升级包有啥用)

    联通5g升级包什么意思(联通5g升级包有啥用)

  • 微信不符合辅助要求是什么意思(微信不符合辅助验证)

    微信不符合辅助要求是什么意思(微信不符合辅助验证)

  • 手机主卡和副卡有什么区别吗(手机主卡和副卡是什么关系)

    手机主卡和副卡有什么区别吗(手机主卡和副卡是什么关系)

  • 阿里巴巴确认收货多久到账(阿里巴巴确认收货为什么还要支付密码)

    阿里巴巴确认收货多久到账(阿里巴巴确认收货为什么还要支付密码)

  • iphone11镜头需要贴膜吗(苹果11镜头需要保护吗)

    iphone11镜头需要贴膜吗(苹果11镜头需要保护吗)

  •  iphone5s能用移动4g吗(苹果5移动手机可以用电信卡吗)

    iphone5s能用移动4g吗(苹果5移动手机可以用电信卡吗)

  • 淘宝收货时间是多久(淘宝收货是从发货开始算还是签收开始算)

    淘宝收货时间是多久(淘宝收货是从发货开始算还是签收开始算)

  • 怎样把音乐下载到u盘里(怎样把音乐下载到文件夹中)

    怎样把音乐下载到u盘里(怎样把音乐下载到文件夹中)

  • vivo反向充电什么意思(反向充电vivos7)

    vivo反向充电什么意思(反向充电vivos7)

  • vivo怎么用无线beats(vivo怎么用无线耳机)

    vivo怎么用无线beats(vivo怎么用无线耳机)

  • 蓝屏代码7b怎么修复(蓝屏代码7e)

    蓝屏代码7b怎么修复(蓝屏代码7e)

  • 滴滴没单子原地等吗(滴滴没单子的时候怎么办)

    滴滴没单子原地等吗(滴滴没单子的时候怎么办)

  • 播放器下载的视频怎么保存到本地(播放器下载的视频在手机哪个位置)

    播放器下载的视频怎么保存到本地(播放器下载的视频在手机哪个位置)

  • 苹果手机备份怎么删除(苹果的手机备份)

    苹果手机备份怎么删除(苹果的手机备份)

  • 微博怎么看关注时间(微博怎么看关注时间多久)

    微博怎么看关注时间(微博怎么看关注时间多久)

  • 微博一个手机号可以绑定几个账号(微博一个手机号可以注册几个小号)

    微博一个手机号可以绑定几个账号(微博一个手机号可以注册几个小号)

  • 抖音转发别人的视频怎么删除(抖音转发别人的视频怎么变小了)

    抖音转发别人的视频怎么删除(抖音转发别人的视频怎么变小了)

  • 苹果max有单卡的嘛(苹果max双卡可以使用两张电信卡吗)

    苹果max有单卡的嘛(苹果max双卡可以使用两张电信卡吗)

  • 小米手机分身弊端(小米手机分身对手机有影响吗)

    小米手机分身弊端(小米手机分身对手机有影响吗)

  • ipad无线连接投影仪(苹果ipad无线投屏在哪里)

    ipad无线连接投影仪(苹果ipad无线投屏在哪里)

  • 一些Mac OS X技巧(mac小技巧)

    一些Mac OS X技巧(mac小技巧)

  • Win11 Beta 预览版 Build 22621.1610/22624.1610今日发布(附KB5025299更新内容汇总)(win11预览版22000.51)

    Win11 Beta 预览版 Build 22621.1610/22624.1610今日发布(附KB5025299更新内容汇总)(win11预览版22000.51)

  • 印花税的计税依据为各种应税凭证上所记载的计税金额
  • 环保税申报表怎么填制
  • 待认证进项税额认证以后怎么做分录
  • 为什么纳税申报
  • 城市维护建设税是什么意思
  • 企业隐藏收入会受怎样处罚
  • 上交的项目评审费如何做财务处理呢?
  • 完工绿化苗木怎样结转成本?
  • 以固定资产出资设立企业
  • 异地存款手续费2022最新规定
  • 给员工发结婚礼金怎么说
  • 少缴纳社保怎么要求支付赔偿金
  • 服务费返还
  • 出差补贴费
  • 纳税人提供植物养护服务按照什么服务缴纳增值税
  • 税控盘续费会计分录怎么做
  • 出口退税申报显示疑点跳过可以转正式申报吗
  • 个人机械租赁费税率
  • 实收资本印花税最新规定
  • 国税退税怎么做账
  • 财务部门固定资产修理费计入什么科目
  • 销售技巧培训课程
  • 金税盘上传参数测试连接失败
  • 往来款和应收账款
  • iphone手机怎么把电话号码转到sim
  • 开启浏览器模式
  • 如何冲回以前年度账户
  • window10切换win7
  • 银行手续费发票税率
  • php数组函数题目
  • typecho插件开发教程
  • Win11如何关闭屏保上的广告
  • 冲减其他应收款摘要怎么写
  • php图片叠加
  • 利润分配的账务处理如何做
  • vue使用jquery
  • php十进制转二进制算法
  • chrome浏览器快捷方式
  • 如何判断公众号是否可靠
  • 企业的存货采用计划成本核算的,在资产负债表日
  • 户外电源需要要充电吗
  • 轮播图效果用css怎么实现
  • php和python结合
  • 残障金什么时候开始交
  • 可以抵扣土地增值税的项目
  • 发票勾选认证具体流程
  • 现金流量表里的其他指的是什么
  • 当月销售次月开票就按次月申报
  • 企业没有研发费用怎么做账
  • 我们买得起一辆新车吗?英文
  • notepad+v
  • 印花税核定征收比例取消了吗
  • 所得税汇算清缴账务处理
  • 公司注销单位公积金账户余额怎么处理
  • CentOS 7下MySQL服务启动失败的快速解决方法
  • mysql 局域网访问权限
  • 金税四期对纳税人的影响有哪些
  • 缴增值税的账务处理
  • 基本生产成本核算的内容
  • 公司给员工租的房子计入什么科目
  • 实收资本账务处理流程
  • 进项税有余额在报表如何反应
  • 信用减值损失是负数是什么意思
  • 高新技术企业外债便利化额度试点重庆
  • 固定资产正常报废与非正常报废的会计处理基本相同
  • 固定资产管理台账管理制度
  • win10系统玩游戏卡
  • win10设置回收站位置
  • windows8笔记本电脑
  • sendmail邮件服务器
  • 项目部不足和改进
  • Cocos2d唯一死敌的崛起,OGEngine来了
  • [android] android开发中常用的Eclipse快捷键
  • jquery触发点击事件click
  • Android---41---Service简介
  • 安卓app控件
  • js判断手机访问还是电脑访问
  • 深圳国税电子税务局网上办税服务厅
  • 合格的税务人
  • 税务怎么报停
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设