位置: IT常识 - 正文

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

编辑:rootadmin
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两: import requests //用于请求网页 import re / ...

推荐整理分享python爬虫入门教程:爬取网页图片(python爬虫入门教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫快速入门,python爬虫全套教程,python爬虫教程,python爬虫:入门+进阶,python爬虫入门教程,python爬虫入门教程pdf,python爬虫教程,python爬虫入门教程pdf,内容如对您有帮助,希望把文章链接给更多的朋友!

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

import requests //用于请求网页import re //正则表达式,用于解析筛选网页中的信息

其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序首先肯定要通过python访问这个网站,代码如下:headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'

像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)

返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码import requestsimport reimport osimage = '表情包'if not os.path.exists(image): os.mkdir(image)headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)response.encoding = 'GBK'response.encoding = 'utf-8'print(response.request.headers)print(response.status_code)t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'result = re.findall(t, response.text)for img in result: print(img) res = requests.get(img[0]) print(res.status_code) s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif with open(image + '/' + img[1] + '.' + s, mode='wb') as file: file.write(res.content)

最后结果就是这个样子:

本文链接地址:https://www.jiuchutong.com/zhishi/310334.html 转载请保留说明!

上一篇:python包和文件夹有什么区别(python27文件夹)

下一篇:长篇图解etcd核心应用场景及编码实战(etcd4)

  • 小米体脂秤2怎么看详细数据(小米体脂秤2怎么连接app)

    小米体脂秤2怎么看详细数据(小米体脂秤2怎么连接app)

  • 微信封面图片如何设置(微信封面图片如何删除)

    微信封面图片如何设置(微信封面图片如何删除)

  • 键盘prtscsysrq是什么意思

    键盘prtscsysrq是什么意思

  • 华为nova6灭屏显示怎么设置(华为nova6灭屏显示在哪里)

    华为nova6灭屏显示怎么设置(华为nova6灭屏显示在哪里)

  • 微信群主暂时无法编辑群公告(微信群主为什么没有权限)

    微信群主暂时无法编辑群公告(微信群主为什么没有权限)

  • 电脑触屏怎么点击右键(电脑触屏怎么点不到)

    电脑触屏怎么点击右键(电脑触屏怎么点不到)

  • 华为手机把天气删除了怎么移回来(华为手机把天气放桌面)

    华为手机把天气删除了怎么移回来(华为手机把天气放桌面)

  • 腾讯会议为什么有回音(腾讯会议为什么只有一个小时)

    腾讯会议为什么有回音(腾讯会议为什么只有一个小时)

  • 淘宝店铺不存在或者已经关闭售后怎么办(淘宝店铺不存在或者店铺已关闭怎么办)

    淘宝店铺不存在或者已经关闭售后怎么办(淘宝店铺不存在或者店铺已关闭怎么办)

  • 快手卡和腾讯王卡区别(快手腾讯王卡好用吗)

    快手卡和腾讯王卡区别(快手腾讯王卡好用吗)

  • 卡贴机打电话呼叫失败(卡贴机打电话呼叫很久)

    卡贴机打电话呼叫失败(卡贴机打电话呼叫很久)

  • ipad2和mini2的区别(ipad2与mini2的区别)

    ipad2和mini2的区别(ipad2与mini2的区别)

  • 电机4极和6极区别(四极电机与六极电机)

    电机4极和6极区别(四极电机与六极电机)

  • 抖音禁封是永久封吗(抖音禁封是永久封可以解除吗)

    抖音禁封是永久封吗(抖音禁封是永久封可以解除吗)

  • 哪个输入法可以把字变成表情包(哪个输入法可以搜索)

    哪个输入法可以把字变成表情包(哪个输入法可以搜索)

  • 快手如何转播别人直播(快手怎么转播别人的直播视频教程)

    快手如何转播别人直播(快手怎么转播别人的直播视频教程)

  • 荣耀9xpro支持快充吗(荣耀x9pro是不是不支持快充)

    荣耀9xpro支持快充吗(荣耀x9pro是不是不支持快充)

  • css和djs区别(css与js的区别)

    css和djs区别(css与js的区别)

  • 抖音上的卡通人怎么弄(抖音上的卡通人头怎么弄的)

    抖音上的卡通人怎么弄(抖音上的卡通人头怎么弄的)

  • 全民k歌动态删除怎么恢复(全民k歌动态删了以后)

    全民k歌动态删除怎么恢复(全民k歌动态删了以后)

  • 小米蓝牙耳机怎么连接电脑(小米蓝牙耳机怎么调音量)

    小米蓝牙耳机怎么连接电脑(小米蓝牙耳机怎么调音量)

  • 飞行模式下别人打电话有记录吗(飞行模式下别人打微信视频)

    飞行模式下别人打电话有记录吗(飞行模式下别人打微信视频)

  • 智联招聘如何撤销简历(智联招聘如何撤销)

    智联招聘如何撤销简历(智联招聘如何撤销)

  • 一般纳税人和小规模纳税人交税区别
  • 租赁费税率3%
  • 土地增值税应纳税额如何计算
  • 营业外收入影响所有者权益吗
  • 在建工程人员工资计入产品成本吗
  • 残疾人就业保障金
  • 预收账款怎么做财务分析报告
  • 成品油认证后要开票怎么做
  • 中药饮片增值税税率
  • 公司单位性质怎样填写
  • 可供出售金融资产计入什么科目
  • 本月完工入库会计分录
  • 监督审核费用会计入账
  • 企业年金税前扣除标准表
  • 营改增后建筑业
  • 建筑业增值税税率由11调整到10
  • 借款利息不能抵扣进项税
  • 企业自用房产出售怎么交税
  • 商业承兑汇票适用于
  • 购进半成品怎样做分录
  • 投资款需要缴纳增值税吗
  • 报销通行费会计分录
  • windows11启动卡在转圈圈
  • 大型机械拆装
  • 手工做账月末怎么结转
  • PHP:mb_convert_kana()的用法_mbstring函数
  • 如何设置路由器步骤要详细
  • pc程序是什么
  • 公允价值计量模式与账面价值计量模式的区别与联系
  • thinkphp curl
  • 完工产品成本怎么分配
  • 事业单位长期应付款怎么核销
  • rgbt目标跟踪
  • 为公司垫付费用,怎么要回
  • 自产商品公司自用算增值税吗
  • 挂靠的项目怎么做账
  • php抓取
  • named命令
  • 公章盖错在旁边加盖正确的说明
  • 发票金额大于付款金额怎么做分录
  • wordpress怎么安装插件
  • mysql随机密码怎么看
  • 房东减免后二房东不减房租
  • 固定资产清理是三栏式还是多栏式
  • 技术使用费所得怎么算
  • sql server 2000数据库不能备份的原因
  • sqlserver2008数据库可疑
  • mysql怎样
  • 工资有社保是什么意思
  • 个税申报工资比实发工资高
  • 职工薪酬包括哪些应如何计算
  • 收回发票会计分录
  • 已付款未收到货怎么办
  • 购买的商品用于什么
  • 会计凭证的填制与审核实训总结
  • 营改增政策解答
  • 年底销项税额和进项税额要转出吗
  • 可供分配利润的计算公式
  • 印花税交多了
  • 恢复mysql数据库
  • mysql导出查询结果sql
  • mysql 5.6.23 winx64.zip安装详细教程
  • 系统32位和64位的区别 Windows系统32位和64位的区别在哪里
  • 设置ubuntu
  • 系统图工具
  • xp直升win7
  • 远程桌面的文件怎么无法复制到本地桌面
  • memory在电脑里是什么意思
  • win10如何彻底关掉自动锁屏
  • Broadcast实现强制下线功能
  • 批处理应用实例
  • jquery拖拽功能
  • python win
  • expect实现单台、多台服务器批量scp传输文件
  • js生成excel文件
  • JavaScript中的this
  • 手机截取电脑屏幕
  • jquery自带的弹出框
  • 退发票操作流程
  • 黄金增值税管理难点
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设