位置: IT常识 - 正文

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

编辑:rootadmin
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两: import requests //用于请求网页 import re / ...

推荐整理分享python爬虫入门教程:爬取网页图片(python爬虫入门教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫快速入门,python爬虫全套教程,python爬虫教程,python爬虫:入门+进阶,python爬虫入门教程,python爬虫入门教程pdf,python爬虫教程,python爬虫入门教程pdf,内容如对您有帮助,希望把文章链接给更多的朋友!

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

import requests //用于请求网页import re //正则表达式,用于解析筛选网页中的信息

其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序首先肯定要通过python访问这个网站,代码如下:headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'

像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)

返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码import requestsimport reimport osimage = '表情包'if not os.path.exists(image): os.mkdir(image)headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)response.encoding = 'GBK'response.encoding = 'utf-8'print(response.request.headers)print(response.status_code)t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'result = re.findall(t, response.text)for img in result: print(img) res = requests.get(img[0]) print(res.status_code) s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif with open(image + '/' + img[1] + '.' + s, mode='wb') as file: file.write(res.content)

最后结果就是这个样子:

本文链接地址:https://www.jiuchutong.com/zhishi/310334.html 转载请保留说明!

上一篇:python包和文件夹有什么区别(python27文件夹)

下一篇:长篇图解etcd核心应用场景及编码实战(etcd4)

  • R17外屏玻璃碎了(r17pro换外屏视频)

    R17外屏玻璃碎了(r17pro换外屏视频)

  • 相册完全删除的照片怎么找回(相册完全删除的照片在哪)

    相册完全删除的照片怎么找回(相册完全删除的照片在哪)

  • 小米手机下面的三个键怎么设置不见了(小米手机下面的返回键怎么设置出来)

    小米手机下面的三个键怎么设置不见了(小米手机下面的返回键怎么设置出来)

  • 华为990处理器手机有几种型号(华为990处理器手机有几种型号价格)

    华为990处理器手机有几种型号(华为990处理器手机有几种型号价格)

  • 苹果自拍镜像能关闭吗(苹果自拍镜像能调整吗)

    苹果自拍镜像能关闭吗(苹果自拍镜像能调整吗)

  • vivoy85和y85a有什么区别(vivoy85和y85a哪个好)

    vivoy85和y85a有什么区别(vivoy85和y85a哪个好)

  • app在手机桌面不显示(app手机桌面不显示了怎么办 iphone)

    app在手机桌面不显示(app手机桌面不显示了怎么办 iphone)

  • 苹果手机拍的照片为什么会动(苹果手机拍的照片为什么会动一下)

    苹果手机拍的照片为什么会动(苹果手机拍的照片为什么会动一下)

  • 电话一直无人接听有什么情况(电话通没人接怎么能找到人)

    电话一直无人接听有什么情况(电话通没人接怎么能找到人)

  • 允许后台运行怎么设置

    允许后台运行怎么设置

  • 华为手机屏幕时间延长(华为手机屏幕时间不见了怎么弄回来)

    华为手机屏幕时间延长(华为手机屏幕时间不见了怎么弄回来)

  • 手机音量调到最大声音却很小(手机音量调到最小蓝牙耳机还是很大声)

    手机音量调到最大声音却很小(手机音量调到最小蓝牙耳机还是很大声)

  • 抖音身份证姓名解绑(抖音身份证姓名怎么更改)

    抖音身份证姓名解绑(抖音身份证姓名怎么更改)

  • 苹果手机照片怎么传到另一个安卓手机(苹果手机照片怎么传到另一个手机)

    苹果手机照片怎么传到另一个安卓手机(苹果手机照片怎么传到另一个手机)

  • wps怎么变成文本格式(wps怎么改成文本格式)

    wps怎么变成文本格式(wps怎么改成文本格式)

  • tof3d立体摄像头有什么用(tof3d摄像头有什么用)

    tof3d立体摄像头有什么用(tof3d摄像头有什么用)

  • 爱奇艺如何注销手机号(爱奇艺如何注销微信账号)

    爱奇艺如何注销手机号(爱奇艺如何注销微信账号)

  • 手机怎么远程控制手机(手机怎么远程控制汽车打火)

    手机怎么远程控制手机(手机怎么远程控制汽车打火)

  • iphonex的nfc功能在哪(iphonex的nfc功能怎么开启)

    iphonex的nfc功能在哪(iphonex的nfc功能怎么开启)

  • 一加7pro没有耳机孔怎么听歌(一加7为什么没有耳机插口)

    一加7pro没有耳机孔怎么听歌(一加7为什么没有耳机插口)

  • 微信收藏语音转发不了(微信收藏语音转成笔记不能播放)

    微信收藏语音转发不了(微信收藏语音转成笔记不能播放)

  • 电脑屏幕红色什么原因(电脑屏幕显示红色)

    电脑屏幕红色什么原因(电脑屏幕显示红色)

  • 液晶显示器容易出现故障的部件(液晶显示器容易坏点)

    液晶显示器容易出现故障的部件(液晶显示器容易坏点)

  • 以房抵债的房子交房产税吗
  • 一般纳税人公账转法人私账
  • 税收分类方法表格
  • 公司注销后账本怎么处理
  • 股份公司解散是什么?
  • 如何解除委托合同范文
  • 季度盈利可以弥补以用以前年度亏损弥补
  • 装饰设计事务所平面图
  • 记账凭证账务处理程序步骤
  • 月末在产品和产成品计算
  • 股东退股可以支付现金吗
  • 营改增之后有了利息收入核算税费?
  • 什么是股息红利扣税
  • 企业如何处理
  • 网络招聘合同
  • 公司账上的存货是怎么来的
  • 退役士兵税收优惠政策
  • 存货跌价准备转销账务处理
  • 集团内部资金借贷制度
  • 账务中如何把短期借款转变为实收资本?
  • 三金一费包括哪些
  • win10家庭最新版本
  • 固定资产清理是什么项目
  • 税金及附加包括个人所得税吗
  • 微信公众号开发php源码
  • 微软win11预览版
  • PHP:apache_get_modules()的用法_Apache函数
  • 销售折扣的税票怎么开
  • 交易性金融资产的账务处理
  • 公司培训赔偿
  • 金融保险业的营业税率为
  • vue的watch不生效
  • 供热企业的税收分类编码
  • 补缴税款可以分期缴纳吗
  • 什么是收付实现制?什么是权责发生制?
  • 专利代理服务费计入什么科目
  • php数组的类型有哪些
  • 商业预付卡可以报销吗
  • 小规模场地租赁费税率是1还是5
  • node最新版本
  • 超参数有哪些调优方法
  • 现金折扣账务处理
  • 汇兑损益会计处理方法
  • 支付贷款利息属于筹资活动吗
  • php是免费的吗
  • 仓库折旧会计分录
  • mysql事务引擎
  • 农机销售免税政策
  • 资产总额是指营业收入和营业支出吗
  • 小规模纳税人购买税控设备
  • 砖厂会计账务处理流程图
  • 现金回收率怎么计算
  • 融资租赁与按揭的区别
  • 作废的金额包含在总额里面吗
  • 应收账款周转率越高越好吗
  • 报销差旅费属于付款凭证还是收款凭证
  • ubuntu中怎么安装vscode
  • win8系统任务栏怎么隐藏
  • mac蓝牙连接iphone有什么用
  • 高危禁止安装怎么解除
  • centos如何更新内核
  • centos如何设置ip
  • centos 离线安装git
  • window7 aero
  • ubuntu系统电脑开机键盘亮 屏幕不亮
  • linux的tar命令用法
  • ibm文件是什么意思
  • 如何修改注册表值
  • Serv-U 构建个人FTP服务器图解
  • win7系统电脑无声音
  • javascript数据结构
  • perl语言基本命令
  • 幼儿园放鞭炮
  • jQuery animate easing使用方法图文详解
  • 全国低保查询系统网站
  • 税务认证系统如何操作
  • 医保报销是按自然年计算吗
  • 上缴财政总额是什么意思
  • 开票时间超时怎么办
  • 白酒消费税怎么计算
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设