位置: IT常识 - 正文

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

编辑:rootadmin
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两: import requests //用于请求网页 import re / ...

推荐整理分享python爬虫入门教程:爬取网页图片(python爬虫入门教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫快速入门,python爬虫全套教程,python爬虫教程,python爬虫:入门+进阶,python爬虫入门教程,python爬虫入门教程pdf,python爬虫教程,python爬虫入门教程pdf,内容如对您有帮助,希望把文章链接给更多的朋友!

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

import requests //用于请求网页import re //正则表达式,用于解析筛选网页中的信息

其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序首先肯定要通过python访问这个网站,代码如下:headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'

像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)

返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码import requestsimport reimport osimage = '表情包'if not os.path.exists(image): os.mkdir(image)headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)response.encoding = 'GBK'response.encoding = 'utf-8'print(response.request.headers)print(response.status_code)t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'result = re.findall(t, response.text)for img in result: print(img) res = requests.get(img[0]) print(res.status_code) s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif with open(image + '/' + img[1] + '.' + s, mode='wb') as file: file.write(res.content)

最后结果就是这个样子:

本文链接地址:https://www.jiuchutong.com/zhishi/310334.html 转载请保留说明!

上一篇:python包和文件夹有什么区别(python27文件夹)

下一篇:长篇图解etcd核心应用场景及编码实战(etcd4)

  • 视同销售的增值税怎么申报
  • 税收管辖权是什么的重要组成部分
  • 存货的初始计量应以取得存货的实际成本
  • 分公司的税收机关在总公司还是分公司
  • 企业销售使用过的固定资产
  • 公司买车可以抵扣哪些税
  • 境外工资薪金
  • 工会经费税务局怎么收
  • 固定资产进项税额怎么抵扣
  • 出口退税收汇凭证号
  • 递延所得税怎么计提
  • 退还城建税
  • 成本费用调整法
  • 职工食堂租赁费
  • 个体户开劳务费发票需要交哪些税
  • 个体工商户与其经营者构成共同侵权吗
  • 光纤测速网速测试
  • 以报销形式发放的工资 劳动仲裁
  • php中删除文件的函数
  • npscheck.exe - npscheck是什么进程 有什么用
  • launcheflc.exe什么意思
  • 挂靠借用资质账务处理?
  • 账户维护费计入什么会计科目
  • php快速排序原理
  • 车道线检测模型
  • java基础笔试题在线考
  • 命令行修改mbr
  • 收到的免税苗木发票必须当月抵扣么
  • 期末存货资产结存金额
  • 银行罚息是财务收入吗
  • 上个月的留底税这个使用,会计分录
  • 结转个人承担的社保费分录
  • mysql查看创建表代码
  • 企业付给个人工资怎么算
  • 资质平移后以前的工程怎么办
  • 社保代扣代缴的规定
  • 房地产开发公司注册资金要求
  • 超市购销和联营哪个好
  • 银行只收不付解除方式
  • 投资购入房产会亏钱吗
  • 委托代销确认销售收入
  • 跨年成本少结转如何调整
  • 固定资产清理贷方余额是什么意思
  • 技术服务费发票样本
  • 结转已售材料成本6000元
  • 个人无偿赠与不动产税收管理
  • win7清理系统垃圾的方法
  • win8蓝屏代码大全
  • xp系统 win7
  • win2003自动关机
  • 苹果的mac系统
  • brasil.exe是什么进程
  • 怎么在VMware上玩LOL
  • win8无法正常启动你的电脑
  • xp怎么安装iis
  • centos6.10安装教程
  • linux arp -n
  • 邮件版本
  • 微软警告:64位Win7系统或无法安装KB3033929补丁更新
  • win10系统命令大全
  • w10 xbox
  • winxp如何进入bios
  • scureapp.exe - scureapp是什么进程 有什么用
  • fpassist.exe是什么进程 有什么作用 fpassist进程查询
  • pavsrv51.exe - pavsrv51是什么进程 有什么用
  • window10打补丁
  • win7远程桌面连接怎么设置
  • 双win系统怎么删除一个
  • js的getattribute
  • python递归函数详解
  • Errors running builder 'Android Resource Manager' on Project java.lang.NullPointerException
  • js中的函数怎么使用
  • javascript面向对象精要pdf下载
  • jquery mobile app
  • 淄博市税务局投诉电话
  • 铁路货运的费用有哪些
  • 辽宁社保网上申报流程图
  • 海南购房税费最新2019规定
  • 企业资金运转资金投放
  • 云南省国税发票查询真伪查询
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设