位置: IT常识 - 正文

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

编辑:rootadmin
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两: import requests //用于请求网页 import re / ...

推荐整理分享python爬虫入门教程:爬取网页图片(python爬虫入门教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫快速入门,python爬虫全套教程,python爬虫教程,python爬虫:入门+进阶,python爬虫入门教程,python爬虫入门教程pdf,python爬虫教程,python爬虫入门教程pdf,内容如对您有帮助,希望把文章链接给更多的朋友!

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

import requests //用于请求网页import re //正则表达式,用于解析筛选网页中的信息

其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序首先肯定要通过python访问这个网站,代码如下:headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'

像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)

返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码import requestsimport reimport osimage = '表情包'if not os.path.exists(image): os.mkdir(image)headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)response.encoding = 'GBK'response.encoding = 'utf-8'print(response.request.headers)print(response.status_code)t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'result = re.findall(t, response.text)for img in result: print(img) res = requests.get(img[0]) print(res.status_code) s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif with open(image + '/' + img[1] + '.' + s, mode='wb') as file: file.write(res.content)

最后结果就是这个样子:

本文链接地址:https://www.jiuchutong.com/zhishi/310334.html 转载请保留说明!

上一篇:python包和文件夹有什么区别(python27文件夹)

下一篇:长篇图解etcd核心应用场景及编码实战(etcd4)

  • 税局退个税手续费税率
  • 计算本月所得税税率为25%
  • 租房代收水电费税率
  • 购销合同需要盖合同章吗
  • 成品油红字发票开错了
  • 一般纳税人小微企业印花税优惠政策
  • 现金日记账1月怎么算
  • 无形资产计税基础怎么算
  • 企业不开票的收入会怎么样处理
  • 银行打出的明细清单怎么看不懂
  • 非盈利组织的银行是什么
  • 建筑业异地预缴税款怎么抵扣
  • 增值税普票没有校验码
  • 按年征收的基金有哪些
  • 2020年减免水利基金会计分录
  • 虚开发票可以做进项税额转出分录吗?
  • 小型微利企业所得税减免政策
  • 房地产企业开发成本计入存货
  • 长期股权投资的初始计量
  • 社保不报的情况下保险报销吗
  • 公司账上亏损
  • 出口退税成本核算
  • 法院的诉讼费和保全费怎么算
  • 应交税费重分类分录
  • 设备安装合同预付款比例
  • 外籍人员在境内取得所得在我国应该计征个人所得税
  • 取得高新技术企业
  • 土地溢价的成本包括
  • 鸿蒙系统与安卓对比
  • 外购的形式
  • 鸿蒙系统快捷键
  • 退货红冲发票要收回原发票吗
  • 集团内部调拨账务处理
  • 固定资产进项税额一次性抵扣
  • lnmgr.exe是什么
  • 系统win7旗舰版
  • 长期股权投资初始投资成本和入账价值
  • 栅格布局实现
  • 非合理损耗计入入账成本吗
  • 公司注销账面实收资本如何处理
  • vue3.0项目创建
  • 开具负数发票的流程
  • springmvc常见问题
  • 小规模增值税减征额怎么算
  • python os.path模块
  • 公司租个人房屋交什么税
  • mysql怎么截取字段
  • 无形资产摊销年限
  • 应收账款占比是什么
  • 企业之间支付的管理费指什么
  • sql server安装出现值不能为null
  • 工会费可以发现金吗
  • 个税返还手续费政策
  • 商业汇票的承兑银行必须具备下列条件
  • 购买的车位如何做账
  • 企业所得税征前还是征后
  • 其他应付款冲账分录
  • 应付职工薪酬账户贷方登记的是
  • 工资表里有什么
  • 一件产品在不同场合的价格
  • win10安全系统
  • centos bz
  • solaris更改文件权限
  • windows.h在linux中
  • 电脑图片密码是什么意思
  • 一个mac多重
  • gcf是什么软件的文件
  • win10如何清除系统
  • win10系统预览版
  • win10 预览窗口
  • cocos2d schedule
  • if iferror find
  • Unity3D游戏开发毕业论文
  • python利用数据文件统计成绩
  • JavaScript获取网址之后跳转
  • Nodejs+express+ejs简单使用实例代码
  • node.js怎么创建js文件
  • jqueryfilter
  • 企业跨区域迁移
  • t+怎么取消记账凭证
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设