位置: 编程技术 - 正文

python3制作捧腹网段子页爬虫(python制作gui)

编辑:rootadmin

推荐整理分享python3制作捧腹网段子页爬虫(python制作gui),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python做bi,python制作chm,怎么用python制作简单的程序,python 制作,python 制作,python做bi,怎么用python制作简单的程序,怎么用python制作简单的程序,内容如对您有帮助,希望把文章链接给更多的朋友!

0x

春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程。第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便。于是乎就自己照猫画虎,抓了点图片。

科技启迪未来,身为一个程序员,怎么能干这种事呢,还是爬点笑话比较有益于身心健康。

0x

在我们撸起袖子开始搞之前,先来普及点理论知识。

简单地说,我们要把网页上特定位置的内容,扒拉下来,具体怎么扒拉,我们得先分析这个网页,看那块内容是我们需要的。比如,这次爬取的是捧腹网上的笑话,打开 捧腹网段子页我们可以看到一大堆笑话,我们的目的就是获取这些内容。看完回来冷静一下,你这样一直笑,我们没办法写代码。在 chrome 中,我们打开 审查元素 然后一级一级的展开 HTML 标签,或者点击那个小鼠标,定位我们所需要的元素。

最后可以发现 <div> 中的内容就是我们所需要的笑话,在看第二条笑话,也是这样。于是乎,我们就可以把这个网页中所有的 <div> 找到,然后把里边的内容提取出来,就完成了。

0x

好了,现在我们知道我们的目的了,就可以撸起袖子开始干了。这里我用的 python3,关于 python2 和 python3 的选用,大家可以自行决定,功能都可以实现,只是有些许不同。但还是建议用 python3。我们要扒拉下我们需要的内容,首先我们得把这个网页扒拉下来,怎么扒拉呢,这里我们要用到一个库,叫 urllib,我们用这个库提供的方法,来获取整个网页。首先,我们导入 urllib

然后,我们就可以使用 request 来获取网页了,

python3制作捧腹网段子页爬虫(python制作gui)

人生苦短,我用 python,一行代码,下载网页,你说,还有什么理由不用 python。下载完网页后,我们就得解析这个网页了来获取我们所需要的元素。为了解析元素,我们需要使用另外一个工具,叫做 Beautiful Soup,使用它,可以快速解析 HTML 和 XML并获取我们所需要的元素。

用 BeautifulSoup 来解析网页也就一句话,但当你运行代码的时候,会出现这么一个警告,提示要指定一个解析器,不然,可能会在其他平台或者系统上报错。

解析器的种类 和 不同解析器之间的区别 官方文档有详细的说明,目前来说,还是用 lxml 解析比较靠谱。修改之后

这样,就没有上述警告了。

利用 find_all 函数,来找到所有 class = content-img clearfix pt relative 的 div 标签 然后遍历这个数组

这样,我们就取到了目的 div 的内容。至此,我们已经达到了我们的目的,爬到了我们的笑话。但当以同样的方式去爬取糗百的时候,会报这样一个错误

说远端无响应,关闭了链接,看了下网络也没有问题,这是什么情况导致的呢?莫非是我姿势不对?打开 charles 抓包,果然也没反应。唉,这就奇怪了,好好的一个网站,怎么浏览器可以访问,python 无法访问呢,是不是 UA 的问题呢?看了下 charles,发现,利用 urllib 发起的请求,UA 默认是 Python-urllib/3.5 而在 chrome 中访问 UA 则是 User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X __3) AppleWebKit/. (KHTML, like Gecko) Chrome/.0.. Safari/.,那会不会是因为服务器根据 UA 来判断拒绝了 python 爬虫。我们来伪装下试试看行不行

这样就把 python 伪装成 chrome 去获取糗百的网页,可以顺利的得到数据。

至此,利用 python 爬取糗百和捧腹网的笑话已经结束,我们只需要分析相应的网页,找到我们感兴趣的元素,利用 python 强大的功能,就可以达到我们的目的,不管是 XXOO 的图,还是内涵段子,都可以一键搞定,不说了,我去找点妹子图看看。

python 数据清洗之数据合并、转换、过滤、排序 前面我们用pandas做了一些基本的操作,接下来进一步了解数据的操作,数据清洗一直是数据分析中极为重要的一个环节。数据合并在pandas中可以通过merge

python中numpy基础学习及进行数组和矢量计算 前言在python中有时候我们用数组操作数据可以极大的提升数据的处理效率,类似于R的向量化操作,是的数据的操作趋于简单化,在python中是使用numpy模

python数据清洗系列之字符串处理详解 前言数据清洗是一项复杂且繁琐(kubi)的工作,同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目%的时间都是在清洗数据,这听起来

标签: python制作gui

本文链接地址:https://www.jiuchutong.com/biancheng/380068.html 转载请保留说明!

上一篇:python日志记录模块实例及改进(python日志管理系统)

下一篇:python 数据清洗之数据合并、转换、过滤、排序(Python 数据清洗)

  • 税务稽查以前年度进项税额转出
  • 税务机关采取哪些行政
  • 金税四期对建筑的影响
  • 固定资产的税费可抵扣吗
  • 计算消费税时运费计入计税依据么
  • 贴现率和折现率相等吗
  • 开发票商品类别与商品明细的区别
  • 兼职业务拿提成合法吗
  • 资产负债表中其他流动资产包括哪些科目
  • 房地产怎么计算需要交多少税
  • 存货跌价准备转销会影响当期损益吗
  • 预付款什么时候确认收入
  • 房子已买
  • 发票作为付款凭证的案例
  • 购买方和销售方一样可以报销吗
  • 公司为员工购买五险一金是什么意思
  • 七月一号出台的什么政策
  • 公司自持物业所承担的土地出让金是否可以抵扣呢?
  • 折价退回的会计处理
  • 简易计税项目取得的进项发票可以抵扣别的项目吗
  • 1697507802
  • mac如何搜索
  • 基本户里面的钱的用途
  • 什么情况下出租人可以解除合同
  • 小企业会计准则没有以前年度损益调整科目
  • 公司自有房屋出租 没有从租计征房产税
  • 动态壁纸怎么设置锁屏
  • mysqld-nt.exe - mysqld-nt是什么进程 有什么用
  • 离退休干部书报费有关文件
  • 抵扣进项税额的几种情况是
  • 普通增值税发票会计科目怎么写?
  • 南奥索峰的Lac d'Ayous小屋,法国 (© Eneko Aldaz/Offset by Shutterstock)
  • 非盈利组织盈利怎么办
  • 劳务费可以抵扣进项吗
  • 关于灵活就业人员待遇享受政策
  • yii2整合百度编辑器umeditor及umeditor图片上传问题的解决办法
  • 房产税城镇土地使用税税源信息采集
  • Yii2 assets清除缓存的方法
  • 子公司使用母公司固定资产
  • 小规模增值税减征额怎么算
  • 织梦模板转讯睿模板
  • python__get__
  • 股东撤资要交什么税
  • 开公司抬头的发票需要提供什么
  • 出口结汇有哪些常用方法?
  • 物业增值服务主要有哪些
  • 允许在企业所得税税前扣除的
  • 小微企业免税额按1%还是3%确认收入
  • 一般纳税人收取停车费的税率
  • 以前年度损益调整结转到本年利润吗
  • 小规模免税收入是多少
  • 出口退税申报系统汇率修改
  • 营改增试点行业顺序
  • 员工多交个税企业就少交所得税吗?
  • 合伙企业有限合伙
  • 先开收据再打款
  • 企业到外地
  • 冲减应收账款是什么意思
  • 营业外收入属于借方还是贷方
  • mysql怎么复制粘贴语句
  • the bluetooth device is ready to pale
  • 调整服务能力的策略不包括什么
  • mac系统怎么创建文件
  • usrmlnka.exe - usrmlnka进程是什么意思
  • 远程删除
  • Yosemite使用技巧 如何使用Yosemite mac信息功能共享电脑屏幕教程
  • win7暗藏的超实用快捷键汇总
  • 微软被告
  • linux系统概述
  • linux操作系统入门教程
  • 桌面预览怎么设置
  • unity3d性能优化之贴图科普篇
  • 2012年腾讯股价多少
  • unity c#开发
  • 简述python语言
  • 海关跟税务关系的区别
  • 国税新人什么时候入职
  • 广西税务12366怎么查询发票
  • 增值税进项转出补企业所得税
  • 地方税务局受谁领导
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设