位置: 编程技术 - 正文

使用Python多线程爬虫爬取电影天堂资源(python 多线程)

编辑:rootadmin

推荐整理分享使用Python多线程爬虫爬取电影天堂资源(python 多线程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python多线程怎么用,python多线程应用,python多线程例子,python 多线程,python多线程应用,python多线程怎么用,python中多线程,python多线程怎么用,内容如对您有帮助,希望把文章链接给更多的朋友!

最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载。刚开始学习python希望可以获得宝贵的意见。

  先来简单介绍一下,网络爬虫的基本实现原理吧。一个爬虫首先要给它一个起点,所以需要精心选取一些URL作为起点,然后我们的爬虫从这些起点出发,抓取并解析所抓取到的页面,将所需要的信息提取出来,同时获得的新的URL插入到队列中作为下一次爬取的起点。这样不断地循环,一直到获得你想得到的所有的信息爬虫的任务就算结束了。我们通过一张图片来看一下。

  好的 下面进入正题,来讲解下程序的实现。

  首先要分析一下电影天堂网站的首页结构。

  从上面的菜单栏中我们可以看到整个网站资源的总体分类情况。刚刚好我们可以利用到它的这个分类,将每一个分类地址作为爬虫的起点。

  ①解析首页地址 提取分类信息

在这个函数中,首先将网页的源码下载下来,通过XPath解析出其中的菜单分类信息。并创建相应的文件目录。有一个需要注意的地方就是编码问题,但是也是被这个编码纠缠了好久,通过查看网页的源代码,我们可以发现,网页的编码采用的是GB,这里通过XPath构造Tree对象是需要对文本信息进行解码操作,将gb变成Unicode编码,这样DOM树结构才是正确的,要不然在后面解析的时候就会出现问题。

使用Python多线程爬虫爬取电影天堂资源(python 多线程)

  ②解析每个分类的主页

打开每一个分类的首页会发现都有一个相同的结构(点击打开示例)首先解析出包含资源URL的节点,然后将名称和URL提取出来。这一部分有两个需要注意的地方。一是因为最终想要把资源保存到一个txt文件中,但是在命名时不能出现一些特殊符号,所以需要处理掉。二是一定要对分页进行处理,网站中的数据都是通过分页这种形式展示的,所以如何识别并抓取分页也是很重要的。通过观察发现,分页的地址前面没有“/”,所以只需要通过正则表达式找出分页地址链接,然后嵌套调用即可解决分页问题。

③解析资源地址保存到文件中

这段就比较简单了,将提取出来的内容写到一个文件中就行了

  为了能够提高程序的运行效率,使用了多线程进行抓取,在这里我是为每一个分类的主页都开辟了一个线程,这样极大地加快了爬虫的效率。想当初,只是用单线程去跑,结果等了一下午最后因为一个异常没处理到结果一下午都白跑了!!!!心累

以上只是部分代码,全部代码可以到GitHub上面去下载(点我跳转)

最后爬取的结果如下。

以上所述是小编给大家介绍的使用Python多线程爬虫爬取电影天堂资源 ,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对积木网网站的支持!

利用Python为iOS生成图标和截屏 简介这两天更新完Xcode8之后发现Xcode对图标的要求又有了变化,之前用的一个小应用IconKit还没赶上节奏,已经不能满足Xcode8的要求了。于是就想起来用Py

Linux 下 Python 实现按任意键退出的实现方法 某天在群内有同学问到,在python下我用input或者raw_input都得输入完后回车才能获取到输入的值,那如何实现任意键退出暂停等功能呢,我当时也没有多想

实现python版本的按任意键继续/退出 某天在群内有同学问到,在python下我用input或者raw_input都得输入完后回车才能获取到输入的值,那如何实现任意键退出暂停等功能呢,我当时也没有多想

标签: python 多线程

本文链接地址:https://www.jiuchutong.com/biancheng/384486.html 转载请保留说明!

上一篇:Python 爬虫模拟登陆知乎(python爬虫模拟浏览器)

下一篇:利用Python为iOS10生成图标和截屏(python3.9.1怎么用)

  • 全国增值税发票查验平台入口
  • 固定资产处置收入怎么报税
  • 研发费用属于哪个费用
  • 固定资产盘点账务处理
  • 足球俱乐部买卖球员的程序
  • 公司基本账户销户需要带什么资料
  • 税收返还怎么做会计分录
  • 存货计提减值准备对所得税的影响
  • 增值税的价外费用不包括什么
  • 进口应税消费品所支付的金额不包括
  • 在建工程和工程物资在资产负债表
  • 外派人员补助标准
  • 餐饮行业固定资产界定
  • 银行扣的短信费银行给开发票吗
  • 税局代开专票作废怎么做账
  • 股权代持分红免税吗
  • 商誉减值测试的方法有哪些
  • 所得税申报怎么弥补以前年度亏损
  • win10怎么删除搜索
  • 损益类科目的借方是增加还是减少
  • 汇算清缴所得税补缴怎么处理
  • KunlunPlatform.exe是什么进程?KunlunPlatform.exe是安全的程序吗?
  • 分公司与总公司的关系
  • 苹果发布macOS13.6
  • elementui能做什么
  • 金融公司呆账对当事人有什么影响
  • 加勒比海百科
  • 机器学习中的数学原理——对数似然函数
  • 网上打印企业征信报告
  • php用户登录界面代码
  • 技术咨询费属于
  • 结算业务书汇票怎么写
  • phpcms模板制作教程
  • 劳务报酬什么情况下可以退税
  • 银行对账单冲正的单据在财务软件哪里找
  • 支付长期借款利息时,应借记什么账户
  • 补计提工资什么意思
  • 保险经纪公司要提取风险准备金按什么规定
  • 支付劳务费未开具发票
  • 融资租赁公司的风险资产包括哪些
  • 当master down掉后,pt-heartbeat不断重试会导致内存缓慢增长的原因及解决办法
  • 实缴资本需要存放多久
  • 租赁费的增值税可以抵扣吗
  • 餐饮行业分录大全
  • 工商年报纳税总额从哪看
  • 增值税专用发票怎么开
  • 自来水公司代收污水处理费
  • 房地产企业的会计核算
  • 购入土地使用权的,以评估价格为计税依据
  • 供应合同转让协议
  • 职工外地就医怎么报销
  • 生产型企业账务处理方法
  • 记账凭证的项目有哪些
  • 代理记账许可证查询
  • mysql常见优化手段
  • 如何在境外银行开户
  • win7一直弹广告怎么办
  • 微软新品发布
  • 老毛桃U盘装系统综合教程
  • 创建windows
  • 如何进入xp系统
  • win7系统开机出现英文字母
  • win7系统开机登录不了怎么修复
  • windows10预览版是什么
  • 博主是re_mini_scene
  • node.js获取文件信息的方法是什么
  • Android与OpenCV2.4.4(2013最新)搭建图像处理框架
  • ide通道怎么打开
  • unity ui控件
  • shell调用java方法
  • python元组和数组
  • nodejs重命名文件
  • koa2 koa
  • 房子没有使用权
  • 厦门市地方税务局市稽查局关于规范稽查有关规定
  • 地税局契税发票编号查询
  • 纳税人信用信息
  • 税务全国联网了吗
  • 税控防伪清单
  • 2008土地管理办法
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设