Python使用Srapy框架爬虫模拟登陆并抓取知乎内容(python框架scrapy)

编辑：rootadmin

推荐整理分享Python使用Srapy框架爬虫模拟登陆并抓取知乎内容(python框架scrapy)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:python 框图,python框架怎么用,python边框,python框架scrapy,python框架怎么用,python spider框架,python spider框架,python框架scrapy,内容如对您有帮助，希望把文章链接给更多的朋友！

一、Cookie原理HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制Cookie是http消息头中的一种属性，包括：

Cookie名字（Name）Cookie的值（Value） Cookie的过期时间（Expires/Max-Age） Cookie作用路径（Path） Cookie所在域名（Domain），使用Cookie进行安全连接（Secure）

前两个参数是Cookie应用的必要条件，另外，还包括Cookie大小（Size，不同浏览器对Cookie个数及大小限制是有差异的）。

二、模拟登陆这次主要爬取的网站是知乎爬取知乎就需要登陆的, 通过之前的python内建库, 可以很容易的实现表单提交。

现在就来看看如何通过Scrapy实现表单提交。

首先查看登陆时的表单结果, 依然像前面使用的技巧一样, 故意输错密码, 方面抓到登陆的网页头部和表单(我使用的Chrome自带的开发者工具中的Network功能)

查看抓取到的表单可以发现有四个部分:

邮箱和密码就是个人登陆的邮箱和密码 rememberme字段表示是否记住账号第一个字段是_xsrf,猜测是一种验证机制现在只有_xsrf不知道, 猜想这个验证字段肯定会实现在请求网页的时候发送过来, 那么我们查看当前网页的源码(鼠标右键然后查看网页源代码, 或者直接用快捷键)

发现我们的猜测是正确的

那么现在就可以来写表单登陆功能了

其中主要的功能都在函数的注释中说明三、Cookie的保存为了能使用同一个状态持续的爬取网站, 就需要保存cookie, 使用cookie保存状态, Scrapy提供了cookie处理的中间件, 可以直接拿来使用

Python使用Srapy框架爬虫模拟登陆并抓取知乎内容(python框架scrapy)

CookiesMiddleware：

这个cookie中间件保存追踪web服务器发出的cookie, 并将这个cookie在接来下的请求的时候进行发送Scrapy官方的文档中给出了下面的代码范例 :

那么可以对我们的爬虫类中方法进行修改, 使其追踪cookie

四、伪装头部有时候登陆网站需要进行头部伪装, 比如增加防盗链的头部, 还有模拟服务器登陆

为了保险, 我们可以在头部中填充更多的字段, 如下

在scrapy中Request和FormRequest初始化的时候都有一个headers字段, 可以自定义头部, 这样我们可以添加headers字段

形成最终版的登陆函数

五、Item类和抓取间隔完整的知乎爬虫代码链接

设置抓取间隔, 访问由于爬虫的过快抓取, 引发网站的发爬虫机制, 在setting.py中设置

更多设置可以查看官方文档

抓取结果(只是截取了其中很少一部分)

六、存在问题

Rule设计不能实现全网站抓取, 只是设置了简单的问题的抓取 Xpath设置不严谨, 需要重新思考 Unicode编码应该转换成UTF-8

python中函数传参详解一、参数传入规则可变参数允许传入0个或任意个参数，在函数调用时自动组装成一个tuple；关键字参数允许传入0个或任意个参数，在函数调用时自动组

使用Python从有道词典网页获取单词翻译从有道词典网页获取某单词的中文解释。importreimporturllibword=raw_input('inputawordn')url='

win系统中安装scrapy-1.1 0.环境说明winbit，电脑也是bit的处理器，电脑装有vsbit，但是为了保险起见，只试验了位的安装，等有时间了，再试下位的安装。如无特殊说

标签: python框架scrapy

本文链接地址:https://www.jiuchutong.com/biancheng/387033.html 转载请保留说明！

上一篇：Ruby元编程基础学习笔记整理(ruby元编程第二版)

下一篇：python中函数传参详解(python函数参数的传递方法)

随机推荐

页面遮罩层，并且阻止页面body滚动。bootstrap模态框原理(遮罩层中对象的作用是)

vue打包后显示空白正确处理方法(vue打包页面空白)

python3制作捧腹网段子页爬虫(python制作gui)

安卓中的HTTP编程

标签

投资者从其投资企业借款

分公司上交总公司营业款如何记账

赠送代金券的广告语

招聘只招一个人

自然人是否适用财政部税务总局2022年第15号公告

PHP:pg_field_prtlen()的用法_PostgreSQL函数

不动产经营租赁包括哪些内容

基于Python的flask百战电商流程图

填写企业所得税年度纳税申报表都需要哪些数据

在centos7中,一般用( )命令来查看网络接口的状态

centos6 iptables配置

安卓匿名电话软件

android studio ndk编程配置

发票开具显示获取纳税人基础信息失败，请退出？