位置: 编程技术 - 正文

Python 登录网站详解及实例(python登录网站爬取数据)

编辑:rootadmin

推荐整理分享Python 登录网站详解及实例(python登录网站爬取数据),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python登录网站 爬虫,python登录网站 爬虫,python登录网站自动下载文件,python登录网站爬取数据,python登录网站后发送post请求,python登录网站 爬虫,python登录网站自动下载文件,python登录网站执行动作,内容如对您有帮助,希望把文章链接给更多的朋友!

Python 登录网站详解及实例

对于大部分论坛,我们想要抓取其中的帖子分析,首先需要登录,否则无法查看。

  这是因为 HTTP 协议是一个无状态(Stateless)的协议,服务器如何知道当前请求连接的用户是否已经登录了呢?有两种方式:

在URI 中显式地使用 Session ID; 利用 Cookie,大概过程是登录一个网站后会在本地保留一个 Cookie,当继续浏览这个网站的时候,浏览器会把 Cookie 连同地址请求一起发送过去。

  Python 提供了相当丰富的模块,所以对于这种网络操作只要几句话就可以完成。我以登录 QZZN 论坛为例,事实上下面的程序几乎所有的 PHPWind 类型的论坛都是适用的。

Python 登录网站详解及实例(python登录网站爬取数据)

 一些注释:

urllib2 显然是比 urllib 高级一点的模块,里面包括了如何使用 Cookies。 在 urllib2 中,每个客户端可以用一个 opener 来抽象,每个 opener 又可以增加多个 handler 来增强其功能。 在构造 opener 时指定了 HTTPCookieProcessor 做为 handler,因此这个 handler 支持 Cookie。 使用 isntall_opener 后,调用 urlopen 时会使用这个 opener。 如果不需要保存 Cookie,cj 这个参数可以省略。 user_data 存放的就是登录所需要的信息,在登录论坛的时候把这个信息传递过去就行了。 urlencode 功能是把字典 user_data 编码成"&#;pwuser=username&pwpwd=password"的形式,这样做是为了使程序易读一些。

  最后一个问题是,pwuser、pwpwd 这类的名字是从哪儿来的,这就要分析需要登录的网页了。我们知道,一般的登录界面都是一个表单,节选如下:

  从这里可以看出,我们需要输入的用户名密码对应的就是 pwuser 和 pwpwd,而 step 对应的则是登录(这个是尝试出来的)。

  注意到,这个论坛表单采用的是 post 方式,如果是 get 方式则本文的方法就需要变动一下,不能直接 open,而是应该首先 Request,然后再 open。更详细的请看手册...

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

python访问抓取网页常用命令总结 python访问抓取网页常用命令简单的抓取网页:importurllib.requesturl="

python实现解数独程序代码 偶然发现linux系统附带的一个数独游戏,打开玩了几把。无奈是个数独菜鸟,以前没玩过,根本就走不出几步就一团浆糊了。于是就打算借助计算机的强

python编程实现希尔排序 观察一下插入排序:其实不难发现她有个缺点:如果当数据是5,4,3,2,1的时候,此时我们将无序块中的记录插入到有序块时,估计俺们要崩盘,每次插入

本文链接地址:https://www.jiuchutong.com/biancheng/375503.html 转载请保留说明!

上一篇:python实现FTP服务器服务的方法(python ftp storbinary)

下一篇:python访问抓取网页常用命令总结(python抓取网络数据)

免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

鄂ICP备2023003026号

网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

友情链接: 武汉网站建设 电脑维修 湖南楚通运网络