位置: 编程技术 - 正文

Python爬取网易云音乐热门评论(Python爬取网易云一首歌的全部评论并进行分析)

编辑:rootadmin

推荐整理分享Python爬取网易云音乐热门评论(Python爬取网易云一首歌的全部评论并进行分析),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:Python爬取网易云并可视化,Python爬取网易云音乐评论,Python爬取网易云并可视化,Python爬取网易云音乐,Python爬取网易云音乐歌单内歌曲歌手封面播放地址,Python爬取网易云音乐评论,Python爬取网易云音乐,python爬取网易云音乐的代码,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在研究文本挖掘相关的内容,所谓巧妇难为无米之炊,要想进行文本分析,首先得到有文本吧。获取文本的方式有很多,比如从网上下载现成的文本文档,或者通过第三方提供的API进行获取数据。但是有的时候我们想要的数据并不能直接获取,因为并不提供直接的下载渠道或者API供我们获取数据。那么这个时候该怎么办呢?有一种比较好的办法是通过网络爬虫,即编写计算机程序伪装成用户去获得想要的数据。利用计算机的高效,我们可以轻松快速地获取数据。

那么该如何写一个爬虫呢?有很多种语言都可以写爬虫,比如Java,php,python 等,我个人比较喜欢使用python。因为python不仅有着内置的功能强大的网络库,还有诸多优秀的第三方库,别人直接造好了轮子,我们直接拿过来用就可以了,这为写爬虫带来了极大的方便。不夸张地说,使用不到行python代码其实就可以写一个小小的爬虫,而使用其他的语言可以要多写很多代码,简洁易懂正是python的巨大的优势。

好了废话不多说,进入今天的正题。最近几年网易云音乐火了起来,我自己就是网易云音乐的用户,用了几年了。以前用的是QQ音乐和酷狗,通过我自己的亲身经历来看,我觉得网易云音乐最优特色的就是其精准的歌曲推荐和独具特色的用户评论(郑重声明!!!这不是软文,非广告!!!仅代表个人观点,非喜勿喷!)。经常一首歌曲下面会有一些被点赞众多的神评论。加上前些日子网易云音乐将精选用户评论搬上了地铁,网易云音乐的评论又火了一把。所以我想对网易云的评论进行分析,发现其中的规律,特别是分析一些热评具有什么共同的特点。带着这个目的,我开始了对网易云评论的抓取工作。

python内置了两个网络库urllib和urllib2,但是这两个库使用起来不是特别方便,所以在这里我们使用一个广受好评的第三方库requests。使用requests只用很少的几行代码就可以实现设置代理,模拟登陆等比较复杂的爬虫工作。如果已经安装pip的话,直接使用pip install requests 即可安装。中文文档地址在此 code(状态码)标志了服务器请求的状态,这里状态码为即表示请求正常,而则表示不正常(状态码种类非常多,如果要想详细了解可以自行搜索,这里不说具体的含义了)。所以我们一般只用看状态码为的请求就可以了,还有就是,我们可以通过右边栏的预览来粗略观察服务器返回了什么信息(或者查看响应)。如下图5所示:

图5

通过这两种方法结合一般我们就可以快速找到我们想要分析的请求。注意图5中的请求网址一栏即是我们想要请求的网址,请求的方法有两种:get和post,还有一个需要重点关注的就是请求头,里面包含了user-Agent(客户端信息),refrence(从何处跳转过来)等多种信息,一般无论是get还是post方法我们都会把头部信息带上。头部信息如下图6所示:

图6

另外还需要注意的是:get请求一般就直接把请求的参数以?parameter1=value1¶meter2=value2 等这样的形式发送了,所以不需要带上额外的请求参数,而post请求则一般需要带上额外的参数,而不直接把参数放在url当中,所以有的时候我们还需要关注参数这一栏。经过仔细寻找,我们终于找到原来与评论相关的请求在 这个请求当中,如下图7所示:

Python爬取网易云音乐热门评论(Python爬取网易云一首歌的全部评论并进行分析)

图7

点开这个请求,我们发现它是一个post请求,请求的参数有两个,一个是params,还有一个是encSecKey,这两个参数的值非常的长,感觉应该像是加密过的。如下图8所示:

图8

服务器返回的和评论相关的数据为json格式的,里面含有非常丰富的信息(比如有关评论者的信息,评论日期,点赞数,评论内容等等),如下图9所示:(其实hotComments为热门评论,comments为评论数组)

图9

至此,我们已经确定了方向了,即只需要确定params和encSecKey这两个参数值即可,这个问题困扰了我一下午,我弄了很久也没有搞清楚这两个参数的加密方式,但是我发现了一个规律, 中 R_SO_4_后面的数字就是这首歌的id值,而对于不同的歌曲的param和encSecKey值,如果把一首歌比如A的这两个参数值传给B这首歌,那么对于相同的页数,这种参数是通用的,即A的第一页的两个参数值传给其他任何一首歌的两个参数,都可以获得相应歌曲的第一页的评论,对于第二页,第三页等也是类似。但是遗憾的是,不同的页数参数是不同的,这种办法只能抓取有限的几页(当然抓取评论总数和热门评论已经足够了),如果要想抓取全部数据,就必须搞明白这两个参数值的加密方式。以为没有搞明白,昨天晚上我带着这个问题去知乎搜索了一下,居然真的被我找到了答案。到此为止,如何抓取网易云音乐的评论全部数据就全部讲完了。

按照惯例,最后上代码,亲测有效:

我利用上述代码跑了一下,抓了两首周杰伦的热门歌曲《晴天》(有多万评论)和《告白气球》(有多万评论),前者跑了大概有多分钟,后者有多秒(也就是将近2个小时),截图如下:

注意我是按照空格来分隔的,每一行分别有用户ID 用户昵称 用户头像地址 评论时间 点赞总数 评论内容 这些内容。我将这两个txt文件上传到百度云了,对数据感兴趣的同学可以直接下载进行文本分析,地址为:《晴天》(

python网络编程调用recv函数完整接收数据的三种方法 最近在使用python进行网络编程开发一个通用的tcpclient测试小工具。在使用socket进行网络编程中,如何判定对端发送一条报文是否接收完成,是进行socket

使用python遍历指定城市的一周气温 处于兴趣,写了一个遍历指定城市五天内的天气预报,并转为华氏度显示。把城市名字写到一个列表里这样可以方便的添加城市。并附有详细注释importre

Python中查看文件名和文件路径 查看文件名和文件路径importosurl='

标签: Python爬取网易云一首歌的全部评论并进行分析

本文链接地址:https://www.jiuchutong.com/biancheng/377170.html 转载请保留说明!

上一篇:Python中Django发送带图片和附件的邮件(django发送请求)

下一篇:python网络编程调用recv函数完整接收数据的三种方法(python2网络编程)

  • 收到个人开票会计分录怎么做
  • 税收成本包括哪些
  • 一般纳税人企业所得税税率2023
  • 燃气费的账务处理
  • 合同成本在哪个科目列支
  • 滞留票怎么做账务处理
  • 转登记小规模纳税人留抵税额
  • 跨年确认收入税务风险
  • 留存收益转增资本有什么好处
  • 房地产对居民生活的影响
  • 实收资本收到后用途
  • 抵账房产财务入账
  • 营改增后众筹融资业务的会计处理分析
  • 快递快件丢失
  • 增值税普通发票可以抵扣吗
  • 商贸企业可以使用月末一次加权平均
  • 固定资产停止使用还计提折旧吗
  • 法人一证通年费缴费
  • 原始凭证的基本内容包括会计科目吗
  • 银行承兑 贷款
  • 电子发票增加开票项目
  • 已申报未导入什么意思呀
  • 分支机构年度终了必须由总机构负责合并汇总纳税吗?
  • 利润总额为负数净利润怎么算
  • 有哪些分享方式
  • 支付费用没有发票怎么做账务处理
  • 刷路由器固件的作用和意义
  • 未办理装修手续
  • 股份支付的特征是什么
  • 应收票据贴现的会计分录
  • 发票已付款未认账怎么办
  • 关于企业发生的手续费及佣金支出的扣除标准
  • 前端向后端传值的函数
  • php面向对象是什么意思
  • php xml转数组
  • 房屋土地使用权到期后续费标准
  • 程序人是什么意思
  • thinkphp模糊查询
  • 没有初级会计证可以从事会计工作吗
  • js必学知识点
  • 增值税附加税有什么
  • 真发票假业务会坐牢吗
  • 公司盖厂房没有票要交税吗?
  • python的基本风格
  • SQLite3中的日期时间函数使用小结
  • pythonproperty
  • el-form表单
  • 小规模纳税人1%税率优惠政策
  • 帐外资金
  • MSSQLSERVER不同版本设置开启远程连接(sa配置)
  • sql 临时数据
  • 企业与企业之间借款都需要交什么税
  • 加权平均发计算公式
  • 建筑业挂靠企业所得税如何收取?
  • 白条可以入账吗?
  • 财务费用手续费借贷方向
  • 360天认证期是什么时候发布的
  • 出口货物退货流程
  • 公司账户收入金额有规定吗
  • 开支票如何做账
  • sql判断字段是否包含数字和字母
  • mysql group_concat()函数用法总结
  • 在WINDOWS系统中用鼠标拖动非最大化窗口的标题栏可以
  • ubuntu20.04升级
  • rpm包安装的apache可以如何启动
  • 怎么处理鲍鱼
  • win7屏幕太亮了怎么调电脑
  • centos6.5安装步骤
  • win10收不到20h2更新
  • ubuntu10.04 root的帐户启用方法
  • 打开win七
  • win7电脑dpi怎么设置800
  • Linux禁止MySQL开机自启动的小技巧
  • javascript要怎么学
  • linux两个版本
  • 国家税务总局增值税发票查验平台官网
  • 银行和税务局的关系
  • 注销税务登记需要哪些材料
  • 个人所得税年申报与月申报区别
  • 城镇土地使用税暂行条例
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设