位置: 编程技术 - 正文

Python爬取网易云音乐热门评论(Python爬取网易云一首歌的全部评论并进行分析)

编辑:rootadmin

推荐整理分享Python爬取网易云音乐热门评论(Python爬取网易云一首歌的全部评论并进行分析),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:Python爬取网易云并可视化,Python爬取网易云音乐评论,Python爬取网易云并可视化,Python爬取网易云音乐,Python爬取网易云音乐歌单内歌曲歌手封面播放地址,Python爬取网易云音乐评论,Python爬取网易云音乐,python爬取网易云音乐的代码,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在研究文本挖掘相关的内容,所谓巧妇难为无米之炊,要想进行文本分析,首先得到有文本吧。获取文本的方式有很多,比如从网上下载现成的文本文档,或者通过第三方提供的API进行获取数据。但是有的时候我们想要的数据并不能直接获取,因为并不提供直接的下载渠道或者API供我们获取数据。那么这个时候该怎么办呢?有一种比较好的办法是通过网络爬虫,即编写计算机程序伪装成用户去获得想要的数据。利用计算机的高效,我们可以轻松快速地获取数据。

那么该如何写一个爬虫呢?有很多种语言都可以写爬虫,比如Java,php,python 等,我个人比较喜欢使用python。因为python不仅有着内置的功能强大的网络库,还有诸多优秀的第三方库,别人直接造好了轮子,我们直接拿过来用就可以了,这为写爬虫带来了极大的方便。不夸张地说,使用不到行python代码其实就可以写一个小小的爬虫,而使用其他的语言可以要多写很多代码,简洁易懂正是python的巨大的优势。

好了废话不多说,进入今天的正题。最近几年网易云音乐火了起来,我自己就是网易云音乐的用户,用了几年了。以前用的是QQ音乐和酷狗,通过我自己的亲身经历来看,我觉得网易云音乐最优特色的就是其精准的歌曲推荐和独具特色的用户评论(郑重声明!!!这不是软文,非广告!!!仅代表个人观点,非喜勿喷!)。经常一首歌曲下面会有一些被点赞众多的神评论。加上前些日子网易云音乐将精选用户评论搬上了地铁,网易云音乐的评论又火了一把。所以我想对网易云的评论进行分析,发现其中的规律,特别是分析一些热评具有什么共同的特点。带着这个目的,我开始了对网易云评论的抓取工作。

python内置了两个网络库urllib和urllib2,但是这两个库使用起来不是特别方便,所以在这里我们使用一个广受好评的第三方库requests。使用requests只用很少的几行代码就可以实现设置代理,模拟登陆等比较复杂的爬虫工作。如果已经安装pip的话,直接使用pip install requests 即可安装。中文文档地址在此 code(状态码)标志了服务器请求的状态,这里状态码为即表示请求正常,而则表示不正常(状态码种类非常多,如果要想详细了解可以自行搜索,这里不说具体的含义了)。所以我们一般只用看状态码为的请求就可以了,还有就是,我们可以通过右边栏的预览来粗略观察服务器返回了什么信息(或者查看响应)。如下图5所示:

图5

通过这两种方法结合一般我们就可以快速找到我们想要分析的请求。注意图5中的请求网址一栏即是我们想要请求的网址,请求的方法有两种:get和post,还有一个需要重点关注的就是请求头,里面包含了user-Agent(客户端信息),refrence(从何处跳转过来)等多种信息,一般无论是get还是post方法我们都会把头部信息带上。头部信息如下图6所示:

图6

另外还需要注意的是:get请求一般就直接把请求的参数以?parameter1=value1¶meter2=value2 等这样的形式发送了,所以不需要带上额外的请求参数,而post请求则一般需要带上额外的参数,而不直接把参数放在url当中,所以有的时候我们还需要关注参数这一栏。经过仔细寻找,我们终于找到原来与评论相关的请求在 这个请求当中,如下图7所示:

Python爬取网易云音乐热门评论(Python爬取网易云一首歌的全部评论并进行分析)

图7

点开这个请求,我们发现它是一个post请求,请求的参数有两个,一个是params,还有一个是encSecKey,这两个参数的值非常的长,感觉应该像是加密过的。如下图8所示:

图8

服务器返回的和评论相关的数据为json格式的,里面含有非常丰富的信息(比如有关评论者的信息,评论日期,点赞数,评论内容等等),如下图9所示:(其实hotComments为热门评论,comments为评论数组)

图9

至此,我们已经确定了方向了,即只需要确定params和encSecKey这两个参数值即可,这个问题困扰了我一下午,我弄了很久也没有搞清楚这两个参数的加密方式,但是我发现了一个规律, 中 R_SO_4_后面的数字就是这首歌的id值,而对于不同的歌曲的param和encSecKey值,如果把一首歌比如A的这两个参数值传给B这首歌,那么对于相同的页数,这种参数是通用的,即A的第一页的两个参数值传给其他任何一首歌的两个参数,都可以获得相应歌曲的第一页的评论,对于第二页,第三页等也是类似。但是遗憾的是,不同的页数参数是不同的,这种办法只能抓取有限的几页(当然抓取评论总数和热门评论已经足够了),如果要想抓取全部数据,就必须搞明白这两个参数值的加密方式。以为没有搞明白,昨天晚上我带着这个问题去知乎搜索了一下,居然真的被我找到了答案。到此为止,如何抓取网易云音乐的评论全部数据就全部讲完了。

按照惯例,最后上代码,亲测有效:

我利用上述代码跑了一下,抓了两首周杰伦的热门歌曲《晴天》(有多万评论)和《告白气球》(有多万评论),前者跑了大概有多分钟,后者有多秒(也就是将近2个小时),截图如下:

注意我是按照空格来分隔的,每一行分别有用户ID 用户昵称 用户头像地址 评论时间 点赞总数 评论内容 这些内容。我将这两个txt文件上传到百度云了,对数据感兴趣的同学可以直接下载进行文本分析,地址为:《晴天》(

python网络编程调用recv函数完整接收数据的三种方法 最近在使用python进行网络编程开发一个通用的tcpclient测试小工具。在使用socket进行网络编程中,如何判定对端发送一条报文是否接收完成,是进行socket

使用python遍历指定城市的一周气温 处于兴趣,写了一个遍历指定城市五天内的天气预报,并转为华氏度显示。把城市名字写到一个列表里这样可以方便的添加城市。并附有详细注释importre

Python中查看文件名和文件路径 查看文件名和文件路径importosurl='

标签: Python爬取网易云一首歌的全部评论并进行分析

本文链接地址:https://www.jiuchutong.com/biancheng/377170.html 转载请保留说明!

上一篇:Python中Django发送带图片和附件的邮件(django发送请求)

下一篇:python网络编程调用recv函数完整接收数据的三种方法(python2网络编程)

  • 企业销售不动产增值税税率
  • 电子税务局怎么添加财务负责人
  • 资产负债表本期盈余为什么是负数
  • 免税商品进项增值税发票怎么做账
  • 当地外包公司是干什么的
  • 居间合同有效期多久
  • 无票收入应附什么单据
  • 税务局查账一般需要几天
  • 购进旅客运输服务抵扣会计分录
  • 个人所得税承租承包经营所得
  • 装修费算固定资产吗?
  • 公司名下没车能报油费吗
  • 坏账准备金最新计算公式
  • 个人取得偶然所得怎么交税
  • 资产计税基础是怎么填
  • 扶贫贷款主要指
  • 安装服务需要预缴税款吗
  • 辅助生产费用的核算
  • 道路工程施工机械
  • 技术服务费增值税可以抵扣吗
  • 如何快速判断
  • 合作社实际没有自产自销,但税务方面怎么可以提供证明
  • 公积金补缴需要去柜台吗
  • php yeid
  • 购买生产用品计入什么科目
  • 汇算清缴应补税额小于400
  • 金融保险业的营业税率为
  • 补充养老保险的特点
  • php能开发微信小程序吗
  • 二手办公楼交易税多少
  • yarn的配置
  • HBuilderX uni-app简单实现静态登录页面(实例)
  • 增值税发票校验码在哪个位置
  • vue路由用法
  • 谷粒学院项目含金量
  • linux用cat命令查看
  • 固定资产多少钱以上计入固定资产
  • 增值税申报表33栏显示有欠缴税额
  • php环境配置教程
  • 员工自己全额承担社保费用要计提吗
  • 增值税一般纳税人是什么意思
  • 对公账户给别人走账
  • 应纳税额和已缴税额一样
  • 开出银行承兑汇票
  • 支付结算规定的基本要求
  • 管理费用的核算要求
  • 接受捐赠固定资产存货等有相关凭据的其成本按什么确定
  • 公司购买购物卡账务处理
  • 预收账款和应收账款可以放在一个账户
  • 职工福利费核算哪些内容
  • mysql 授权命令
  • WINDOWS SERVER 2008开启桌面主题具体步骤
  • 老毛桃2013 U盘启动盘和重装系统图文教程
  • linux文件与目录
  • osk.exe
  • 如何快速卸载游戏
  • windows的批处理是如何实现的
  • win7无线网络开关在哪里
  • win10 edge浏览器崩溃
  • Win7系统怎么打开文件后缀名
  • linux设置mac
  • 开发者学校
  • linuxmain函数
  • javascript中的数组可以存放任何类型的数据
  • unity outline性能
  • python三角形角度
  • python语言如何获取随机整数
  • js实现组件功能
  • npm安装插件失败
  • bootstrap 可编辑下拉检索
  • bat批处理文件的语句
  • javascript getattribute
  • jQuery使用animate实现ul列表项相互飘动效果示例
  • 最简单手电筒
  • mapper--图片热点区域高亮组件官方站点
  • jqueryw3c
  • 税基式减免,税率式减免,税额式减免三者之间的联系
  • 税务部门的扣款协议
  • 如何抵扣税款
  • 买辆12万的车上路共需要多少钱
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设