位置: 编程技术 - 正文

Python爬取网易云音乐热门评论(Python爬取网易云一首歌的全部评论并进行分析)

编辑:rootadmin

推荐整理分享Python爬取网易云音乐热门评论(Python爬取网易云一首歌的全部评论并进行分析),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:Python爬取网易云并可视化,Python爬取网易云音乐评论,Python爬取网易云并可视化,Python爬取网易云音乐,Python爬取网易云音乐歌单内歌曲歌手封面播放地址,Python爬取网易云音乐评论,Python爬取网易云音乐,python爬取网易云音乐的代码,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在研究文本挖掘相关的内容,所谓巧妇难为无米之炊,要想进行文本分析,首先得到有文本吧。获取文本的方式有很多,比如从网上下载现成的文本文档,或者通过第三方提供的API进行获取数据。但是有的时候我们想要的数据并不能直接获取,因为并不提供直接的下载渠道或者API供我们获取数据。那么这个时候该怎么办呢?有一种比较好的办法是通过网络爬虫,即编写计算机程序伪装成用户去获得想要的数据。利用计算机的高效,我们可以轻松快速地获取数据。

那么该如何写一个爬虫呢?有很多种语言都可以写爬虫,比如Java,php,python 等,我个人比较喜欢使用python。因为python不仅有着内置的功能强大的网络库,还有诸多优秀的第三方库,别人直接造好了轮子,我们直接拿过来用就可以了,这为写爬虫带来了极大的方便。不夸张地说,使用不到行python代码其实就可以写一个小小的爬虫,而使用其他的语言可以要多写很多代码,简洁易懂正是python的巨大的优势。

好了废话不多说,进入今天的正题。最近几年网易云音乐火了起来,我自己就是网易云音乐的用户,用了几年了。以前用的是QQ音乐和酷狗,通过我自己的亲身经历来看,我觉得网易云音乐最优特色的就是其精准的歌曲推荐和独具特色的用户评论(郑重声明!!!这不是软文,非广告!!!仅代表个人观点,非喜勿喷!)。经常一首歌曲下面会有一些被点赞众多的神评论。加上前些日子网易云音乐将精选用户评论搬上了地铁,网易云音乐的评论又火了一把。所以我想对网易云的评论进行分析,发现其中的规律,特别是分析一些热评具有什么共同的特点。带着这个目的,我开始了对网易云评论的抓取工作。

python内置了两个网络库urllib和urllib2,但是这两个库使用起来不是特别方便,所以在这里我们使用一个广受好评的第三方库requests。使用requests只用很少的几行代码就可以实现设置代理,模拟登陆等比较复杂的爬虫工作。如果已经安装pip的话,直接使用pip install requests 即可安装。中文文档地址在此 code(状态码)标志了服务器请求的状态,这里状态码为即表示请求正常,而则表示不正常(状态码种类非常多,如果要想详细了解可以自行搜索,这里不说具体的含义了)。所以我们一般只用看状态码为的请求就可以了,还有就是,我们可以通过右边栏的预览来粗略观察服务器返回了什么信息(或者查看响应)。如下图5所示:

图5

通过这两种方法结合一般我们就可以快速找到我们想要分析的请求。注意图5中的请求网址一栏即是我们想要请求的网址,请求的方法有两种:get和post,还有一个需要重点关注的就是请求头,里面包含了user-Agent(客户端信息),refrence(从何处跳转过来)等多种信息,一般无论是get还是post方法我们都会把头部信息带上。头部信息如下图6所示:

图6

另外还需要注意的是:get请求一般就直接把请求的参数以?parameter1=value1¶meter2=value2 等这样的形式发送了,所以不需要带上额外的请求参数,而post请求则一般需要带上额外的参数,而不直接把参数放在url当中,所以有的时候我们还需要关注参数这一栏。经过仔细寻找,我们终于找到原来与评论相关的请求在 这个请求当中,如下图7所示:

Python爬取网易云音乐热门评论(Python爬取网易云一首歌的全部评论并进行分析)

图7

点开这个请求,我们发现它是一个post请求,请求的参数有两个,一个是params,还有一个是encSecKey,这两个参数的值非常的长,感觉应该像是加密过的。如下图8所示:

图8

服务器返回的和评论相关的数据为json格式的,里面含有非常丰富的信息(比如有关评论者的信息,评论日期,点赞数,评论内容等等),如下图9所示:(其实hotComments为热门评论,comments为评论数组)

图9

至此,我们已经确定了方向了,即只需要确定params和encSecKey这两个参数值即可,这个问题困扰了我一下午,我弄了很久也没有搞清楚这两个参数的加密方式,但是我发现了一个规律, 中 R_SO_4_后面的数字就是这首歌的id值,而对于不同的歌曲的param和encSecKey值,如果把一首歌比如A的这两个参数值传给B这首歌,那么对于相同的页数,这种参数是通用的,即A的第一页的两个参数值传给其他任何一首歌的两个参数,都可以获得相应歌曲的第一页的评论,对于第二页,第三页等也是类似。但是遗憾的是,不同的页数参数是不同的,这种办法只能抓取有限的几页(当然抓取评论总数和热门评论已经足够了),如果要想抓取全部数据,就必须搞明白这两个参数值的加密方式。以为没有搞明白,昨天晚上我带着这个问题去知乎搜索了一下,居然真的被我找到了答案。到此为止,如何抓取网易云音乐的评论全部数据就全部讲完了。

按照惯例,最后上代码,亲测有效:

我利用上述代码跑了一下,抓了两首周杰伦的热门歌曲《晴天》(有多万评论)和《告白气球》(有多万评论),前者跑了大概有多分钟,后者有多秒(也就是将近2个小时),截图如下:

注意我是按照空格来分隔的,每一行分别有用户ID 用户昵称 用户头像地址 评论时间 点赞总数 评论内容 这些内容。我将这两个txt文件上传到百度云了,对数据感兴趣的同学可以直接下载进行文本分析,地址为:《晴天》(

python网络编程调用recv函数完整接收数据的三种方法 最近在使用python进行网络编程开发一个通用的tcpclient测试小工具。在使用socket进行网络编程中,如何判定对端发送一条报文是否接收完成,是进行socket

使用python遍历指定城市的一周气温 处于兴趣,写了一个遍历指定城市五天内的天气预报,并转为华氏度显示。把城市名字写到一个列表里这样可以方便的添加城市。并附有详细注释importre

Python中查看文件名和文件路径 查看文件名和文件路径importosurl='

标签: Python爬取网易云一首歌的全部评论并进行分析

本文链接地址:https://www.jiuchutong.com/biancheng/377170.html 转载请保留说明!

上一篇:Python中Django发送带图片和附件的邮件(django发送请求)

下一篇:python网络编程调用recv函数完整接收数据的三种方法(python2网络编程)

  • 应税所得率表
  • 怎么应对降税,不含税价怎么应对
  • 普通增值税有什么用
  • 其他债权投资有减值吗
  • 水利基金在哪个科目核算
  • 企业所得税不超过300万怎么算
  • 差额征税所得税怎么申报
  • 建筑业预交增值税按什么算
  • 承兑汇票给别人时对方需要出具什么
  • 房产税按租金收入
  • 固定资产清理营业外支出汇算清缴需要调增吗
  • 知识产权服务项目
  • 租别人厂房土地税房产税怎么交
  • 分公司开票怎么做账
  • 地税附加税分录怎么做?
  • 三证合一后换章子要多久
  • 建筑公司资源税的征税
  • 增值税专用发票的税率是多少啊
  • 公司自用产品 抵税吗?
  • bios中怎么设置显卡
  • Win10 Build 19044.1319(21H1)预览版发布:修复 Bug提高安全性
  • 支付人工费会计科目
  • 公司股东转账进公司账户,会计分录
  • 购买生产用品计入什么科目
  • 增值税普通发票和专用发票有什么区别
  • 补缴以前年度公积金误入当年费怎么办
  • 所得税税前扣除的费用有哪些
  • 秋日里通往卢浮宫的杜乐丽花园,法国巴黎 (© Brian A. Jackson/Getty Images Plus)
  • 给退休人员发放一次性工龄补贴是真的吗
  • 增值税专用发票怎么开
  • conda配置虚拟环境
  • 建筑工程甲方公司
  • 营业外收入会计分录怎么做
  • 固定资产清理的含义
  • 医院职工医疗保险报销比例
  • 教育费附加减免政策
  • 织梦如何使用
  • 零申报一般怎么收费
  • 公司开发新产品时,由管理层任命的
  • 银行承兑汇票包括支票吗
  • 销售费用期末余额
  • 免征的增值税如何处理
  • 漏缴增值税处罚规定
  • 事业单位的职工可以办营业执照吗
  • 公司自己制造设备怎么办
  • 4s店收取保险服务费合理吗
  • 未开票州
  • 商业汇票贴现必须具备的条件
  • 行政事业单位经济责任审计的主要内容
  • 辅助生产成本应计入什么
  • 数据库崩了怎么恢复
  • Win7/Win8.1/Win10的UAC对话框“是”点不了的原因及解决方法
  • ubuntu搜索已安装软件
  • 在Linux系统中安装虚拟window
  • fedora s9
  • linux如何学
  • 怎样打开进程管理器功能
  • redhat下载教程
  • 如何返回系统
  • windows xp
  • win8安装步骤
  • cocos2dx schedule
  • ExtJs3.0中Store添加 baseParams 的Bug
  • 升级jdk版本
  • 红宝书csv
  • json和ui
  • 不错的意思
  • JavaScript instanceof 的使用方法示例介绍
  • android基于什么操作系统
  • unity全景
  • 一个挖掘机主播得多少钱
  • 树的python
  • java script
  • jquery 使用
  • bootstrap学习
  • 陷阱类过关游戏
  • 北京增值税普通发票图片
  • 地方税务局部门有哪些
  • 如何查询公司是一般纳税人还是小规模纳税人
  • 航天金税怎么导入发票
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设