位置: IT常识 - 正文

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

编辑:rootadmin
【python】喜欢XJJ?这不得来一波大采集? 前言

推荐整理分享【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python擅长,python爱好者,python喜欢的水果,用python语言说我喜欢你,python爱好者,喜欢python的原因,python爱好者,我喜欢python项目提交,内容如对您有帮助,希望把文章链接给更多的朋友!

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

俗话说的好:技能学了~就要用在自己喜欢得东西上!!

这我不得听个话~我喜欢小姐姐,跳舞的小姐姐

这不得用python把小姐姐舞采集下来~嘿嘿嘿

完整源码、素材皆可点击文章下方名片获取此处跳转知识点:

采集基本流程

re正则表达式简单使用

requests

json数据解析方法

数据保存

采集网站:

开发环境:

Python 3.8

Pycharm

模块使用:

requests >>> pip install requests 第三方模块

re

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名

如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

基本流程(固定):一. 数据来源分析

确定采集内容是什么? (目标网址, 网址里面数据)

通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得

I. 通过分析可以知道 播放url地址是什么?

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

II. 通过播放地址, 去分析找寻, 数据包是在哪?

III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容

(图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)

IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)

我想要获取播放地址 >>> 要得到数据包 >>> 获取ID

二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据

发送请求, 对于舞蹈列表页面发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 ID

发送请求, 把ID传入到 数据包里面 发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 标题 以及播放地址

保存数据, 把内容保存本地

多页数据采集

代码

(完整源码、素材皆可点击此处+获取)

导入模块

# 导入数据请求模块import requests # 第三方模块 pip install requests 需要自行安装# 导入re正则表达式import re # 内置模块 不需要安装# 导入格式化输出模块import pprint # 内置模块 不需要安装发送请求, 对于舞蹈视频列表页面发送请求for page in range(1, 11): print(f'正在爬取第{page}页的数据内容') url = f'https:// **** .com/g/all?set_id=51&order=hot&page={page}' # 爬虫是模拟浏览器对于服务器发送请求, 然后获取服务器返回数据内容 # user-agent: 用户代理 表示浏览器基本身份信息 (一种简单反反爬手段) headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36' } # 通过requests模块里面get请求方式对于url地址发送请求, 并且携带上headers请求进行伪装, 最后用自定义变量response接收返回数据 response = requests.get(url=url, headers=headers) # <Response [200]> 表示请求成功, 请求网址成功了 *** 200状态码表示请求成功, 但是不一定能够得到数据获取数据, 服务器返回数据内容 response.text 获取响应文本数据 # print(response.text)解析数据, 提取我们想要数据内容 视频ID # 解析方式: css re xpath # <li data-vid="676382675"> 想要数据 可以(.*?) 从response.text 里面去找寻这样数据内容 # .*? 是可以匹配任意字符(除了\n换行符以外) 如果你只是单纯提取数字 最好用 \d+ 匹配一个或者多个数字 video_ids = re.findall('<li data-vid="(\d+)">', response.text) # 返回列表数据 for video_id in video_ids: # 通过for循环遍历 提取列表里面元素 一个一个提取 # print(video_id)

发送请求, 把视频ID传入到视频数据包里面发送请求

获取数据, 服务器返回数据内容

# f 字符串格式化方法 {} 占位符 video_info = f'https:// **** .com/moment/getMomentContent?videoId={video_id}&uid=&_=1647433310180' json_data = requests.get(url=video_info, headers=headers).json() # print(json_data) # pprint.pprint(json_data) # 根据冒号左边的内容, 提取冒号右边的内容解析数据 title = json_data['data']['moment']['title'] video_url = json_data['data']['moment']['videoInfo']['definitions'][0]['url']保存数据 >>> 发送请求 并且获取数据 """ response.text >>> 文本数据返回字符串数据 response.json() >>> json字典数据 response.content >>> 二进制数据 """ video_content = requests.get(url=video_url, headers=headers).content with open('video\\' + title + '.mp4', mode='wb') as f: f.write(video_content) print(title, video_url)

尾语 💝

好了,今天的分享就差不多到这里了!

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇👇

本文链接地址:https://www.jiuchutong.com/zhishi/298824.html 转载请保留说明!

上一篇:Webpack完整打包流程分析(webpack打包步骤)

下一篇:input输入时的边框样式去除(input输入改变边框颜色)

  • 个人独资企业的责任承担
  • 产权转让印花税计税依据
  • 财税通财务软件如何调整凭证间距
  • 小规模企业所得税会计分录怎么做
  • 汽车维修公司做账基本流程
  • 兼职劳务税率是多少2020
  • 成品油认证步骤
  • 出纳购买东西能报销吗
  • 合同违约金账务处理
  • 其他收益是否需缴税
  • 事业单位其他应付款如何核销
  • 用理财产品去抵债违法吗
  • 坏账准备一般余额在哪方
  • 出口当月开票当月申报吗
  • 不是本公司员工
  • 小微企业减免的增值税账务处理
  • 小微企业月销售额不超过15万
  • 利税总额为负数如何表述出来
  • 其他综合收益的编码
  • 个人承包集体企业违法吗
  • 1697509419
  • surface安装win10专业版
  • 无发票 入账
  • 如何在Excel中计算平均值
  • windows11怎么显示我的电脑
  • 在建工程会计分录例题
  • 总部资产的减值有什么特点
  • php实现的任意进程函数
  • 非货币性资产投资的会计处理
  • linux服务有哪些
  • e卡 叠加
  • 大雾山国家公园在哪里
  • 固定资产科目的备抵科目
  • 做工程没钱了可以贷款吗
  • 什么是支付宝账号如何查看
  • 异地预缴的附加税在申报税时会抵消掉么
  • 法院判决后的利息
  • 信用减值损失的借贷方向
  • 税前补发补扣
  • 设备购入后又退出怎么办
  • 残疾人保障金汇算清缴的处理
  • 建筑公司购买材料直接入工程施工了可以吗?
  • 豆腐是农产品还是工业产品
  • 收到房租的租金怎么做账
  • 存货盘点的方法有哪些
  • 公司担保无效的后果
  • 航信服务费减免怎么填
  • 营改增后增值税税率的调整
  • 办公设备折旧年限规定多少年
  • 劳务发票税额
  • 对公账户原路退回备注怎么写
  • 房地产行业的特殊性表现在哪些方面
  • 企业净利润的分配顺序
  • window2008 64位系统没有office组件问题分析及解决
  • centos安装dig
  • 安装win7系统需要注意什么
  • 怎么自己制作diy
  • windows查询
  • 进程registry
  • win8的安全中心
  • 双系统电脑怎么装系统
  • winxp鼠标右键菜单栏怎么改
  • 怎么查看自己mac电脑有没有被人使用过
  • centos7 修复
  • Win10开机提示黑屏字母
  • yum could not resolve host
  • win7系统电脑开热点
  • windows 10预览版
  • 基于javascript数独游戏论文参考文献
  • 链接符怎么删除
  • python去掉末尾的换行符
  • jquery 异步提交表单
  • jquery中if语句
  • jqueryfor循环
  • setBackgroundDrawable和setBackgroundColor的用法
  • 重庆市税收排名地区
  • 河南省城镇土地使用税优惠政策2020
  • 北京车位过户手续费多少
  • 海口社保一个月多少钱
  • 请领导审核怎么说
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设