位置: IT常识 - 正文

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

发布时间:2024-01-17
【python】喜欢XJJ?这不得来一波大采集? 前言

推荐整理分享【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python擅长,python爱好者,python喜欢的水果,用python语言说我喜欢你,python爱好者,喜欢python的原因,python爱好者,我喜欢python项目提交,内容如对您有帮助,希望把文章链接给更多的朋友!

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

俗话说的好:技能学了~就要用在自己喜欢得东西上!!

这我不得听个话~我喜欢小姐姐,跳舞的小姐姐

这不得用python把小姐姐舞采集下来~嘿嘿嘿

完整源码、素材皆可点击文章下方名片获取此处跳转知识点:

采集基本流程

re正则表达式简单使用

requests

json数据解析方法

数据保存

采集网站:

开发环境:

Python 3.8

Pycharm

模块使用:

requests >>> pip install requests 第三方模块

re

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名

如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

基本流程(固定):一. 数据来源分析

确定采集内容是什么? (目标网址, 网址里面数据)

通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得

I. 通过分析可以知道 播放url地址是什么?

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

II. 通过播放地址, 去分析找寻, 数据包是在哪?

III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容

(图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)

IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)

我想要获取播放地址 >>> 要得到数据包 >>> 获取ID

二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据

发送请求, 对于舞蹈列表页面发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 ID

发送请求, 把ID传入到 数据包里面 发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 标题 以及播放地址

保存数据, 把内容保存本地

多页数据采集

代码

(完整源码、素材皆可点击此处+获取)

导入模块

# 导入数据请求模块import requests # 第三方模块 pip install requests 需要自行安装# 导入re正则表达式import re # 内置模块 不需要安装# 导入格式化输出模块import pprint # 内置模块 不需要安装发送请求, 对于舞蹈视频列表页面发送请求for page in range(1, 11): print(f'正在爬取第{page}页的数据内容') url = f'https:// **** .com/g/all?set_id=51&order=hot&page={page}' # 爬虫是模拟浏览器对于服务器发送请求, 然后获取服务器返回数据内容 # user-agent: 用户代理 表示浏览器基本身份信息 (一种简单反反爬手段) headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36' } # 通过requests模块里面get请求方式对于url地址发送请求, 并且携带上headers请求进行伪装, 最后用自定义变量response接收返回数据 response = requests.get(url=url, headers=headers) # <Response [200]> 表示请求成功, 请求网址成功了 *** 200状态码表示请求成功, 但是不一定能够得到数据获取数据, 服务器返回数据内容 response.text 获取响应文本数据 # print(response.text)解析数据, 提取我们想要数据内容 视频ID # 解析方式: css re xpath # <li data-vid="676382675"> 想要数据 可以(.*?) 从response.text 里面去找寻这样数据内容 # .*? 是可以匹配任意字符(除了\n换行符以外) 如果你只是单纯提取数字 最好用 \d+ 匹配一个或者多个数字 video_ids = re.findall('<li data-vid="(\d+)">', response.text) # 返回列表数据 for video_id in video_ids: # 通过for循环遍历 提取列表里面元素 一个一个提取 # print(video_id)

发送请求, 把视频ID传入到视频数据包里面发送请求

获取数据, 服务器返回数据内容

# f 字符串格式化方法 {} 占位符 video_info = f'https:// **** .com/moment/getMomentContent?videoId={video_id}&uid=&_=1647433310180' json_data = requests.get(url=video_info, headers=headers).json() # print(json_data) # pprint.pprint(json_data) # 根据冒号左边的内容, 提取冒号右边的内容解析数据 title = json_data['data']['moment']['title'] video_url = json_data['data']['moment']['videoInfo']['definitions'][0]['url']保存数据 >>> 发送请求 并且获取数据 """ response.text >>> 文本数据返回字符串数据 response.json() >>> json字典数据 response.content >>> 二进制数据 """ video_content = requests.get(url=video_url, headers=headers).content with open('video\\' + title + '.mp4', mode='wb') as f: f.write(video_content) print(title, video_url)

尾语 💝

好了,今天的分享就差不多到这里了!

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇👇

本文链接地址:https://www.jiuchutong.com/zhishi/298824.html 转载请保留说明!

上一篇:Webpack完整打包流程分析(webpack打包步骤)

下一篇:input输入时的边框样式去除(input输入改变边框颜色)

  • 上海企业知名大厂排名名称地址汇总

    上海企业知名大厂排名名称地址汇总

  • 微信激活收不到验证码的原因(微信激活显示没有收到短信验证)

    微信激活收不到验证码的原因(微信激活显示没有收到短信验证)

  • 打电话没网络如何解决(打电话没网络如何回事)

    打电话没网络如何解决(打电话没网络如何回事)

  • 小米手机快捷功能怎么关闭(小米手机快捷功能在哪里关闭)

    小米手机快捷功能怎么关闭(小米手机快捷功能在哪里关闭)

  • 华为nova7屏幕上hd怎么关掉(华为nova7屏幕上的小白圈怎么去掉)

    华为nova7屏幕上hd怎么关掉(华为nova7屏幕上的小白圈怎么去掉)

  • channeladimm0是什么品牌的内存(channeladimm1什么意思)

    channeladimm0是什么品牌的内存(channeladimm1什么意思)

  • 充会员能恢复几个火花(充会员能恢复几次信誉)

    充会员能恢复几个火花(充会员能恢复几次信誉)

  • 网络连接超时是什么原因(网络连接超时是什么意思怎么解决)

    网络连接超时是什么原因(网络连接超时是什么意思怎么解决)

  • 摄像机休眠什么意思(摄像机休眠状态耗电吗)

    摄像机休眠什么意思(摄像机休眠状态耗电吗)

  • 1200w和1500w电机区别(1200w和1500w电机续航)

    1200w和1500w电机区别(1200w和1500w电机续航)

  • 抖音里点赞的视频怎么批量删除(抖音里点赞的视频删除了还有赞吗)

    抖音里点赞的视频怎么批量删除(抖音里点赞的视频删除了还有赞吗)

  • 新开网店没有访客也没有销量怎么办(网店没有人访问怎么办)

    新开网店没有访客也没有销量怎么办(网店没有人访问怎么办)

  • tws耳机和蓝牙耳机的区别(tws耳机和无线耳机的区别)

    tws耳机和蓝牙耳机的区别(tws耳机和无线耳机的区别)

  • 实时数据分析中的实时表示的是(实时数据的作用)

    实时数据分析中的实时表示的是(实时数据的作用)

  • 华为手机屏幕黑线修复(华为手机屏幕黑了怎么调回去)

    华为手机屏幕黑线修复(华为手机屏幕黑了怎么调回去)

  • tencent里面哪些能删(tencent里面哪些文件可以删除)

    tencent里面哪些能删(tencent里面哪些文件可以删除)

  • 微信拒绝添加好友怎么设置(微信拒绝添加好友是什么意思)

    微信拒绝添加好友怎么设置(微信拒绝添加好友是什么意思)

  • 电脑auto什么意思(电脑中auto是什么意思啊)

    电脑auto什么意思(电脑中auto是什么意思啊)

  • 手机云服务要开启吗(手机云服务开启要钱吗)

    手机云服务要开启吗(手机云服务开启要钱吗)

  • vsco色温在哪(vsco色温在哪里调)

    vsco色温在哪(vsco色温在哪里调)

  • 抖音怎么删除私信(抖音怎么删除私信分享列表)

    抖音怎么删除私信(抖音怎么删除私信分享列表)

  • vivos1pro充电几小时(vivos1pro充电是多少w的)

    vivos1pro充电几小时(vivos1pro充电是多少w的)

  • 快手买完东西在哪查看物流(快手买完东西在哪投诉)

    快手买完东西在哪查看物流(快手买完东西在哪投诉)

  • 微信签约管理在哪里(安卓微信签约管理在哪里)

    微信签约管理在哪里(安卓微信签约管理在哪里)

  • LayUI下拉树TreeSelect的使用解读(layui树形下拉框)

    LayUI下拉树TreeSelect的使用解读(layui树形下拉框)

  • 年终奖怎么计税的
  • 预提费用的附件怎么做
  • 原材料加工成产品的会计分录
  • 残保基金怎么算
  • 存货售出后是否含税
  • 城市基础设施配套有哪些
  • 电子发票冲红还是作废
  • 新会计准则科目编码
  • 车辆购置税多少?
  • 超过标准的职工教育经费
  • 交易性金融资产的交易费用计入哪里
  • 金融工具包括哪些及其法律特征
  • 对方跨行转账成功后我却没收到款还能追回来吗
  • 建筑行业预算
  • 企业发票税收编码是什么
  • 税控服务费抵扣的文件
  • 农产品收购发票是普票还是专票
  • 消费税有哪几种纳税方式
  • 借款给其他公司的会计分录怎么写
  • 固定资产进项发票怎么开
  • 增值税电子缴款凭证在哪里打印
  • 研发阶段计入管理费用吗吗
  • 石油天然气用途
  • 融资租赁纳税人是指
  • 一般纳税人销售二手车增值税税率
  • 金税盘可以抵扣进项税吗
  • cpu调度schedutil好吗
  • 中秋节给员工买什么福利
  • 7zip怎么压缩文件为rar
  • 特种商品劳务税
  • origin2017曲线拟合
  • 小企业会计准则适用于哪些企业
  • 带着崽崽宠老公免费阅读
  • 处理固定资产怎么交税
  • 工装进福利费还是劳保费
  • yolov7训练自己的模型用 flask封装
  • 车辆购置税发票图片
  • 应交税金及附加包括哪些
  • 进项逾期未认证怎么办
  • promise thenable
  • python3 字典遍历
  • 金融资产减值包括
  • 个体工商户季度超过9万怎么交税
  • 签发转账支票需要的单据
  • 资本公积和盈余公积是什么意思
  • 招待费具体范围包括哪些
  • 现金日记账年结怎么做
  • 为什么出口退税是贷方
  • 现金流动负债比率越大越好吗
  • 废品回收利用公司
  • mysql清空表内容
  • mysql8.0.23
  • sql server的数据库
  • XP系统电脑开机密码忘了
  • 网站的运维
  • mac系统操作的小技巧
  • WINDOWS7系统安装包
  • linux使用su命令出错
  • ubuntu20.04忘记root密码
  • kb4012212安装失败
  • 修改linux启动项
  • windows7怎么卸载
  • windows7网络连接不可用怎么办
  • win7如何打开命令窗口
  • win8怎样恢复系统
  • 联想笔记本win7装win10
  • unity锚点
  • 微信小程序实现账号密码登录
  • bootstrap 下拉按钮
  • shell脚本用法
  • python matplotlab
  • linux命令scp和sftp详细介绍
  • ntp ntpdate
  • 批处理中copy怎么用
  • js实现滑块拖动
  • html css js 实战案例
  • 查看项目层级结构怎么查
  • 面向对象的java语言
  • 办税服务厅是税收工作的
  • 新郑市税务局
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号