位置: IT常识 - 正文

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

编辑:rootadmin
【python】喜欢XJJ?这不得来一波大采集? 前言

推荐整理分享【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python擅长,python爱好者,python喜欢的水果,用python语言说我喜欢你,python爱好者,喜欢python的原因,python爱好者,我喜欢python项目提交,内容如对您有帮助,希望把文章链接给更多的朋友!

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

俗话说的好:技能学了~就要用在自己喜欢得东西上!!

这我不得听个话~我喜欢小姐姐,跳舞的小姐姐

这不得用python把小姐姐舞采集下来~嘿嘿嘿

完整源码、素材皆可点击文章下方名片获取此处跳转知识点:

采集基本流程

re正则表达式简单使用

requests

json数据解析方法

数据保存

采集网站:

开发环境:

Python 3.8

Pycharm

模块使用:

requests >>> pip install requests 第三方模块

re

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名

如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

基本流程(固定):一. 数据来源分析

确定采集内容是什么? (目标网址, 网址里面数据)

通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得

I. 通过分析可以知道 播放url地址是什么?

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

II. 通过播放地址, 去分析找寻, 数据包是在哪?

III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容

(图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)

IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)

我想要获取播放地址 >>> 要得到数据包 >>> 获取ID

二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据

发送请求, 对于舞蹈列表页面发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 ID

发送请求, 把ID传入到 数据包里面 发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 标题 以及播放地址

保存数据, 把内容保存本地

多页数据采集

代码

(完整源码、素材皆可点击此处+获取)

导入模块

# 导入数据请求模块import requests # 第三方模块 pip install requests 需要自行安装# 导入re正则表达式import re # 内置模块 不需要安装# 导入格式化输出模块import pprint # 内置模块 不需要安装发送请求, 对于舞蹈视频列表页面发送请求for page in range(1, 11): print(f'正在爬取第{page}页的数据内容') url = f'https:// **** .com/g/all?set_id=51&order=hot&page={page}' # 爬虫是模拟浏览器对于服务器发送请求, 然后获取服务器返回数据内容 # user-agent: 用户代理 表示浏览器基本身份信息 (一种简单反反爬手段) headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36' } # 通过requests模块里面get请求方式对于url地址发送请求, 并且携带上headers请求进行伪装, 最后用自定义变量response接收返回数据 response = requests.get(url=url, headers=headers) # <Response [200]> 表示请求成功, 请求网址成功了 *** 200状态码表示请求成功, 但是不一定能够得到数据获取数据, 服务器返回数据内容 response.text 获取响应文本数据 # print(response.text)解析数据, 提取我们想要数据内容 视频ID # 解析方式: css re xpath # <li data-vid="676382675"> 想要数据 可以(.*?) 从response.text 里面去找寻这样数据内容 # .*? 是可以匹配任意字符(除了\n换行符以外) 如果你只是单纯提取数字 最好用 \d+ 匹配一个或者多个数字 video_ids = re.findall('<li data-vid="(\d+)">', response.text) # 返回列表数据 for video_id in video_ids: # 通过for循环遍历 提取列表里面元素 一个一个提取 # print(video_id)

发送请求, 把视频ID传入到视频数据包里面发送请求

获取数据, 服务器返回数据内容

# f 字符串格式化方法 {} 占位符 video_info = f'https:// **** .com/moment/getMomentContent?videoId={video_id}&uid=&_=1647433310180' json_data = requests.get(url=video_info, headers=headers).json() # print(json_data) # pprint.pprint(json_data) # 根据冒号左边的内容, 提取冒号右边的内容解析数据 title = json_data['data']['moment']['title'] video_url = json_data['data']['moment']['videoInfo']['definitions'][0]['url']保存数据 >>> 发送请求 并且获取数据 """ response.text >>> 文本数据返回字符串数据 response.json() >>> json字典数据 response.content >>> 二进制数据 """ video_content = requests.get(url=video_url, headers=headers).content with open('video\\' + title + '.mp4', mode='wb') as f: f.write(video_content) print(title, video_url)

尾语 💝

好了,今天的分享就差不多到这里了!

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇👇

本文链接地址:https://www.jiuchutong.com/zhishi/298824.html 转载请保留说明!

上一篇:Webpack完整打包流程分析(webpack打包步骤)

下一篇:input输入时的边框样式去除(input输入改变边框颜色)

  • 荣耀x30i手机有语音呼唤吗(荣耀x30i手机有多长)

    荣耀x30i手机有语音呼唤吗(荣耀x30i手机有多长)

  • 微信如何授权抖音登录(微信如何授权抖音绑定微信)

    微信如何授权抖音登录(微信如何授权抖音绑定微信)

  • 苹果13关机定位怎么设置(苹果13关机定位功能持续多久)

    苹果13关机定位怎么设置(苹果13关机定位功能持续多久)

  • 钉钉红包如何转微信(钉钉红包如何转给别人)

    钉钉红包如何转微信(钉钉红包如何转给别人)

  • 微信声音锁在哪(微信声音锁在哪里关闭)

    微信声音锁在哪(微信声音锁在哪里关闭)

  • 插件不受支持怎么解决(电脑显示插件不受支持)

    插件不受支持怎么解决(电脑显示插件不受支持)

  • 苹果11小圆球怎么设置(苹果小圆球怎么设置截屏)

    苹果11小圆球怎么设置(苹果小圆球怎么设置截屏)

  • usb-c转闪电意思是(usb-c转闪电怎么用)

    usb-c转闪电意思是(usb-c转闪电怎么用)

  • 7660和7661的区别(7660跟7661有啥区别)

    7660和7661的区别(7660跟7661有啥区别)

  • Word文档怎么插照片(word文档怎么插视频)

    Word文档怎么插照片(word文档怎么插视频)

  • Word文字怎么转化为表格(word文字怎么转换表格)

    Word文字怎么转化为表格(word文字怎么转换表格)

  • 电脑和手机微信同步的时候手机上会显示吗(电脑和手机微信同步手机删除了电脑还有吗)

    电脑和手机微信同步的时候手机上会显示吗(电脑和手机微信同步手机删除了电脑还有吗)

  • 华硕主板dram灯一直亮(华硕主板dram灯亮黄灯)

    华硕主板dram灯一直亮(华硕主板dram灯亮黄灯)

  • 什么叫class10内存卡(class10以上的内存卡是什么意思)

    什么叫class10内存卡(class10以上的内存卡是什么意思)

  • 微信解封后需要注意什么(微信解封后需要多久才能恢复正常)

    微信解封后需要注意什么(微信解封后需要多久才能恢复正常)

  • 小米手机的健康软件在哪里(小米手机的健康管理在哪里)

    小米手机的健康软件在哪里(小米手机的健康管理在哪里)

  • qq举报人他会知道吗(qq举报人他会知道是谁吗)

    qq举报人他会知道吗(qq举报人他会知道是谁吗)

  • 苹果手机如何超级截屏(苹果手机如何超级省电)

    苹果手机如何超级截屏(苹果手机如何超级省电)

  • 红米手机截屏怎么弄(红米手机截屏怎么截一部分)

    红米手机截屏怎么弄(红米手机截屏怎么截一部分)

  • 小米8是双扬声器吗(小米8双扬声器补丁)

    小米8是双扬声器吗(小米8双扬声器补丁)

  • vivo流光快门怎么用法(vivox60流光快门)

    vivo流光快门怎么用法(vivox60流光快门)

  • 电脑怎么开wifi给手机用(电脑怎么开wifi给手机用win11)

    电脑怎么开wifi给手机用(电脑怎么开wifi给手机用win11)

  • macOS Big Sur系统时间和日期在哪里设置?(macos big sur最新版本)

    macOS Big Sur系统时间和日期在哪里设置?(macos big sur最新版本)

  • 【vue3】使用vite构建vue3项目(vue vif)

    【vue3】使用vite构建vue3项目(vue vif)

  • yolov7数据集格式用于目标识别与实例分割(yolov3数据集格式)

    yolov7数据集格式用于目标识别与实例分割(yolov3数据集格式)

  • 税务是怎么回事
  • 发票商品类别有哪几种
  • 营业费用和管理费用比较
  • 关税消费税增值税计算公式
  • 如何在房产证上加父母名字
  • 总分类一般采用什么格式
  • 支付刻制公司印章费
  • 拆除固定资产的补偿款
  • 外资企业需要遵守哪些法律
  • 我们4月10日
  • 一般纳税人销售旧货
  • 不动产处置流程
  • 减值 计提
  • 1697510660
  • 推广费属于什么科目
  • biospwds最新版
  • 自己怎么做电脑系统
  • php公众号
  • 科普笔记本电脑怎样
  • 购入固定资产的借款利息支出
  • 公司员工个税怎么交
  • 财务清算的作用
  • 分手我不怕
  • php与jquery
  • 公证处会计分录
  • vue显示pdf
  • file读取文件内容
  • 发票勾选了还能冲红吗
  • 帝国cms设置获取IP字段
  • 研发费用加计扣除75%还是100%
  • 车辆过完户保险还能下浮吗
  • 准予扣除业务招标的情形
  • 淘宝企业店必须绑定对公账户吗
  • 新收入准则修订的目的
  • java基础介绍
  • 现金流量表上期金额
  • 印花税可以年底报一次
  • 支付债券发行费怎么算
  • 清卡操作流程
  • MySQL数据库远程登录
  • 财产租赁合同印花税双方都要交吗
  • 印花税申报成功怎么撤回
  • 一般纳税人跨年冲红报年度所得税怎么做
  • 小规模纳税人开专票需要交税吗
  • 研发费用账务调整合同怎么写
  • 固定资产的类别
  • 股东撤资如何退还资金,用途写什么
  • 社保补缴收滞纳金吗
  • 企业尚未给予指定用途
  • 公司给客户的礼品太差了还需要给客户吗
  • 非限定性净资产属于什么科目
  • 账户信息变更说明
  • 取暖费用摊销吗
  • 其他债权投资减值影响账面价值吗
  • 刻章费发票怎么开
  • mysql启动时找不到mysqld.server
  • sqlserver创建链接服务器连接实例
  • 网站windows
  • win7资源管理器未响应怎么办
  • fedora8安装教程
  • unix操作系统命令
  • 设备管理器xp系统
  • adguard安全性
  • win7系统360浏览器自启动怎么关闭
  • Linux系统下以模块方式安装卸载文件系统
  • win10不能注销登录
  • perl语言
  • unity3d官方教程
  • 什么是自然数
  • css中文字垂直排列
  • jquery-easyui-1.3.3
  • 数字图像处理期末考试
  • 安卓app性能测试
  • JavaScript 事件对象介绍
  • jQuery使用zTree插件实现树形菜单和异步加载
  • 上海自贸区税务大厅地址
  • 个体工商户 浙江
  • 江西公安电子证件
  • 安徽省滁州市税务局地址
  • 下载国税网上办税服务厅
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设