位置: IT常识 - 正文

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

编辑:rootadmin
【python】喜欢XJJ?这不得来一波大采集? 前言

推荐整理分享【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python擅长,python爱好者,python喜欢的水果,用python语言说我喜欢你,python爱好者,喜欢python的原因,python爱好者,我喜欢python项目提交,内容如对您有帮助,希望把文章链接给更多的朋友!

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

俗话说的好:技能学了~就要用在自己喜欢得东西上!!

这我不得听个话~我喜欢小姐姐,跳舞的小姐姐

这不得用python把小姐姐舞采集下来~嘿嘿嘿

完整源码、素材皆可点击文章下方名片获取此处跳转知识点:

采集基本流程

re正则表达式简单使用

requests

json数据解析方法

数据保存

采集网站:

开发环境:

Python 3.8

Pycharm

模块使用:

requests >>> pip install requests 第三方模块

re

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名

如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

基本流程(固定):一. 数据来源分析

确定采集内容是什么? (目标网址, 网址里面数据)

通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得

I. 通过分析可以知道 播放url地址是什么?

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

II. 通过播放地址, 去分析找寻, 数据包是在哪?

III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容

(图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)

IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)

我想要获取播放地址 >>> 要得到数据包 >>> 获取ID

二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据

发送请求, 对于舞蹈列表页面发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 ID

发送请求, 把ID传入到 数据包里面 发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 标题 以及播放地址

保存数据, 把内容保存本地

多页数据采集

代码

(完整源码、素材皆可点击此处+获取)

导入模块

# 导入数据请求模块import requests # 第三方模块 pip install requests 需要自行安装# 导入re正则表达式import re # 内置模块 不需要安装# 导入格式化输出模块import pprint # 内置模块 不需要安装发送请求, 对于舞蹈视频列表页面发送请求for page in range(1, 11): print(f'正在爬取第{page}页的数据内容') url = f'https:// **** .com/g/all?set_id=51&order=hot&page={page}' # 爬虫是模拟浏览器对于服务器发送请求, 然后获取服务器返回数据内容 # user-agent: 用户代理 表示浏览器基本身份信息 (一种简单反反爬手段) headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36' } # 通过requests模块里面get请求方式对于url地址发送请求, 并且携带上headers请求进行伪装, 最后用自定义变量response接收返回数据 response = requests.get(url=url, headers=headers) # <Response [200]> 表示请求成功, 请求网址成功了 *** 200状态码表示请求成功, 但是不一定能够得到数据获取数据, 服务器返回数据内容 response.text 获取响应文本数据 # print(response.text)解析数据, 提取我们想要数据内容 视频ID # 解析方式: css re xpath # <li data-vid="676382675"> 想要数据 可以(.*?) 从response.text 里面去找寻这样数据内容 # .*? 是可以匹配任意字符(除了\n换行符以外) 如果你只是单纯提取数字 最好用 \d+ 匹配一个或者多个数字 video_ids = re.findall('<li data-vid="(\d+)">', response.text) # 返回列表数据 for video_id in video_ids: # 通过for循环遍历 提取列表里面元素 一个一个提取 # print(video_id)

发送请求, 把视频ID传入到视频数据包里面发送请求

获取数据, 服务器返回数据内容

# f 字符串格式化方法 {} 占位符 video_info = f'https:// **** .com/moment/getMomentContent?videoId={video_id}&uid=&_=1647433310180' json_data = requests.get(url=video_info, headers=headers).json() # print(json_data) # pprint.pprint(json_data) # 根据冒号左边的内容, 提取冒号右边的内容解析数据 title = json_data['data']['moment']['title'] video_url = json_data['data']['moment']['videoInfo']['definitions'][0]['url']保存数据 >>> 发送请求 并且获取数据 """ response.text >>> 文本数据返回字符串数据 response.json() >>> json字典数据 response.content >>> 二进制数据 """ video_content = requests.get(url=video_url, headers=headers).content with open('video\\' + title + '.mp4', mode='wb') as f: f.write(video_content) print(title, video_url)

尾语 💝

好了,今天的分享就差不多到这里了!

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇👇

本文链接地址:https://www.jiuchutong.com/zhishi/298824.html 转载请保留说明!

上一篇:Webpack完整打包流程分析(webpack打包步骤)

下一篇:input输入时的边框样式去除(input输入改变边框颜色)

  • qq空间怎么发动态呢(qq空间怎么发动态)

    qq空间怎么发动态呢(qq空间怎么发动态)

  • 苹果手机已删除相册不见了(苹果手机已删除短信可以找回来吗)

    苹果手机已删除相册不见了(苹果手机已删除短信可以找回来吗)

  • 苹果录视频取消杂音(苹果录视频取消hdr)

    苹果录视频取消杂音(苹果录视频取消hdr)

  • 钉钉收不到群信息怎么办(钉钉收不到班级群消息)

    钉钉收不到群信息怎么办(钉钉收不到班级群消息)

  • 怎么查个人名下的手机号(怎么查个人名下有哪些贷款)

    怎么查个人名下的手机号(怎么查个人名下有哪些贷款)

  • 相册的文件夹叫什么(相册在文件管理叫什么)

    相册的文件夹叫什么(相册在文件管理叫什么)

  • 微信刚加好友转账提示(微信刚加好友转账提示风险如何解除)

    微信刚加好友转账提示(微信刚加好友转账提示风险如何解除)

  • 获取下载链接失败怎么回事(获取下载链接失败的原因)

    获取下载链接失败怎么回事(获取下载链接失败的原因)

  • 苹果7升级13发热(苹果7升级ios13发烫)

    苹果7升级13发热(苹果7升级ios13发烫)

  • microsoft visual studio是什么软件(microsoft visual studio下载)

    microsoft visual studio是什么软件(microsoft visual studio下载)

  • 美团评价删除了还能重新评价吗(美团评价删除了还能看到吗)

    美团评价删除了还能重新评价吗(美团评价删除了还能看到吗)

  • 手机能同时登录两个微信号吗

    手机能同时登录两个微信号吗

  • 滴滴不是本人怎么刷脸(滴滴不是本人怎么接单)

    滴滴不是本人怎么刷脸(滴滴不是本人怎么接单)

  • 下划线怎么弄的一样长(下划线怎么弄的快一点)

    下划线怎么弄的一样长(下划线怎么弄的快一点)

  • 手机微云怎么打开(手机微云怎么打开磁力)

    手机微云怎么打开(手机微云怎么打开磁力)

  • 黑鲨2屏幕分辨率多少(黑鲨2pro屏幕分辨率)

    黑鲨2屏幕分辨率多少(黑鲨2pro屏幕分辨率)

  • 快手里的收藏在哪找(快手里的收藏在哪里删除)

    快手里的收藏在哪找(快手里的收藏在哪里删除)

  • 抖音账号密码忘记了(抖音账号密码忘了怎么注销)

    抖音账号密码忘记了(抖音账号密码忘了怎么注销)

  • 华为mate30防窥屏怎么设置(华为mate30防窥屏怎么开启)

    华为mate30防窥屏怎么设置(华为mate30防窥屏怎么开启)

  • 苹果手机通话时怎么录音(苹果手机电话通话)

    苹果手机通话时怎么录音(苹果手机电话通话)

  • 怎么把b站视频导入相册(怎么把b站视频的音频提取出来)

    怎么把b站视频导入相册(怎么把b站视频的音频提取出来)

  • ipadpro可以cad制图吗(ipadpro可以画cad)

    ipadpro可以cad制图吗(ipadpro可以画cad)

  • airpods缝隙脏怎么洗(airpods缝隙脏了)

    airpods缝隙脏怎么洗(airpods缝隙脏了)

  • vivox27和荣耀v20对比分析(vivox27和荣耀10哪个好)

    vivox27和荣耀v20对比分析(vivox27和荣耀10哪个好)

  • 数据链路层的主要功能(数据链路层的主要功能不包括)

    数据链路层的主要功能(数据链路层的主要功能不包括)

  • 行间距22磅怎么设置(行间距22磅怎么弄手机wps)

    行间距22磅怎么设置(行间距22磅怎么弄手机wps)

  • python里类自动调用方法有哪些(python调用自定义类)

    python里类自动调用方法有哪些(python调用自定义类)

  • 保险税优识别码是保单号吗
  • 收到汇算清缴退回企业所得税分录
  • 什么是价税分离?
  • 计提环境保护税怎么计算
  • 独立法人有什么风险
  • 预缴的附加税月末结转吗
  • 非同一控制企业合并下,购买日将
  • 建立明细账的注意事项
  • 购买农产品发票买价含税吗
  • 进项税额转出补交税金会计分录
  • 注销公司方便吗
  • 施工企业已完工程成本如何结转
  • 投资收益率如何确定
  • 合同中补充协议
  • 单位参加城镇职工基本养老保险基数怎么填
  • 享受高新技术企业优惠的条件之一
  • 银行不肯给电子承兑贴现怎么回事
  • 分公司可以列为被告吗
  • 收到退回的银行汇票会计分录
  • 提现属于支出吗
  • 季报中现金流量表报的是当季的还是本年累计数
  • 委托进口代理协议
  • 采购过程中产生的物流成本案例分析
  • 其他资金结转结余包括哪些
  • php 字符串
  • deepin正式版
  • Win7系统僵尸部队4存档丢失的解决方法
  • php substr()
  • php格式图片
  • 低值易耗品是怎样的
  • php快速推送微信内容
  • 发票收款人和复核人,开票人没填影响报销吗
  • laravel框架关键技术解析
  • html调查问卷简单代码
  • javascript手机版
  • 金税盘锁死状态
  • vue点击按钮显示对应的内容
  • transformer模型包含哪些结构
  • vue的mvvm模型
  • 【历史上的今天】3 月 29 日:“机器人三定律”问世;电脑动画首次获得奥斯卡;Caldera Linux 沉浮史
  • arp命令行
  • 制造业属不属于第二产业
  • 银行手续费必须有发票才能入账吗
  • nacos注册流程
  • 函数的单调性
  • python dup函数
  • 企业自产自用产品要确认收入吗
  • 免交增值税应该计入什么科目
  • 建筑劳务公司一年赚多少钱
  • 招聘招一个人爱我图片
  • 企业所得税的步骤
  • 水电费没有票怎么做账
  • 工资薪酬所得税税率表最新
  • 工程增值税抵扣比例
  • 土地出让金抵减销项税计算
  • 本年利润的会计科目代码
  • sql server数据库怎么导出
  • sql数据库批量添加数据
  • win10安装完成后需要做哪些设置
  • windows导航栏在左边
  • win2003和xp一样吗
  • 国产系统叫啥
  • 最简单最快乐
  • macbook的dock栏怎么不见了
  • centos soft lockup
  • 电脑window8系统怎么样
  • 如何永久激活win11
  • win7系统怎么创建虚拟网络
  • win10周年版
  • win7系统连不了网络
  • cocos2dx 3.4 Label中文显示
  • 批处理执行bat文件
  • 基于android的简单程序
  • shell脚本 -ne 0
  • Python3使用requests包抓取并保存网页源码的方法
  • Android音乐播放器评论功能怎么实现
  • 残疾人就业保障金减免政策2022
  • 汽车买保险车船税是什么意思
  • 样板房费用属于开发成本的什么明细科目
  • 民族贸易产生的原因
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设