位置: IT常识 - 正文

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

编辑:rootadmin
【python】喜欢XJJ?这不得来一波大采集? 前言

推荐整理分享【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python擅长,python爱好者,python喜欢的水果,用python语言说我喜欢你,python爱好者,喜欢python的原因,python爱好者,我喜欢python项目提交,内容如对您有帮助,希望把文章链接给更多的朋友!

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

俗话说的好:技能学了~就要用在自己喜欢得东西上!!

这我不得听个话~我喜欢小姐姐,跳舞的小姐姐

这不得用python把小姐姐舞采集下来~嘿嘿嘿

完整源码、素材皆可点击文章下方名片获取此处跳转知识点:

采集基本流程

re正则表达式简单使用

requests

json数据解析方法

数据保存

采集网站:

开发环境:

Python 3.8

Pycharm

模块使用:

requests >>> pip install requests 第三方模块

re

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名

如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

基本流程(固定):一. 数据来源分析

确定采集内容是什么? (目标网址, 网址里面数据)

通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得

I. 通过分析可以知道 播放url地址是什么?

【python】喜欢XJJ?这不得来一波大采集?(python功能强大而深受欢迎的原因)

II. 通过播放地址, 去分析找寻, 数据包是在哪?

III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容

(图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)

IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)

我想要获取播放地址 >>> 要得到数据包 >>> 获取ID

二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据

发送请求, 对于舞蹈列表页面发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 ID

发送请求, 把ID传入到 数据包里面 发送请求

获取数据, 服务器返回数据内容

解析数据, 提取我们想要数据内容 标题 以及播放地址

保存数据, 把内容保存本地

多页数据采集

代码

(完整源码、素材皆可点击此处+获取)

导入模块

# 导入数据请求模块import requests # 第三方模块 pip install requests 需要自行安装# 导入re正则表达式import re # 内置模块 不需要安装# 导入格式化输出模块import pprint # 内置模块 不需要安装发送请求, 对于舞蹈视频列表页面发送请求for page in range(1, 11): print(f'正在爬取第{page}页的数据内容') url = f'https:// **** .com/g/all?set_id=51&order=hot&page={page}' # 爬虫是模拟浏览器对于服务器发送请求, 然后获取服务器返回数据内容 # user-agent: 用户代理 表示浏览器基本身份信息 (一种简单反反爬手段) headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36' } # 通过requests模块里面get请求方式对于url地址发送请求, 并且携带上headers请求进行伪装, 最后用自定义变量response接收返回数据 response = requests.get(url=url, headers=headers) # <Response [200]> 表示请求成功, 请求网址成功了 *** 200状态码表示请求成功, 但是不一定能够得到数据获取数据, 服务器返回数据内容 response.text 获取响应文本数据 # print(response.text)解析数据, 提取我们想要数据内容 视频ID # 解析方式: css re xpath # <li data-vid="676382675"> 想要数据 可以(.*?) 从response.text 里面去找寻这样数据内容 # .*? 是可以匹配任意字符(除了\n换行符以外) 如果你只是单纯提取数字 最好用 \d+ 匹配一个或者多个数字 video_ids = re.findall('<li data-vid="(\d+)">', response.text) # 返回列表数据 for video_id in video_ids: # 通过for循环遍历 提取列表里面元素 一个一个提取 # print(video_id)

发送请求, 把视频ID传入到视频数据包里面发送请求

获取数据, 服务器返回数据内容

# f 字符串格式化方法 {} 占位符 video_info = f'https:// **** .com/moment/getMomentContent?videoId={video_id}&uid=&_=1647433310180' json_data = requests.get(url=video_info, headers=headers).json() # print(json_data) # pprint.pprint(json_data) # 根据冒号左边的内容, 提取冒号右边的内容解析数据 title = json_data['data']['moment']['title'] video_url = json_data['data']['moment']['videoInfo']['definitions'][0]['url']保存数据 >>> 发送请求 并且获取数据 """ response.text >>> 文本数据返回字符串数据 response.json() >>> json字典数据 response.content >>> 二进制数据 """ video_content = requests.get(url=video_url, headers=headers).content with open('video\\' + title + '.mp4', mode='wb') as f: f.write(video_content) print(title, video_url)

尾语 💝

好了,今天的分享就差不多到这里了!

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇👇

本文链接地址:https://www.jiuchutong.com/zhishi/298824.html 转载请保留说明!

上一篇:Webpack完整打包流程分析(webpack打包步骤)

下一篇:input输入时的边框样式去除(input输入改变边框颜色)

  • 预收货款需要缴纳消费税吗?缴纳消费税的时间应该是?
  • 计提工资年底余额所得税处理
  • 养鸡增值税税率是多少
  • 缴纳个人所得税怎么算
  • 奖金个人所得税税率
  • 个税是按照实发工资计算吗
  • 哪些项目需要交环保税
  • 运输公司的车辆保险费计入什么科目
  • 资金占用费税前扣除比例
  • 劳务公司劳务协议范本
  • 天猫收取的佣金开具的技术服务发票会计分录
  • 挂牌出售无形资产
  • 确认收入时需要结转成本吗
  • 未实缴出资的股东退股
  • 员工借款可以直接转账吗
  • 公司没有缴纳住房公积金离职能要求补缴吗
  • 专用发票包括增值税吗
  • 增值税一般纳税企业支付现金方式取得
  • 财务物料消耗都有哪些
  • 企业的停车违章怎么查
  • 住房公积金的工资基数什么意思
  • 建筑公司如何结算成本
  • 中小企业结算时间不超60天
  • 出口押汇申请书
  • win10指纹传感器在哪里
  • 收到生育津贴的短信是真的吗
  • 待清算专户
  • 房地产企业困境
  • babel-plugin-import
  • PHP:curl_share_init()的用法_cURL函数
  • 公司送红包账务怎么处理
  • php随机一言
  • 摊余成本计量的金融资产若溢价购买小于
  • 2023年第十一批专项债
  • 数据可视化分析
  • “oracle”
  • 私人定制ai绘画下载
  • 火车票抵扣进项税需要认证吗
  • 企业投资计入什么科目
  • 什么叫预缴款
  • 结转成本的会计科目
  • 老板天天吸烟
  • 农产品核定进项
  • mybatis执行过程,原理
  • 购买一台电脑2400元贵吗
  • 给对方开发票需要
  • 培训费属于什么
  • 现金流量表的编制公式 计算公式
  • 采购商品没有进账怎么做账
  • sqlserver存储过程语法
  • 股东投资是否有资金实际收支活动?
  • 公司贷款 利息
  • 没有以前年度损益科目应该加在什么地方
  • sql2008降级2005
  • 在计算应纳税所得额时
  • 应收账款坏账计提比例新标准
  • 收到工会经费如何处理
  • 无形资产入账
  • 弱电工程怎么入账
  • 其他应收款对应的预算会计
  • 月末需要做的会计分录
  • 工程施工会计科目及账务处理
  • mysql 定点数和浮点数
  • win7系统在哪里设置ip地址
  • Windows7任务计划在什么位置?
  • win8系统怎样安装
  • windows xp/2000/2003系统自动登陆设置方法无需输入密码
  • ubuntu怎么设置
  • Win10 Mobile 10572新增实用功能:未接电话会显示响铃的次数
  • win8怎么一开机就进入桌面
  • 一、Unity3D 5.0.1-示例项目“汽车游戏”的展示及开发准备
  • python引用方法
  • js promises
  • json与对象的区别
  • eventbus threadmode
  • jquery实现全选全不选
  • jquery操作表单
  • 喜大普奔含义
  • 下午税务局几点上班
  • 房契税发票丢了能补办吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设