位置: 编程技术 - 正文

用Python编写简单的微博爬虫(用python编写简单程序)

编辑:rootadmin

推荐整理分享用Python编写简单的微博爬虫(用python编写简单程序),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:用python编写简单乘法表,用python编写简单计算器,用python编写简单计算器,用python编写简单的六一儿童节祝福,用python编写简单程序,用python编写简单程序要多久,用python编写简单计算机程序,用python编写简单计算机程序,内容如对您有帮助,希望把文章链接给更多的朋友!

先说点题外话,我一开始想使用Sina Weibo API来获取微博内容,但后来发现新浪微博的API限制实在太多,大家感受一下:

只能获取当前授权的用户(就是自己),而且只能返回最新的5条,WTF!所以果断放弃掉这条路,改为『生爬』,因为PC端的微博是Ajax的动态加载,爬取起来有些困难,我果断知难而退,改为对移动端的微博进行爬取,因为移动端的微博可以通过分页爬取的方式来一次性爬取所有微博内容,这样工作就简化了不少。

最后实现的功能:

1、输入要爬取的微博用户的user_id,获得该用户的所有微博2、文字内容保存到以%user_id命名文本文件中,所有高清原图保存在weibo_image文件夹中具体操作:首先我们要获得自己的cookie,这里只说chrome的获取方法。

1、用chrome打开新浪微博移动端2、option+command+i调出开发者工具3、点开Network,将Preserve log选项选中4、输入账号密码,登录新浪微博

5、找到m.weibo.cn->Headers->Cookie,把cookie复制到代码中的#your cookie处

用Python编写简单的微博爬虫(用python编写简单程序)

然后再获取你想爬取的用户的user_id,这个我不用多说啥了吧,点开用户主页,地址栏里面那个号码就是user_id

将python代码保存到weibo_spider.py文件中定位到当前目录下后,命令行执行python weibo_spider.py user_id当然如果你忘记在后面加user_id,执行的时候命令行也会提示你输入

最后执行结束

小问题:在我的测试中,有的时候会出现图片下载失败的问题,具体原因还不是很清楚,可能是网速问题,因为我宿舍的网速实在太不稳定了,当然也有可能是别的问题,所以在程序根目录下面,我还生成了一个userid_imageurls的文本文件,里面存储了爬取的所有图片的下载链接,如果出现大片的图片下载失败,可以将该链接群一股脑导进迅雷等下载工具进行下载。

另外,我的系统是OSX EI Capitan..2,Python的版本是2.7,依赖库用sudo pip install XXXX就可以安装,具体配置问题可以自行stackoverflow,这里就不展开讲了。

下面我就给出实现代码

一个简单的微博爬虫就完成了,希望对大家的学习有所帮助。

使用py2exe在Windows下将Python程序转为exe文件 前提条件:需要安装easy-install模块,这是一个python的模块打包工具。首先下载easy_setup.py的源代码,下载地址:

使用Python来开发Markdown脚本扩展的实例分享 关于Markdown在刚才的导语里提到,Markdown是一种用来写作的轻量级「标记语言」,它用简洁的语法代替排版,而不像一般我们用的字处理软件Word或Pages有

Python多线程爬虫简单示例 python是支持多线程的,主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方

标签: 用python编写简单程序

本文链接地址:https://www.jiuchutong.com/biancheng/383380.html 转载请保留说明!

上一篇:python相似模块用例

下一篇:使用py2exe在Windows下将Python程序转为exe文件(python在windows)

  • 甲企业持有乙企业的非上市股票2000股
  • 餐具报损表格样板
  • 教育培训行业是干什么的
  • 期初试算平衡表不平衡怎么查
  • 赠送货物怎么入账
  • 母公司及子公司借款要利息吗
  • 出口专用发票应在哪里开
  • 旅游费用可以报销吗
  • 净资产出资账务处理流程
  • 承包费收入如何做账
  • 法院一直扣着我的钱不给可以起诉他吗
  • 业务协作费是什么
  • 财报分析推荐书籍
  • 境外公司委托境内公司提供劳务
  • 关联企业纳税调整期限
  • 小企业补贴收入怎么做账
  • 华为折叠手机mateXs
  • 鸿蒙系统大文件夹怎么调节大小
  • 销售二手车减免税额会计分录
  • 如何设置两台路由器连接
  • macos快捷键一览
  • 委托加工物资企业收回自用
  • 无形资产摊销会影响利润吗
  • 邮政电信卡
  • vue多入口文件
  • 担保公司未到期责任准备金会计及税务处理案例
  • php如何实现分页功能
  • cjzc框架
  • 建安企业账务处理 工程施工
  • 房产置换怎么做账务处理
  • 进口增值税抵扣期限
  • c语言中局部变量和全局变量同名
  • 帝国cms可以做商标吗
  • 营业税改增值税是什么意思
  • 银行代发工资流程
  • 快速实现愿望超灵的方法
  • SQLServer2005 Output子句获取刚插入的ID值
  • sqlserver2005创建表
  • 建材公司小规模年收入多少缴税
  • 企业资金管理是什么意思
  • 钢管扣件租赁公司账务处理
  • 银行承兑到期后未兑付
  • 报废的固定资产清理的净损失计入营业外支出
  • 因员工过失造成的工伤用不用赔
  • 付款申请单如何管理
  • 外币折算差额怎么计算
  • 应付账款扣款分录
  • 小规模纳税人购入固定资产怎么做账
  • 所得税不退税怎么写情况说明
  • 股权投资如何记账
  • 工程进度开票如何入账
  • 销项税和进项税的借贷方向
  • 个体工商户对公账户需要交税吗
  • 无形资产的研发支出
  • 企业增资还需要增资账户么
  • 建账需要买哪些会计用品
  • Linux虚拟机下mysql 5.7安装配置方法图文教程
  • bash是什么意思中文翻译
  • win10一天更新几次
  • xp系统java环境变量配置
  • ubuntu 20.04 unity
  • windows局域网共享文件用的什么协议
  • win10扫雷在哪打开
  • win8任务栏假死
  • 如何使用ssh
  • linux shell脚本实例
  • windows7basic怎么改
  • javascript.info
  • html5能做游戏吗
  • Node.js中的全局变量有哪些
  • python爬虫爬取京东某个商品
  • linux搭建ftp服务器
  • 手游开发流程具体
  • JavaScript File API实现文件上传预览
  • javascript怎么学
  • 小规模纳税人无进项发票要如何做账?
  • 管道运输合同需不需要缴纳印花税
  • 纳税人信用信息
  • 补交以前年度城建税费怎么做账
  • 无纸化同义词
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设