位置: 编程技术 - 正文

用Python编写简单的微博爬虫(用python编写简单程序)

编辑:rootadmin

推荐整理分享用Python编写简单的微博爬虫(用python编写简单程序),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:用python编写简单乘法表,用python编写简单计算器,用python编写简单计算器,用python编写简单的六一儿童节祝福,用python编写简单程序,用python编写简单程序要多久,用python编写简单计算机程序,用python编写简单计算机程序,内容如对您有帮助,希望把文章链接给更多的朋友!

先说点题外话,我一开始想使用Sina Weibo API来获取微博内容,但后来发现新浪微博的API限制实在太多,大家感受一下:

只能获取当前授权的用户(就是自己),而且只能返回最新的5条,WTF!所以果断放弃掉这条路,改为『生爬』,因为PC端的微博是Ajax的动态加载,爬取起来有些困难,我果断知难而退,改为对移动端的微博进行爬取,因为移动端的微博可以通过分页爬取的方式来一次性爬取所有微博内容,这样工作就简化了不少。

最后实现的功能:

1、输入要爬取的微博用户的user_id,获得该用户的所有微博2、文字内容保存到以%user_id命名文本文件中,所有高清原图保存在weibo_image文件夹中具体操作:首先我们要获得自己的cookie,这里只说chrome的获取方法。

1、用chrome打开新浪微博移动端2、option+command+i调出开发者工具3、点开Network,将Preserve log选项选中4、输入账号密码,登录新浪微博

5、找到m.weibo.cn->Headers->Cookie,把cookie复制到代码中的#your cookie处

用Python编写简单的微博爬虫(用python编写简单程序)

然后再获取你想爬取的用户的user_id,这个我不用多说啥了吧,点开用户主页,地址栏里面那个号码就是user_id

将python代码保存到weibo_spider.py文件中定位到当前目录下后,命令行执行python weibo_spider.py user_id当然如果你忘记在后面加user_id,执行的时候命令行也会提示你输入

最后执行结束

小问题:在我的测试中,有的时候会出现图片下载失败的问题,具体原因还不是很清楚,可能是网速问题,因为我宿舍的网速实在太不稳定了,当然也有可能是别的问题,所以在程序根目录下面,我还生成了一个userid_imageurls的文本文件,里面存储了爬取的所有图片的下载链接,如果出现大片的图片下载失败,可以将该链接群一股脑导进迅雷等下载工具进行下载。

另外,我的系统是OSX EI Capitan..2,Python的版本是2.7,依赖库用sudo pip install XXXX就可以安装,具体配置问题可以自行stackoverflow,这里就不展开讲了。

下面我就给出实现代码

一个简单的微博爬虫就完成了,希望对大家的学习有所帮助。

使用py2exe在Windows下将Python程序转为exe文件 前提条件:需要安装easy-install模块,这是一个python的模块打包工具。首先下载easy_setup.py的源代码,下载地址:

使用Python来开发Markdown脚本扩展的实例分享 关于Markdown在刚才的导语里提到,Markdown是一种用来写作的轻量级「标记语言」,它用简洁的语法代替排版,而不像一般我们用的字处理软件Word或Pages有

Python多线程爬虫简单示例 python是支持多线程的,主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方

标签: 用python编写简单程序

本文链接地址:https://www.jiuchutong.com/biancheng/383380.html 转载请保留说明!

上一篇:python相似模块用例

下一篇:使用py2exe在Windows下将Python程序转为exe文件(python在windows)

  • 安装服务费增值税专票税率多少
  • 包装物租金要交消费税吗为什么
  • 物流企业怎么做大做强?
  • 结构性存款现金流量表如何分类
  • 账面价值低于可变现净值按什么计量
  • 幼儿园财务科目设置
  • 资产减值损失影响利润吗
  • 网上报税需要准备什么资料
  • 购进库存商品到销售全部分录
  • 附加税退回分录
  • 通用定额发票真伪查询系统
  • 销售免税产品怎么做分录
  • 跨年度借款利息的税务处理怎么做?
  • 以土地出资土地增值税
  • 商贸企业销售商品结转成本是手工算吗
  • 结算本月应付职工薪酬,其中生产工人工资为18000
  • 开具旧税号也能认证成功
  • 股权转让印花税减半征收政策
  • 国税代开增值税专票开错了如何处理?
  • 企业出售已使用过的固定资产税率
  • 老总来公司视察
  • 夫妻房产分割哪家好
  • 银行承兑汇票没有提示付款
  • 非营利组织怎么申请
  • 收到政府补助的现金流
  • 大白菜u盘启动后黑屏
  • 浅谈使用链式管理加强特殊监管场所
  • 后端返回pdf文件地址,前端怎么渲染到页面
  • 缴纳租房押金会被骗吗
  • 善意取得虚开增值税专用发票处理
  • 送货上门需要其他费用吗
  • python基本功
  • 企业汇算清缴发现之前收入记多了可以调整吗
  • php -a
  • nginx webservice
  • 前端从后端拿excel文件
  • 微信小程序在哪里找?
  • 图书发行员证书在哪里办理
  • python读取TXT文件代码
  • 农业企业所得税是免税的吗
  • 参展费会计分录
  • 销售佣金分录
  • 2201应付职工薪酬
  • 企业贷款贴息怎么做账
  • python time. time
  • 个税申报系统累计收入怎么算
  • 销售收入和销售净收入的区别
  • 累计净值包含业绩吗
  • 出口退税帐务处理
  • 招待费和差旅费的区别
  • 红字发票账务处理需冲回成本吗?
  • 差旅费住宿专票可以抵扣增值税吗
  • 研发支出属于什么要素
  • 专利技术评估价值7亿
  • 债权投资减值准备是什么科目
  • 外包加工如何做账
  • 取得资产需要付出成本吗
  • 免抵税额什么意思
  • 处置投资性房地产取得的收入属于企业收入吗
  • 什么是成本费用,什么是经营成本
  • 网站和店铺的区别
  • mysql char函数
  • win8.1无法进入系统
  • windows2003服务
  • win10 io1
  • win8找不到桌面
  • windows8.1的图片
  • linux的命令行界面是什么意思
  • cocos2dx 3.0 beta android环境配置
  • python笛卡尔积
  • javascript+
  • javascript的介绍
  • jquery移出class
  • android开发app
  • 南京国家税务局网上办税服务厅
  • 怎样在江苏智慧人社上停保
  • 建筑施工企业一级资质企业,安全生产管理
  • 没盖发票专用章可以补盖吗
  • 2021年个税退税条件
  • 岗位练兵的作用
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设