位置: 编程技术 - 正文

php实现简单爬虫的开发(php curl爬虫)

编辑:rootadmin

推荐整理分享php实现简单爬虫的开发(php curl爬虫),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:php爬虫框架phpspider,php网络爬虫,php网络爬虫,php爬虫框架phpspider,php怎么写爬虫,php怎么写爬虫,php怎么写爬虫,php爬虫框架phpspider,内容如对您有帮助,希望把文章链接给更多的朋友!

有时候因为工作、自身的需求,我们都会去浏览不同网站去获取我们需要的数据,于是爬虫应运而生,下面是我在开发一个简单爬虫的经过与遇到的问题。

开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章,并获取它的链接,以便我快速阅读。

按照个人习惯,我首先要写一个界面,理清下思路。

1、去不同网站。那么我们需要一个url输入框。 2、找特定关键字的文章。那么我们需要一个文章标题输入框。 3、获取文章链接。那么我们需要一个搜索结果的显示容器。

直接上代码,然后加上自己的一些样式调整,界面就完成啦:

那么接下来就是功能的实现了,我用PHP来写,首先第一步就是获取网站的html代码,获取html代码的方式也有很多,我就不一一介绍了,这里用了curl来获取,传入网站url就能得到html代码啦:

php实现简单爬虫的开发(php curl爬虫)

虽然得到了html代码,但是很快你会遇到一个问题,那就是编码问题,这可能让你下一步的匹配无功而返,我们这里统一把得到的html内容转为utf8编码:

得到网站的html,要获取文章的url,那么下一步就是要匹配该网页下的所有a标签,需要用到正则表达式,经过多次测试,最终得到一个比较靠谱的正则表达式,不管a标签下结构多复杂,只要是a标签的都不放过:(最关键的一步)

匹配的结果在$matches中,它大概是这样的一个多维素组:

只要能得到这个数据,其他就完全可以操作啦,你可以遍历这个素组,找到你想要a标签,然后获取a标签相应的属性,想怎么操作就怎么操作啦,下面推荐一个类,让你更方便操作a标签:

当然,这只是一种方式,你也可以通过正则表达式匹配你想要的信息,把数据玩出新花样。

得到并匹配得出你想要的结果,下一步当然就是传回前端将他们显示出来啦,把接口写好,然后前端用js获取数据,用jquery动态添加内容显示出来:

上最终效果图:

CodeIgniter分页类pagination使用方法示例 本文实例讲述了CodeIgniter分页类pagination使用方法。分享给大家供大家参考,具体如下:controller控制器(application/controller/page.php文件):publicfunctionindex()

CI分页类首页、尾页不显示的解决方法 本文实例讲述了CI分页类首页、尾页不显示的解决方法。分享给大家供大家参考,具体如下:看了下手册说,每次都要重新去写一次呢些$config,可以新

CI配置多数据库访问的方法 本文实例讲述了CI配置多数据库访问的方法。分享给大家供大家参考,具体如下:1、修改datebase.php文件,将:$db['XXX']['pconnect']=TRUE;修改成:$db['XXX']['pcon

标签: php curl爬虫

本文链接地址:https://www.jiuchutong.com/biancheng/293176.html 转载请保留说明!

上一篇:PHP 生成微信红包代码简单(php制作微信小程序)

下一篇:CodeIgniter分页类pagination使用方法示例(java分页page类)

  • 小型微利企业税率2023
  • 哪些收入应该纳入到个人所得税
  • 退增值税需要多久
  • 待清算商户款项怎么做账
  • 增值税普通发票和普通发票的区别怎么交税
  • 归集研发费用时怎么计算
  • 房地产企业交纳所得税吗
  • 养老基金利率多少
  • 工资计提多了怎么冲
  • 一般纳税人从按照简易计税方法依照3%
  • 营改增后开餐厅需要交什么税?
  • 汇算清缴调增税金及附加
  • 营改增后转让土地使用权
  • 增值税普通发票怎么开
  • 普票和专票的税率分别是多少
  • 2021年保险营销员
  • 去年的暂估成本今年如何冲掉
  • 跨地区经营建筑企业预缴企业所得税
  • 企业年检网上申报时间
  • 土地使用权摊销年限最新规定
  • 仓库的账怎么做
  • 挑主板要注意什么
  • 企业纳税申报的流程
  • 社保怎么计提
  • 计提税金及附加怎么算
  • 固定资产清理应交税费怎么算
  • pqv2isvc.exe - pqv2isvc是什么进程 有什么作用
  • bios详细解释及作用
  • 车辆交通罚款怎样避免重复报销
  • 独资子公司如何注册
  • 禁止input标签输入
  • 从奎雷英山口看到的 Leum na Luirginn湖和Cleat湖,英国斯凯岛 (© Sebastian Wasek/Sime/eStock Photo)
  • php linux常用命令
  • 存货损失的账务处理
  • 房地产企业借款可以用未建成的房子设定浮动抵押吗?
  • php正则函数内容匹配
  • 收入凭证填写
  • vue中created和mounted
  • php url函数
  • python读取TXT文件代码
  • python字典添加数据
  • 再生资源回收企业现状
  • 税票和发票的区别图片
  • 资产损失税前扣除最新政策2021
  • 抵扣进项税额是啥意思
  • 电子发票开错了应该怎么办?
  • 金税四期什么时候全国运行
  • 职工教育经费是否可以抵扣进项税
  • 月底库存现金可以有余额吗
  • 计提租金如何做账务处理
  • 工程项目增值税预缴税率
  • 无形资产未取得发票
  • 缴纳城市维护建设税的纳税人有哪些
  • 企业外购的无形资产的成本包括
  • 物业安装摄像头的规定
  • 参展费会计分录
  • 专用发票怎么入账
  • 净资产收益率怎么算出来的
  • 新公司建账流程及日常业务处理
  • 盘古pg插件
  • mac os 应用
  • 让xp系统自动修复软件
  • linux高级选项
  • excel表格用windows7打不开
  • linux中tail命令详解
  • opencli
  • css条件语句
  • cocos2dx 不规则按钮的实现
  • opengl shader实例
  • Linux进程通信(IPC)方式简介
  • xp系统explorer停止工作
  • shell编程总结
  • unity cpu优化
  • javascript ts
  • python smtplib模块详解
  • jquery实现原理
  • 辽宁省财政局会计网
  • 开票盘是什么意思
  • 开展志愿服务关爱活动
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设