位置: 编程技术 - 正文

PHP+HTML+JavaScript+Css实现简单爬虫开发

编辑:rootadmin

推荐整理分享PHP+HTML+JavaScript+Css实现简单爬虫开发,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章,并获取它的链接,以便我快速阅读。

按照个人习惯,我首先要写一个界面,理清下思路。

1、去不同网站。那么我们需要一个url输入框。

2、找特定关键字的文章。那么我们需要一个文章标题输入框。

3、获取文章链接。那么我们需要一个搜索结果的显示容器。

直接上代码,然后加上自己的一些样式调整,界面就完成啦:

PHP+HTML+JavaScript+Css实现简单爬虫开发

那么接下来就是功能的实现了,我用PHP来写,首先第一步就是获取网站的html代码,获取html代码的方式也有很多,我就不一一介绍了,这里用了curl来获取,传入网站url就能得到html代码啦:

虽然得到了html代码,但是很快你会遇到一个问题,那就是编码问题,这可能让你下一步的匹配无功而返,我们这里统一把得到的html内容转为utf8编码:

得到网站的html,要获取文章的url,那么下一步就是要匹配该网页下的所有a标签,需要用到正则表达式,经过多次测试,最终得到一个比较靠谱的正则表达式,不管a标签下结构多复杂,只要是a标签的都不放过:(最关键的一步)

匹配的结果在$matches中,它大概是这样的一个多维素组:

只要能得到这个数据,其他就完全可以操作啦,你可以遍历这个素组,找到你想要a标签,然后获取a标签相应的属性,想怎么操作就怎么操作啦,下面推荐一个类,让你更方便操作a标签:

当然,这只是一种方式,你也可以通过正则表达式匹配你想要的信息,把数据玩出新花样。

得到并匹配得出你想要的结果,下一步当然就是传回前端将他们显示出来啦,把接口写好,然后前端用js获取数据,用jquery动态添加内容显示出来:

上最终效果图:

标签: PHP+HTML+JavaScript+Css实现简单爬虫开发

本文链接地址:https://www.jiuchutong.com/biancheng/292494.html 转载请保留说明!

上一篇:浅谈PHP中其他类型转化为Bool类型(浅谈php中其他类的使用)

下一篇:PHP中抽象类、接口的区别与选择分析(php抽象函数)

  • 小规模合作社免税吗
  • 破产企业发放工资要不要纳税?
  • 工会经费计税基数包含支付职工的辞退福利
  • 个人独资企业租赁收入如何纳税
  • 汇算清缴业务招待费调整分录
  • 本年利润结转在贷方表示什么意思
  • 公关费用明细表
  • 收到别人的承兑怎么入账
  • 租车补贴记入工资的会计处理怎么做?
  • 资产损失类型有哪些
  • 申报作废的多申报的退款怎么处理?
  • 营业外收入是否报增值税
  • 事业单位固定资产报废的账务处理
  • 研发费用如何界定
  • 年末利润分配会计处理
  • 收到管理费用的会计科目
  • 建筑公司购买的材料计入什么科目
  • 应收和预收可以抵消吗
  • 以资抵债方式取得的无形资产如何记账?
  • 如何结转销售收入
  • 房屋出租预收租金房产税纳税义务发生时间
  • 个体工商户与其经营者构成共同侵权吗
  • 每股收益增长率计算公式
  • mac如何修改照片的尺寸大小
  • 财务里计提是什么意思
  • 报销费用多付会计分录
  • 代理进口的增值税如何入账
  • 担保损失会计分录
  • 会计账簿的错账怎么办
  • 无形资产摊销会影响利润吗
  • yii2框架运行原理
  • 实收资本本年利润属于什么科目
  • 酒吧会计要做些什么
  • vscode安装选项
  • openresty php
  • vue中key
  • 多智能体概念
  • json有几种基本结构
  • 职工教育经费是否可以抵扣进项税
  • 公司注册资金多长时间可提出来
  • 帝国cms如何设置最新
  • 加班补贴费
  • 电脑耗材发票税点多少
  • centos 安装dpkg
  • 总分机构纳税
  • 如何判断关联
  • 预收账款的会计要素
  • 进项加计抵扣
  • 等线支付给劳务派遣单位的工资怎么做账?
  • 哪些免征土地使用税
  • 计提费用账务处理
  • 食堂菜金属于什么费用
  • 甲企业持有乙企业40%的股权,能够对乙企业
  • 存货周转率多少算合理
  • 建筑设计行业收费标准
  • 收银系统入库入错了怎么办
  • 费用报销银行转账用途怎么写
  • mysql数据库分区查询
  • ubuntu调出命令行
  • windows自带的应用程序
  • WinAce.exe - WinAce是什么进程
  • SMax4PNP.exe - SMax4PNP是什么进程
  • linux系统编译命令
  • 如何在win7系统中查看电脑基本信息
  • windows 8
  • 边学边玩的游戏
  • CCProgressTimer 进度条动画在cocos2dx+lua中的使用
  • js中document.write
  • 如何关闭危险端口
  • 支持向量机
  • android内存泄露 工具
  • python3利用smtplib通过qq邮箱发送邮件方法示例
  • vue数组里面添加数组
  • 深入理解计算机系统 电子书
  • 魅蓝notezol
  • bootstrap按钮图标
  • android自学
  • js数组操作的常用方法有哪些
  • 河南省低保信息查询
  • 移动手机话费代扣
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设