位置: 编程技术 - 正文

PHP+HTML+JavaScript+Css实现简单爬虫开发

编辑:rootadmin

推荐整理分享PHP+HTML+JavaScript+Css实现简单爬虫开发,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章,并获取它的链接,以便我快速阅读。

按照个人习惯,我首先要写一个界面,理清下思路。

1、去不同网站。那么我们需要一个url输入框。

2、找特定关键字的文章。那么我们需要一个文章标题输入框。

3、获取文章链接。那么我们需要一个搜索结果的显示容器。

直接上代码,然后加上自己的一些样式调整,界面就完成啦:

PHP+HTML+JavaScript+Css实现简单爬虫开发

那么接下来就是功能的实现了,我用PHP来写,首先第一步就是获取网站的html代码,获取html代码的方式也有很多,我就不一一介绍了,这里用了curl来获取,传入网站url就能得到html代码啦:

虽然得到了html代码,但是很快你会遇到一个问题,那就是编码问题,这可能让你下一步的匹配无功而返,我们这里统一把得到的html内容转为utf8编码:

得到网站的html,要获取文章的url,那么下一步就是要匹配该网页下的所有a标签,需要用到正则表达式,经过多次测试,最终得到一个比较靠谱的正则表达式,不管a标签下结构多复杂,只要是a标签的都不放过:(最关键的一步)

匹配的结果在$matches中,它大概是这样的一个多维素组:

只要能得到这个数据,其他就完全可以操作啦,你可以遍历这个素组,找到你想要a标签,然后获取a标签相应的属性,想怎么操作就怎么操作啦,下面推荐一个类,让你更方便操作a标签:

当然,这只是一种方式,你也可以通过正则表达式匹配你想要的信息,把数据玩出新花样。

得到并匹配得出你想要的结果,下一步当然就是传回前端将他们显示出来啦,把接口写好,然后前端用js获取数据,用jquery动态添加内容显示出来:

上最终效果图:

标签: PHP+HTML+JavaScript+Css实现简单爬虫开发

本文链接地址:https://www.jiuchutong.com/biancheng/292494.html 转载请保留说明!

上一篇:浅谈PHP中其他类型转化为Bool类型(浅谈php中其他类的使用)

下一篇:PHP中抽象类、接口的区别与选择分析(php抽象函数)

  • 销项税额是指
  • 孳息和利息的区别
  • 疫情期间固定资产折旧优惠政策
  • 一般纳税人应交增值税怎么算
  • 购买原材料记账凭证怎么写
  • 报销必须是公司吗
  • 企业会计准则利润表本期金额
  • 营改增后房地产公司税种及税率
  • 商铺售后返租的会计分录
  • 企业安全防护措施有哪些
  • 红冲上月的其他应收款凭证怎么做?
  • 租车补贴记入工资的会计处理怎么做?
  • 计提工资会计科目怎么写
  • 房产税免收范围包括
  • 印花税的计税依据怎么算含税还是不含税
  • 营改增对运输业的影响
  • 本月只有红字发票该怎么申报小规模
  • 直接融资租赁模式
  • 何为风险报酬?
  • 工会经费结余怎么记账
  • 1697506686
  • 记账凭证需要哪些人员签章
  • 企业所得税营业收入
  • 没有单据怎么核算成本?
  • 废旧物资收购发票
  • 增值税留抵税额会计科目
  • 路由器ip分配数量
  • 税盘减免税款的会计分录
  • 固定资产改扩建账务处理
  • linux sed -s
  • 转出未交增值税什么意思
  • 待机最长的手机智能排行榜 2020
  • 差旅费包干什么意思
  • 什么情况下附加税减半征收
  • php如何实现
  • javaweb实验一
  • php判断字符串是否为ip地址
  • 一次开票分期确认怎么弄
  • 短期股票投资售出
  • sql server干嘛的
  • SQL Server 2005通用分页存储过程及多表联接应用
  • mysql存储引擎有哪些区别
  • 防伪码显示查询次数和时间
  • 纸质专票红冲
  • 承包经营所得个人所得税计算举例
  • 支付到期承兑汇票属于什么现金流量项目
  • 税控设备全额抵减
  • 专项应付款如何冲减
  • 影院会计有前景吗
  • 转账支票的密码需要填写吗
  • 公账直接转给个人,对公司有什么影响吗
  • 商品销售企业成本包括
  • 会计怎么做的
  • 各单位应当设置专职能源管理岗位
  • sqlserver连接到服务器
  • centos sync
  • ubuntu 18.04网络连接
  • 硬盘安装win8.1
  • ubuntu20 配置静态ip
  • windows使用linux软件
  • win7系统ie8浏览器
  • win7系统升级win8
  • win7文件夹选项在哪里打开
  • windows休眠文件
  • win8显示隐藏文件夹
  • javascript运用
  • python里面import
  • 1.常用
  • unity打包package
  • js表单验证实例怎么写
  • 彻底弄懂js中的this指向
  • python算法的应用
  • js判断ua
  • 企业之间无偿借款是否交税
  • 税务部门立足
  • 电子税务局怎么缴纳社保费
  • 买下中国需要多少钱?
  • 教育费附加申报表
  • 网上怎么开电子一票通
  • 城镇土地使用税暂行条例
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设