位置: 编程技术 - 正文

PHP怎样用正则抓取页面中的网址(php 正则表达式教程)

编辑:rootadmin

推荐整理分享PHP怎样用正则抓取页面中的网址(php 正则表达式教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:php 正则表达式教程,php正则表达式验证url,php常用正则,php正则匹配链接,php 正则,php正则表达式匹配链接,phpemail正则,php 正则,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

链接也就是超级链接,是从一个元素(文字、图片、视频等)链接到另一个元素(文字、图片、视频等)。网页中的链接一般有三种,一种是绝对URL超链接,也就是一个页面的完整路径;另一种是相对URL超链接,一般都链接到同一网站的其他页面;还有一种是页面内的超链接,这种一般链接到同一页面内的其他位置。

搞清楚了链接的种类,就知道要抓链接,主要还是绝对URL超链接和相对URL超链接。要写出正确的正则表达式,就必须要了解我们查找的对象的模式。

PHP怎样用正则抓取页面中的网址(php 正则表达式教程)

先说绝对链接,也叫作URL(Uniform Resource Locator),标识了互联网上的唯一资源。URL的结构包含三部分:协议、服务器名称、路径和文件名。

协议是告诉浏览器如何处理将要打开文件的标识,最常见的就是 http 协议。本文也只考虑HTTP协议,至于其他的 https、ftp、mailto、telnet协议等,根据需要也可以添加。

服务器名称是告诉浏览器如何到达这个服务器的方式,通常是域名或者IP地址,有时还会包含端口号(默认为)。FTP协议中,也可以包含用户名和密码,本文就不考虑了。

路径和文件名,一般以 / 分割,指出到达这个文件的路径和文件本身的名称。如果没有具体的文件名,则访问这个文件夹下的默认文件(可以在服务器端设置)。

那么现在清楚了,要抓取的绝对链接的典型形式可以概括为

preg_match_all() 匹配时,结果数组索引0为全部结果、1为协议、2为域名、3为相对路径。

本文链接地址:https://www.jiuchutong.com/biancheng/301412.html 转载请保留说明!

上一篇:php阳历转农历优化版(php制作日历代码)

下一篇:教你在header中隐藏php的版本信息(如何让header居中)

免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

鄂ICP备2023003026号

网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

友情链接: 武汉网站建设 电脑维修 湖南楚通运网络