位置: - 正文

一个PHP实现的轻量级简单爬虫(php单独运行)

编辑：rootadmin

推荐整理分享一个PHP实现的轻量级简单爬虫(php单独运行)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:php做,php底层实现,php做,php有多简单,php单独运行,php如何实现,php如何实现,一个php请求的执行过程,内容如对您有帮助，希望把文章链接给更多的朋友！

最近需要收集资料，在浏览器上用另存为的方式实在是很麻烦，而且不利于存储和检索。所以自己写了一个小爬虫，在网上爬东西，迄今为止，已经爬了近百万张网页。现在正在想办法着手处理这些数据。

爬虫的结构：爬虫的原理其实很简单，就是分析下载的页面，找出其中的连接，然后再下载这些链接，再分析再下载，周而复始。在数据存储方面，数据库是首选，便于检索，而开发语言，只要支持正则表达式就可以了，数据库我选择了mysql，所以，开发脚本我选择了php。它支持perl兼容正则表达式，连接mysql很方便，支持http下载，而且windows系统和linux系统都可以部署。

正则表达式: 正则表达式是处理文字的基本工具，要取出html中的链接和图片，使用的正则表达式如下。

其他问题: 写爬虫还需要注意的一个问题是，对于已经下载过的url，不能重复进行下载，而有些网页的链接会形成环路，所以需要处理这个问题，我的处理方法是计算已经处理的url的MD5 值，并存入数据库，这样就可以检验是否已经下载过。当然还有更好的算法，有兴趣的话，可以在网上找一下。

相关协议: 爬虫也有自己的协议，有个robots.txt文件定义了那些是网站允许遍历的，但是由于我的时间有限，没有实现这个功能。

其他说明: php支持类编程,我写的爬虫主要的类. 1.url处理web_site_info，主要用处理url，分析域名等。 2.数据库操作mysql_insert.php,处理和数据库相关的操作。 3.历史记录处理，记录已经处理的url。 4.爬虫类。

存在的问题和不足

这个爬虫在小数据量的情况下，运行良好，但是在大数据量的情况下，历史记录处理类的效率就不是很高，通过在数据库结构中，对相关字段进行了索引，速度有了提高，但是需要不断得读取数据，可能和php本身的array实现有关系，如果一次加载万条历史记录，速度非常慢。不支持多线程，每次只能处理一个url。 php运行本身有内存使用量限制，有一次在抓取深度为的页面的时候，内存用尽程序被杀。

下面的url是源码下载。

的用户名口令。最后

就可以开始工作。如

现在感觉下来，其实做个爬虫没那么复杂，难的是数据的存储和检索。我现在的数据库，最大一个数据表已经G，正在想办处理这些数据，mysql进行查询已经感觉有点力不从心了。这点上还真佩服google

smarty内部日期函数html_select_date()用法实例分析本文实例讲述了smarty内部日期函数html_select_date()的用法。分享给大家供大家参考。具体如下：主要属性：prefix//string类型默认前缀名为"Date_"start_year//strin

一张表搞清楚php is_null、empty、isset的区别 isset判断变量是否已存在empty判断变量是否为空或为0is_null判断变量是否为NULL变量emptyis_nullisset$a=truefalsetrue$a=nulltruetruefalsevar$atruetruefalse$a=array()truefalsetrue

在Debian系统下配置LNMP的教程 LNMP环境的配置是需要让我们的主机支持Nginx、MySQL、PHP、phpMyAdmin，这样配置好之后就可以直接使用此环境，并在上面运行网站了，下面我来配置方法。

本文链接地址:https://www.jiuchutong.com/biancheng/284504.html 转载请保留说明！

下一篇链接:https://www.jiuchutong.com/biancheng/284505.html