位置: 编程技术 - 正文

Python的Scrapy爬虫框架简单学习笔记(scrapy爬虫教程)

编辑：rootadmin

推荐整理分享Python的Scrapy爬虫框架简单学习笔记(scrapy爬虫教程)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:scrapy爬虫教程,pythone爬虫,scrapy网络爬虫实战,scrapy爬虫总结,pythone爬虫,scrapy爬取,scrapy爬取,scrapy爬取,内容如对您有帮助，希望把文章链接给更多的朋友！

一、简单配置，获取单个网页上的内容。（1）创建scrapy项目

（2）编辑 items.py

（3）在 spiders 文件夹下，创建 blog_spider.py

需要熟悉下xpath选择，感觉跟JQuery选择器差不多，但是不如JQuery选择器用着舒服（ w3school教程：）。

（4）运行，

（5）输出文件。

在 settings.py 中进行输出配置。

输出位置为项目根文件夹下。

二、基本的 -- scrapy.spider.Spider

（1）使用交互shell

也就是可以很方便的，以交互的形式来查看xpath选择是否正确。之前是用FireFox的F来选择的，但是并不能保证每次都能正确的选择出内容。

也可使用：

（2）示例

（3）保存文件

可以使用，保存文件。格式可以 json，xml，csv

（4）使用模板创建spider

这段先这样吧，记得之前5个的，现在只能想起4个来了. :-(

千万记得随手点下保存按钮。否则很是影响心情的(⊙o⊙)！

三、高级 -- scrapy.contrib.spiders.CrawlSpider

例子

其他的还有 XMLFeedSpider

class scrapy.contrib.spiders.XMLFeedSpider class scrapy.contrib.spiders.CSVFeedSpider class scrapy.contrib.spiders.SitemapSpider

四、选择器

可以灵活的使用 .css() 和 .xpath() 来快速的选取目标数据

关于选择器，需要好好研究一下。xpath() 和 css() ，还要继续熟悉正则.

当通过class来进行选择的时候，尽量使用 css() 来选择，然后再用 xpath() 来选择元素的熟悉

五、Item Pipeline

Typical use for item pipelines are: &#; cleansing HTML data # 清除HTML数据 &#; validating scraped data (checking that the items contain certain fields) # 验证数据 &#; checking for duplicates (and dropping them) # 检查重复 &#; storing the scraped item in a database # 存入数据库（1）验证数据

（2）写Json文件

（3）检查重复

至于将数据写入数据库，应该也很简单。在 process_item 函数中，将 item 存入进去即可了。

Python模拟百度登录实例详解最近公司产品和百度贴吧合作搞活动，为了增加人气，打算做个自动签到的小程序。这个是测试登录的代码，写的比较随意，仅实现了登录并读取关注

Python中使用urllib2模块编写爬虫的简单上手示例提起python做网络爬虫就不得不说到强大的组件urllib2。在python中正是使用urllib2这个组件来抓取网页的。urllib2是Python的一个获取URLs(UniformResourceLocators)的组

Python 列表排序方法reverse、sort、sorted详解 python语言中的列表排序方法有三个：reverse反转/倒序排序、sort正序排序、sorted可以获取排序后的列表。在更高级列表排序中，后两中方法还可以加入条

标签: scrapy爬虫教程

本文链接地址:https://www.jiuchutong.com/biancheng/381296.html 转载请保留说明！

上一篇：使用Python编写爬虫的基本模块及框架使用指南(python怎么写爬虫)

下一篇：Python模拟百度登录实例详解(用python模拟用户登录)