Using Django with GAE Python 后台抓取多个网站的页面全文

编辑：rootadmin

推荐整理分享Using Django with GAE Python 后台抓取多个网站的页面全文，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助，希望把文章链接给更多的朋友！

一直想做个能帮我过滤出优质文章和博客的平台给它取了个名叫Moven。。把实现它的过程分成了三个阶段：1. Downloader: 对于指定的url的下载并把获得的内容传递给Analyser－－这是最简单的开始2. Analyser: 对于接受到的内容，用Regular Expression 或是 XPath 或是 BeautifulSoup/lxml 进行过滤和简化－－这部分也不是太难3. Smart Crawler：去抓取优质文章的链接－－这部分是最难的：

Crawler的话可以在Scrapy Framework的基础上快速的搭建但是判断一个链接下的文章是不是优质需要一个很复杂的算法

最近就先从Downloader 和 Analyser 开始：最近搭了一个l2z story 并且还有一个 Z Life 和 Z Life@Sina 还有一个她的博客做为一个对Downloader 和 Analyser的练习我就写了这个东西来监听以上四个站点并且把它们的内容都同步到这个站上：

的特色这个站上除了最上面的黑色导航条和最右边的About This Site 部分外，其他的内容都是从另外的站点上自动获得原则上，可以添加任何博客或者网站地址到这个东西。。。当然因为这个是L2Z Story..所以只收录了四个站点在里面特点是：只要站点的主人不停止更新，这个东西就会一直存在下去－－－这就是懒人的力量

值得一提的是， Content 菜单是在客户端用JavaScript 自动生成的－－这样就节约了服务器上的资源消耗

这里用的是html全页面抓取所以对那些feed没有全文输出的站点来说，这个app 可以去把它要隐藏的文字抓来在加载的时候会花很多时间因为程序会自动到一个没有全文输出的页面上抓取所有的文章列表，作者信息，更新时间，以及文章全文。。所以打开的时候请耐心。。。下一步会加入数据存储部分，这样就会快了。。

技术准备前端：

1. CSS 在信奉简单之上的原则上 twitter的bootstrap.css满足了我大多数的要求个人超喜欢它的 Grid System 2. Javascript上，当然选用了jQuery 自从我开始在我的第一个小项目上用了jQuery 后我就爱上了它那个动态的目录系统就是用jQuery快速生成的为了配合bootstrap.css, bootstrap-dropdown.js 也用到了

服务器：

这个app有两个版本：一个跑在我的Apache上，但是因为我的网络是ADSL, 所以ip一直会变基本上只是我在我的所谓的局域网内自测用的。。这个版本是纯Django的另一个跑在Google App Engine上地址是在把Django 配置到GAE的时候我花了很多功夫才把框架搭起来

详情请见： Using Django with Google App Engine GAE: l2Z Story Setup-Step 1 自从认识Python后就没有离开它

主要用到的module是

1. BeautifulSoup.py 用于html 的解析--不解释2. feedparser.py 用于对feed xml的解析－－网上有很多人说GAE不支持feedparser..这里你们得到答案了。。可以。。这里我也是花了很久才弄明白到底是怎么回事。。总之简单讲就是：可以用！但是feedparser.py这个文件必须放到跟app.yaml同一个目录中不然会出现网上众人说的不可以import feedparser的情况

数据库：Google Datastore: 在下一步中，这个程序会每隔分钟醒来逐一查看各个站点有没有更新并抓取更新后的文章并存入Google 的Datastore中

App 的配置