位置: 编程技术 - 正文

NodeJS制作爬虫全过程(node.js写爬虫)

编辑:rootadmin

推荐整理分享NodeJS制作爬虫全过程(node.js写爬虫),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:node爬虫框架puppeteer,nodejs爬虫框架crawler,nodejs爬取数据,nodejs爬虫框架crawler,nodejs爬取数据,nodejs做爬虫,nodejs做爬虫,node js爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

今天来学习alsotang的爬虫教程,跟着把CNode简单地爬一遍。

建立项目craelr-demo我们首先建立一个Express项目,然后将app.js的文件内容全部删除,因为我们暂时不需要在Web端展示内容。当然我们也可以在空文件夹下直接 npm install express来使用我们需要的Express功能。

目标网站分析如图,这是CNode首页一部分div标签,我们就是通过这一系列的id、class来定位我们需要的信息。

使用superagent获取源数据

superagent就是ajax API来使用的Http库,它的使用方法与jQuery差不多,我们通过它发起get请求,在回调函数中输出结果。

它的res结果为一个包含目标url信息的对象,网站内容主要在其text(string)里。

使用cheerio解析

cheerio充当服务器端的jQuery功能,我们先使用它的.load()来载入HTML,再通过CSS selector来筛选元素。

其结果为一个个对象,调用 .each(function(index, element))函数来遍历每一个对象,返回的是HTML DOM Elements。

输出 console.log($element.attr('title'));的结果为 广州 年月日 NodeParty 之 UC 场之类的标题,输出 console.log($element.attr('href'));的结果为 /topic/cbecbcbeb2之类的url。再用NodeJS1的url.resolve()函数来补全完整的url。

NodeJS制作爬虫全过程(node.js写爬虫)

使用eventproxy来并发抓取每个主题的内容教程上展示了深度嵌套(串行)方法和计数器方法的例子,eventproxy就是使用事件(并行)方法来解决这个问题。当所有的抓取完成后,eventproxy接收到事件消息自动帮你调用处理函数。

结果如下

扩展练习(挑战)

获取留言用户名和积分

在文章页面的源码找到评论的用户class名,classname为reply_author。console.log第一个元素 $('.reply_author').get(0)可以看到,我们需要获取东西都在这里头。

首先,我们先对一篇文章进行抓取,一次性把需要的都得到即可。

我们可以通过 $('.big').text().trim()即为积分信息。

使用cheerio的函数.get(0)为获取第一个元素。

这只是对于单个文章的抓取,对于个还有需要修改的地方。

NodeJS制作爬虫全过程(续) 书接上回,我们需要修改程序以达到连续抓取个页面的内容。也就是说我们需要输出每篇文章的标题、链接、第一条评论、评论用户和论坛积分。如图

sails框架的学习指南 上周通过搭建CMS系统接触到了sails框架,知道一些ORM的概念。这周开始深入后台数据交互,发现twenty框架的数据结构在sails上又设计了一番(比如node、cat

node.js开机自启动脚本文件 #!/bin/bash###BEGININITINFO#Provides:xiyoulib#Required-Start:$all#Required-Stop:$all#Default-Start:#Default-Stop:#Short-Description:Startdaemonatboottime#Description:Enableserviceprovidedbydaem

标签: node.js写爬虫

本文链接地址:https://www.jiuchutong.com/biancheng/374215.html 转载请保留说明!

上一篇:了不起的node.js读书笔记之mongodb数据库交互(了不起的女孩)

下一篇:NodeJS制作爬虫全过程(续)(nodejs爬虫框架crawler)

  • 增值税发票税务ukey版开票流程
  • 融资性售后回租印花税
  • 企业自建房产缴契税吗
  • 退税现金流量表做哪里
  • 企业所得税税负率多少合适
  • 不征税收入和免税收入所对应的成本与费用能否税前扣除
  • 连锁店每个店都要独立核算吗
  • 税费漏报
  • 远期采购合同会查吗
  • 房产过户需要交个人所得税吗
  • 应交税费会计科目借贷方向
  • 累计折旧计入资产负债表什么科目
  • 物业公司收物业费如何入账
  • 客户退货金额小怎么说
  • 建安行业外地预缴工会经费
  • 股权转让个税是转让方交吗
  • 小微企业免征税额
  • 价格调节基金税率和计税依据
  • 企业为员工提供住宿会计科目
  • 拨付所属资金和上级拨付资金
  • 个人转让怎么写
  • 财务部门固定资产修理费计入什么科目
  • 股权转让怎么办理才合理
  • 电子发票记账联怎么入账
  • 任务栏图标重叠一起
  • led电子屏税收编码
  • 危险废物处置是冶金行业吗
  • 如何查看本机的ip 网关 和dns配置
  • 主营业务收入平均增长率计算公式近两年
  • 法人车无偿给公司使用合法吗
  • 年底会计人员要做什么
  • 如何巧用工具
  • php常用的技术栈
  • win7系统怎么重装win10系统
  • php bcmul
  • 买保险公司的养老保险合适吗
  • 新公司30天内未办理税务登记
  • 在Windowsserver2019环境下,配置IP地址使用
  • 经营性应收项目的计算公式
  • vue无线滚动
  • php 性能优化
  • yolov3图像识别
  • nvm切换node版本后node -v报错
  • 表关联查询语句
  • 仓库发货打包以及建议年终总结
  • 贷款和应收款项属于金融资产吗
  • 所得税汇算清缴报告在哪查
  • 现金流量表本月数和本年累计数是相等的么
  • 即征即退进项税怎么划分合算
  • 银行收到几分钱怎么做账
  • Mongodb中MapReduce实现数据聚合方法详解
  • python正态分布采样
  • 企业的业务招待费属于什么费用
  • 人力资源服务的发票明细
  • 一般纳税人技术服务费几个点
  • 哪些收入需要交消费税
  • 进出口货物收发货人报关注册登记证书
  • 从业人数的计算方法
  • 信用减值损失是负数是什么意思
  • 固定资产折旧计算方法公式大全
  • 净现金流量算残值么
  • k3凭证模板
  • 企业办理土地证需要哪些资料
  • 会计记账基础有哪两种
  • window小技巧
  • win732位系统怎么装
  • Windows RT 8.1 Update 3九月发布 届时将加入改进版锁屏
  • linux用户相关命令
  • html标签自动换行
  • 关于ie浏览器下面说法正确的是
  • unity工程文件怎么弄
  • unity网格地形
  • javascript中数组的方法
  • 安卓程序切换
  • 国家税务总局全国增值税发票官网
  • 税务局24小时人工服务电话
  • 个人所得税子女教育和赡养老人抵扣多少税
  • 政务服务网怎么打印电子资格证书
  • 太原市小店区电影院营业时间
  • 一般纳税人做账收费标准
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设