位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑:rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助,希望把文章链接给更多的朋友!

一、前置知识详解 Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下: 1. read方法返回DataFrameReader,用于读取数据。

2. 然后再调用DataFrameReader类中的format,指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此,数据的读取工作就完成了,下面就对DataFrame进行操作。 下面就是写操作!!!

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后,save()方法触发action,将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load()

1. Load()返回DataFrame类型的数据集合,使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去,源码如下:在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下:

DataFrameReader.format()

1. Format:具体指定文件格式,这就获得一个巨大的启示是:如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如,Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下:以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖,之前写的数据全都被覆盖了。 Append:是追加,对于普通文件是在一个文件中进行追加,但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解:

1. toDF函数是将RDD转换成DataFrame

2. show()方法:将结果显示出来

追踪showString源码如下:showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明!

上一篇:如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇:SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

  • 保本理财增值税可以开票吗怎么开
  • 消费税是指什么税
  • 增值税申报表上的销售收入
  • 进项税转出会计分录如何做
  • 小规模纳税人到底能不能收专票
  • 未认证待抵扣进项税重分类
  • 个税负数怎么做账
  • 白酒消费税纳税人
  • 保本理财收益计入什么科目
  • 接受捐赠材料需要交税吗
  • 销售货物产生的运费如何开票
  • 外聘人员劳务费入什么科目
  • 仲裁调解书赔偿多少钱
  • 非本单位费用列支 违反
  • 软件开发公司怎么找客户
  • 只有增值税进项怎么抵扣
  • 2018企业所得税小微企业优惠政策
  • 减半征收政策
  • 减免税款期末有余额吗
  • 960011115金税盘错误
  • 劳务工资要附什么合同
  • 月末利润分配的账务处理
  • 采购开票税率
  • 制造费用主要包括哪些内容
  • windows右键刷新总是卡住
  • 苹果6手机蓝牙
  • 什么叫存量房转移登记
  • nginx ss
  • 企业资本结构决策需要重点考虑的有
  • php实现留言板功能怎么用
  • 买保安服装
  • framework在哪里打开
  • 媒体查询是什么
  • program status
  • 最新前端面试题
  • python如何删除字典中的键值对
  • 资产减值损失的借贷方向
  • 新购入的汽车需要年检吗
  • 处置固定资产科目
  • 减按10%的税率是什么意思
  • 损益表填制
  • 个体户的税收政策
  • 资源税申报怎么操作
  • 计提固定资产折旧是什么意思
  • 个人所得税红利所得税率
  • 企业缴纳个人所得税客户端
  • 法人和税务可以是一个人吗
  • 工业企业外购存货的入账价值一般包括()
  • 公司购买的家电怎么入账
  • 行政单位收到的待报解预算收入怎么做账
  • 关税的计税方式一般可以分为
  • 香港发票在内地认可吗
  • 金融资产减值损失
  • 应付账款的主要风险点
  • 免除债务会计处理
  • 汇兑损益是什么凭证类型
  • mysqldump备份数据库不完整
  • win8语言栏不见了 怎么调出来
  • 家庭版的海鲜大杂烩
  • xp远程连接win7
  • centos怎么安装
  • win7的系统升级win10
  • pavfires.exe - pavfires是什么进程 有什么用
  • iis的安全性设置主要包括
  • WIN10安装网络打印机
  • opengl extension
  • nodejs后端教程
  • css如何实现
  • linux 定时任务
  • json对象转化为list
  • javascript+css3 实现动态按钮菜单特效
  • JavaScript jquery及AJAX小结
  • Python的内置字典数据类型为___
  • Javascript字符串对象函数
  • python周期性分析
  • 文化服务包括哪些专业
  • 鸦片战争签订了条约
  • 陕西省网上税务局怎么报国税(陕西税务局官网申报)
  • 国税总局编制这次怎么调整
  • 无锡国税局电话咨询热线
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设