位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑：rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助，希望把文章链接给更多的朋友！

一、前置知识详解 Spark SQL重要是操作DataFrame，DataFrame本身提供了save和load的操作， Load：可以创建DataFrame， Save：把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下： 1. read方法返回DataFrameReader，用于读取数据。

2. 然后再调用DataFrameReader类中的format，指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此，数据的读取工作就完成了，下面就对DataFrame进行操作。下面就是写操作！！！

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后，save()方法触发action，将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load（）

1. Load（）返回DataFrame类型的数据集合，使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去，源码如下：在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下：

DataFrameReader.format()

1. Format：具体指定文件格式，这就获得一个巨大的启示是：如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如，Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下：以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖，之前写的数据全都被覆盖了。 Append:是追加，对于普通文件是在一个文件中进行追加，但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解：

1. toDF函数是将RDD转换成DataFrame

2. show()方法：将结果显示出来

追踪showString源码如下：showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明！

上一篇：如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇：SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

随机推荐

Win7系统计算机中的收藏夹打不开(尝试很多方法依旧打不开)(win7系统计算机管理功能打不开)

Win7系统计算机中的收藏夹打不开(尝试很多方法依旧打不开)(win7系统计算机管理功能打不开)

有效减少win8关机时间的方法分享

有效减少win8关机时间的方法分享

Ubuntu16.04系统怎么自定义触控板手势?(ubuntu16lts)

Ubuntu16.04系统怎么自定义触控板手势?(ubuntu16lts)

浅析linux下的回收站以及U盘中的.Trash文件夹(linux回退)

浅析linux下的回收站以及U盘中的.Trash文件夹(linux回退)

Linux使用的一些基本问题(linux基本使用)

Linux使用的一些基本问题(linux基本使用)

Win8设置鼠标单击打开文件夹图文教程(win8鼠标设置在哪)

Win8设置鼠标单击打开文件夹图文教程(win8鼠标设置在哪)

给你选择Python语言实现机器学习算法的三大理由(python让用户选择)

给你选择Python语言实现机器学习算法的三大理由(python让用户选择)

android定义theme和style(android:theme=

android定义theme和style(android:theme="@style/apptheme")

标签

增值税的计税金额

行政单位总账科目

房地产预售啥意思

蔬菜专用发票在哪里开

个人收外汇有限制吗

生产成本二级科目有工资吗

制造企业发出材料成本的计价方法

财务报表其他应付款为负数

税率和征收率的含义和区别

预存送返利的帐户怎么查

个人独资企业是一般纳税人吗

从公司账户取现金

哪些研发费用可以资本化

坏账准备增加记什么方

年底有留抵税额需要结转吗

新买的电脑如何激活windows

接受捐赠收入要计入销售收入吗

库存商品如何结转生产成本

在linux系统中用来存放系统所需

公司买的手机怎么入账科目

企业车间承包合同的法律效力

库存商品的主要类型

公司注册小规模有什么要求

六千元左右

什么是坏账,坏账的核算方法有哪些

RuntimeError: (PreconditionNotMet) The third-party dynamic library (cudnn64_7.dll) that Paddle depen

OfcPfwSvc.exe - OfcPfwSvc是什么进程有什么用

使用php进行mysql数据库编程的基本步骤

企业之间拆借资金

简述税款征收的基本原则

thinkphp5.0框架

劳动仲裁的调解款要扣税吗

什么叫含税和未含税区别

javascript核心技术

Python Module — OpenAI ChatGPT API

微信收款会计入个人所得税吗

工程项目过路费是指什么意思啊

树结构ADT知识点思维导图

补计提个税分录

装修店面装修费的会计分录

抵扣联和发票联算一张发票吗

计算企业所得税分录

当master down掉后，pt-heartbeat不断重试会导致内存缓慢增长的原因及解决办法

删除mysql数据库用户

sql server搜索语句

mysql日志文件在哪

其他综合收益转入盈余公积和未分配利润

销售退回的账务处理会计分录

如何解决私账流失问题

土地使用税怎么征收标准

网络销售还可以叫什么

独立核算好处

会计损益类科目有哪些,期末如何结转?

外派员工的薪酬构成有哪些项目

mysql sql 基础教程

win2000停止服务

xp硬盘安装win7系统教程

packethsvc.exe - packethsvc是什么进程有什么用

win10系统微软账户密码忘了

如何解决在沟通中产生的漏斗效应

linux系统安装软件教程

python正则匹配url

js 浮点数运算

jquery模拟表单提交

node.js中的http.request方法使用说明

ubuntu如何以root用户运行

批处理实例

jQuery通过ajax快速批量提交表单数据

浅谈python中的实例方法、类方法和静态方法

unity learn premium

安卓模拟器测试

国家税务总局查发票

海关行政处罚实施条例的适用范围

免责声明：网站部分图片文字素材来源于网络，如有侵权，请及时告知，我们会第一时间删除，谢谢！邮箱：opceo@qq.com

鄂ICP备2023003026号

网站地图：企业信息工商信息财税知识网络常识编程技术

友情链接：武汉网站建设