位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑:rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助,希望把文章链接给更多的朋友!

一、前置知识详解 Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下: 1. read方法返回DataFrameReader,用于读取数据。

2. 然后再调用DataFrameReader类中的format,指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此,数据的读取工作就完成了,下面就对DataFrame进行操作。 下面就是写操作!!!

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后,save()方法触发action,将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load()

1. Load()返回DataFrame类型的数据集合,使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去,源码如下:在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下:

DataFrameReader.format()

1. Format:具体指定文件格式,这就获得一个巨大的启示是:如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如,Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下:以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖,之前写的数据全都被覆盖了。 Append:是追加,对于普通文件是在一个文件中进行追加,但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解:

1. toDF函数是将RDD转换成DataFrame

2. show()方法:将结果显示出来

追踪showString源码如下:showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明!

上一篇:如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇:SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

  • 税款滞纳金和利息
  • 税收负担影响企业的利润吗
  • 上下班出了事故算不算工伤
  • 可明确区分的商品
  • 公司支付宝收款二维码怎么弄
  • 经营范围没广告怎么办
  • 未实际收到的投资收益要纳税调整吗
  • 长期待摊费用摊销计入什么会计科目
  • 一般纳税人月销售额多少免征增值税
  • 研发加计扣除减免税
  • 如何做现金支票凭证
  • 发票开的是推广服务费计入什么费用?
  • 支票遗失声明书范文
  • 建筑企业包工包料的税率
  • 对债务人取得债权是什么意思
  • 公司购入空调可以抵扣进项吗
  • 房贷可以抵个人所得税吗
  • 电子发票开错怎么办
  • 普票冲红需要收回全部联次吗
  • 预提怎么写会计分录
  • 减免税款交企业所得税吗
  • 收到委托代销清单,确认收入的会计分录
  • 材料成本差异率要算发出材料吗
  • 进项构成比例是啥
  • 哪些科目适用于借方多栏式
  • 盘亏的转销金额
  • 收到退回的土地使用税分录怎么做
  • 建筑公司购买材料需要写备注
  • 补缴增值税的会计处理
  • 一般纳税人税负率是多少
  • 银行收付款凭证是什么
  • php生成二维码
  • 劳务费要申报个税吗怎么申报
  • 收到投资方投入原材料
  • 注册表被恶意锁定怎么恢复正常
  • w11系统黑屏
  • 哪家银行理财产品收益率高
  • 招待费如何列支
  • 报销差旅费退回余款
  • jusched.exe
  • root怎么开oppo
  • php删除数据
  • php发送qq邮箱
  • 加计扣除账务处理
  • 羊了不眄翻译
  • vue.js in action
  • vue怎么嵌入html
  • Laravel 5.3 学习笔记之 安装
  • 员工离职补偿怎么入账
  • 销售部门招待费用预算
  • 工会收到单位拨款的会计分录
  • 固定资产清理产生的费用入什么科目
  • facebook/scribe · GitHub
  • 预提工资的会计处理
  • 电子承兑汇票的承兑人是谁
  • 电子税务局如何增加税种认定
  • 房屋装修费计入长期待摊费用
  • 减资如何账务处理
  • 投标费用计入哪个科目
  • 免税 企业
  • 长期待摊费用包括增值税吗
  • mysql从一个表导入记录到另一个表
  • xp系统net framework 3.5
  • bios设置USB启动英文
  • 使用linux常用命令
  • window 启动
  • win7安装无法将windows配置为在此计算机上运行
  • windows文件丢失怎么修复
  • linux br0配置
  • perl 删除文件
  • quick-lua touch 触摸事件
  • JavaScript 2048 游戏实例代码(简单易懂)
  • 如何用nodejs搭建服务端
  • 工作笔记都写什么内容
  • jquery实例
  • 宾馆税务
  • 白云区嘉禾税务局地址
  • 财税招商专员是做什么的
  • 一月份纳税申报
  • 2010年末实现净利润390万,宣告发放现金股利40万,在计算本年未分配利润时,是否要减掉这40万?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设