位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑:rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助,希望把文章链接给更多的朋友!

一、前置知识详解 Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下: 1. read方法返回DataFrameReader,用于读取数据。

2. 然后再调用DataFrameReader类中的format,指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此,数据的读取工作就完成了,下面就对DataFrame进行操作。 下面就是写操作!!!

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后,save()方法触发action,将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load()

1. Load()返回DataFrame类型的数据集合,使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去,源码如下:在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下:

DataFrameReader.format()

1. Format:具体指定文件格式,这就获得一个巨大的启示是:如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如,Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下:以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖,之前写的数据全都被覆盖了。 Append:是追加,对于普通文件是在一个文件中进行追加,但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解:

1. toDF函数是将RDD转换成DataFrame

2. show()方法:将结果显示出来

追踪showString源码如下:showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明!

上一篇:如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇:SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

  • 增值税月末结转还是年末结转
  • 纳税调整项目包括哪些?请简单列举
  • 税务登记证号是纳税人识别号吗?
  • 增值税是什么意思
  • 临时税务登记的小规模纳税人 个人所得税如何申报
  • 税收管辖权是指
  • 招聘预算费用包括哪些预算清单
  • 发票上的金额是什么字体
  • 基本户购买支票需要什么
  • 二手房交易税费最新规定
  • 视同销售的八种情况
  • 国有资产转让房产
  • 公司债券投资的优缺点
  • 外汇结汇的方法有哪些呢?
  • 公司实行注册资本认缴制
  • 公司为职工在异地买医保
  • 奖金部分
  • 增值税普票丢失发票联能重开吗
  • 个人住房房产税查询
  • 汽车销售行业的现状及发展趋势
  • 发票升额需要什么条件
  • 资产置换会计处理办法
  • uv价值是怎么计算公式
  • 免税和零税率和税率区别
  • 个体工商户开税票怎么开
  • 现在还有餐饮许可证吗
  • 消费税的计算公式推导过程
  • 临时文件夹移动到c盘根目录下windows7
  • 固定资产残值率计算公式
  • 其他应收款注销数额太大
  • 未开票收入冲回如何做账
  • php字符串定义
  • 应付票据到期怎么处理
  • 公司作为股东有什么好处
  • fsockopen pfsockopen函数被禁用,SMTP发送邮件不正常的解决方法
  • 报错专业了可不可以改
  • 河马是站在睡觉吗
  • php抽奖程序源码
  • php -r
  • 评价类模型topsis
  • python怎么将整数转化为字符串
  • 定额发票和增值税发票
  • 资产减值损失如何确定
  • 股东的投资款能转为借款
  • 公司账户转钱到私人账户要扣税吗
  • 汽车租赁费怎么赋码
  • sql server 性能优化
  • sql server数据库怎么使用
  • 可以抵扣的进项发票有哪些
  • 停车费报销会计分录
  • 原始凭证收集
  • 税控系统技术维护费税率
  • 国有独资企业是有限责任公司吗
  • 支付临时工人的报酬属于工资薪金概算吗
  • 商业汇票怎么算到期日
  • 大修和维修怎样定义
  • 租赁的初始直接费用有哪些
  • 增加个税信息怎么增加
  • 费用报销办法
  • win10预览版21277
  • freebsd使用手册
  • win8激活失败
  • onetouch.exe - onetouch是什么进程 有什么用
  • Win10装不上是什么原因
  • win8.1怎么关机
  • win7自带桌面时钟吗
  • 239mbps是多少兆网速
  • html上拉加载更多
  • 利用css样式控制文本的字体属性是什么
  • perl读取文件内容到数组
  • Android shape画圆
  • shell中执行mysql命令
  • shell脚本语句
  • jquery操作select元素和option的实例代码
  • jQuery 选择同时包含两个class的元素的实现方法
  • 如何查询税务是否变更
  • 税务局大厅咨询台
  • a级纳税人和一级的区别
  • 包装种类代码表集装箱
  • 地税局申报个人所得税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设