位置: IT常识 - 正文
推荐整理分享大数据项目之数仓相关知识(大数据项目之数据采集),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:大数据 项目,大数据 项目,大数据项目数据量,大数据项目数据量,大数据项目数据量,大数据项目之数据采集,大数据项目之数怎么计算,大数据项目之数怎么计算,内容如对您有帮助,希望把文章链接给更多的朋友!
数据仓库(DW): 为企业指定决策,提供数据支持的,帮助企业,改进业务流程,提高产品质量等。
DW的输入数据通常包括:业务数据,用户行为数据和爬虫数据等
ODS: 数据备份
DWD:数据清洗
DWS: 预先聚合
ADS: 统计数据
何为数仓DW
Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。
数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。目前行业比较流行的有:AWS Redshift,Greenplum,Hive等。
数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包含:清洗、转义、分类、重组、合并、拆分、统计等
主要特点
面向主题操作型数据库组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通过与多个操作型信息系统相关。集成需要对源数据进行加工与融合,统一与综合在加工的过程中必须消除源数据的不一致性,以保证数据仓库内的信息时关于整个企业的一致的全局信息。(关联关系)不可修改DW中的数据并不是最新的,而是来源于其他数据源数据仓库主要是为决策分析提供数据,涉及的操作主要是数据的查询与时间相关处于决策的需要数据仓库中的数据都需要标明时间属性与数据库的对比
DW:专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势数据库:用于捕获和存储数据为何要分层数据仓库中涉及到的问题:
为什么要做数据仓库?为什么要做数据质量管理?为什么要做元数据管理?数仓分层中每个层的作用是什么?在实际的工作中,我们都希望自己的数据能够有顺序地流转,设计者和使用者能够清晰地知道数据的整个
上一篇:webpack之常见性能优化(webpack常用属性)
下一篇:Nginx 调整文件上传大小限制(nginx配置文件格式)
友情链接: 武汉网站建设