处理
- 数据清理
- 数据集成
- 将不同来源于格式的数据逻辑上或物理上进行集成的过程
分析
- 联邦分析
- 一种数据科学方法实践,用于分析存储在用户本地设备中的原始数据,本地计算然后汇总
查询
概念
- 数据孤岛
- 物理性
- 数据在不同部门相互独立存储,独立维护,彼此间相互孤立
- 逻辑性
- 不同部门站在自己角度定义数据,使得数据被赋予不同含义,加大了跨部门数据合作的沟通成本
- 数据仓库,Data Warehouse,DWH
- 是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和信息的全局共享,主要处理历史的、结构化的数据
- 数据集市
- 数据仓库的特殊形式,正如数据仓库,数据集市也包含对操作数据的快照,便于用户基于历史趋势与经验进行战略决策。两者关键的区别在于数据集市的创建是在有具体的、预先定义好了的对被选数据分组并配置的需求基础之上的。配置数据集市强调对相关信息的易连接性
- 通俗讲,数据是专门针对特定用户/团队处理后的,以提高数据易用性
- 数据湖
- 数据湖是一个存储企业各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析和传输
- 可以包括结构化数据(关系数据库数据)、半结构化数据(json,xml等)、非结构化数据(电子邮件,文档)、二进制数据(音视频等)
- 联机分析处理,Online Analytical Processing,OLAP
- 联机事务处理,Online Transaction Processing,OLTP
- 数据库管理系统,Database Management System,DBMS
文章
参考