加入收藏 | 设为首页 | 会员中心 | 我要投稿 新余站长网 (https://www.0790zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

BI导论——数据仓库概论

发布时间:2020-12-24 17:37:38 所属栏目:大数据 来源:网络整理
导读:1??????????书名《Building the Data WareHouse》作者:比尔.恩门 2??????????目的:将积累的数据变成信息,以建立决策支持系统(DSS) 3??????????原有的DSS是分裂的,按需抽取的,导致重复与低效 4??????????原始数据与DSS数据对比与差异 4.1?????????原始

1??????????书名《Building the Data WareHouse》作者:比尔.恩门

2??????????目的:将积累的数据变成信息,以建立决策支持系统(DSS)

3??????????原有的DSS是分裂的,按需抽取的,导致重复与低效

4??????????原始数据与DSS数据对比与差异

4.1?????????原始数据

4.1.1????面向应用,来自应用系统

4.1.2????详细的

4.1.3????为日常工作服务

4.2?????????DSS数据

4.2.1????面向主题,什么是主题?

4.2.2????综合的、提炼的

4.2.3????为管理者服务

5??????????什么是主题?主题是指决策分析时所重点关注的方面,如对于一个购物中心的DSS系统来说,可以分为车流、客流、销售、会员、财务等主题

?

?

6??????????数据粒度:是指数据仓库中保存的数据的综合程度的级别(详细程度)

7??????????数据分割:将数据分割成小的单元进行存储,如按时间、地区、部门等标准进行分割

8??????????由于DSS分析员无法定义自己的需求,所以需求驱动的方式并不适用,而不预测需求也不行,设计数据仓库通常介于两者之间,即去了解需求又去想象或者创造需求

9??????????数据模型

9.1?????????概要模型:描述实体关系

9.2?????????逻辑模型:描述字段与依赖

9.3?????????物理模型:就是实际实施后的数据库,主要定义性能与存储方式

10??????数据仓库的灵魂在于灵活性和对数据的不可预测的访问的满足上

?

?

11??????多维数据模型基于数据仓库而开发是适合的,如果多维数据模型基于生产系统进行开发,将导致大量重复的ETL工作

12??????元数据:定义数据的数据,如表的字段定义

13??????EIS:高级管理人员信息系统

13.1??????为高级管理人员进行决策辅助而设计

13.2??????趋势分析与发现

13.3??????关键指标度量与跟踪

13.4??????探索分析(切片、切块等)

13.5??????异常监控

13.6??????竞争分析

14??????数据仓库的建立

14.1??????根据实际情况定义主题

14.2??????建立数据模型,该模型描述了企业的信息需求

14.3??????分析生产系统(业务系统)的有用数据

14.4??????进行ETL开发,将生产系统数据导入数据仓库

15??????需求的收集

15.1??????与相关业务部门会谈

15.2??????报表收集

15.3??????战略性规划的了解

15.4??????现有系统与业务流程的理解

?

?

16??????数据仓库与数据集市

16.1??????数据集市来源于数据仓库

16.2??????数据集市是部门级的,数据仓库是企业级的

16.3??????多维数据模型是数据集市的一种形式

17??????构建数据仓库步骤

17.1??????确定主题,收集分析要展现的主题,如要分析某年某月某门店的销售情况,这里就可能隐藏着销售主题

17.2??????确定度量,根据主题确定度量,如上面的销售主题,销售额就是度量,还有销售数量等等

17.3??????确定事实数据粒度,在能确定粒度级别时使用粒度级别,否则尽可能使用较小的粒度级别

17.4??????确定维度,从收集的主题中分析维度,如上面的年、月、门店就是一个个的维度

17.4.1 维度的层次结构与级别

17.4.1.1层次结构用来归类维度下的属性,比如时间维度归类为“年-月”、“年-月-日”,“年-周”层次结构

17.4.1.2级别反映的是层次结构下的维度数据的层次顺序,比如“年-月-日”层次结构,第一层为年,第二层为月、第三层为日

17.4.2 渐变维度,随着时间可能发生变化的维度,如住址,手机号等

17.4.3 维度类型

17.4.3.1普通维度(星型模型),与事实直接关联

17.4.3.2引用维度(雪花模型),与事实不直接关联

17.4.3.3父子维度,自引用表

17.4.3.4多对多维度,一个属性值对应多个事实,一个事实对应多个属性值

17.5??????创建事实表

?

?

18??????传统BI与大数据

18.1??????传统BI通过ETL汇总生产系统的数据到数据仓库,再基于数据仓库建立数据集市,然后进行数据集市的开发应用

18.2??????大数据,如hadoop等,通过新的数据技术,通过计算机集群存储原始数据,可横向扩展,可进行实时分析

18.3??????大数据的优势是强大的储存和计算功能,它解决了超大数据的储存和分析时效问题,可以说大数据是BI的重要补充,因为BI的优势是数据分析与基于算法的数据挖掘

(编辑:新余站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读