大数据数据仓库 《大数据之路:阿里巴巴大数据实践》 读书笔记

一、基本概念

    1、数据仓库:是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

    其中最核心的是集成。

    2、ETL:抽取 转换 加载 把数据从不同的oltp系统中集成到数据仓库中的过程

    3、数据模型:仓库里的数据怎么组织?(数据结构)目前业界的事实标准是 维度模型

    4、大数据:大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 

        简单说:能够支持全量数据分析的一系列技术

二、阿里的大数据体系架构

    1、采集和同步

    2、数据仓库(onedata) 

    3、数据服务(简单 实时 推送) 解决怎么提供成果的问题 

    4、应用

三、数据服务的架构变化的过程:

    1、一个功能一个接口

    2、多个功能合并到一个接口(openapi)

    3、统一使用sql来执行(内部有执行引擎)

    4、支持个性化、实时、定时等别的需求

四、大数据环境下的数据仓库

    1、数据仓库仍然是使用数据的前提

    2、对比传统ETL,大数据环境下的技术 包括 map reduce, spark,storm,hbase,hive等,个人理解:数据仓库是目标,

    大数据是技术实现方式

五、传统BI与大数据下的数据仓库对比

    1、BI数据一般是线上数据,结构化,主要作离线统计分析

    2、大数据仓库:有复杂的计算和调度,同时支持离线和实时操作,在ETL和分析时使用的都是分布式的技术

六、大数据仓库环境下的职位建议

    1、ETL工程师(写hive sql、mapreduce 任务、流计算任务 等), 主要是执行层面

    2、数据建模(建立数据仓库),主要是设计层面

    3、数据分析、数据挖掘、机器学习(在仓库上面写算法、做模型)

    4、大数据平台技术工程师、架构师(搭建和运维整套的大数据平台)

相关推荐