数据仓库架构

弱思

2020-04-27

数仓架构

老生常谈

一个数据仓库是一个统一的架构下组织不同数据源的异类集合。有两种构建数据仓库的方法：解释自上而下的方法和自下而上的方法。

1.自上而下的方法：

数据仓库架构

基本组件讨论如下：

外部源–
外部源是从中收集数据的源，与数据类型无关。数据也可以是结构化，半结构化和非结构化的。
阶段区域–
由于从外部源提取的数据没有遵循特定的格式，因此需要验证此数据以加载到数据仓库中。为此，建议使用ETL工具。
- E（提取）：从外部数据源提取数据。
- T（转换）：数据转换为标准格式。
- L（加载）：将数据转换为标准格式后，将其加载到数据仓库中。
数据仓库–
清除数据后，将其作为中央存储库存储在数据仓库中。它实际上存储元数据，而实际数据存储在数据集市中。请注意，数据仓库以这种自顶向下的方法以最纯粹的形式存储数据。
数据
集市–数据集市也是存储组件的一部分。它存储由单个权限处理的组织特定功能的信息。一个组织中取决于功能的数量可以有很多。我们也可以说数据集市包含存储在数据仓库中的数据子集。
数据挖掘–
分析数据仓库中存在的大数据的实践是数据挖掘。它用于借助数据挖掘算法查找数据库或数据仓库中存在的隐藏模式。
Inmon将这种方法定义为–数据仓库作为整个组织的中央存储库，并在创建完整的数据仓库之后从中创建数据集市。

自上而下方法的优势–

由于数据集市是从数据仓库创建的，因此提供了数据集市的一致尺寸视图。
此外，该模型被认为是业务变更的最强模型。因此，大型组织更喜欢采用这种方法。
从数据仓库创建数据集市很容易。

自上而下方法的缺点–

设计的成本，时间及其维护成本很高。

2.自下而上的方法：

数据仓库架构

首先，从外部来源提取数据（与自顶向下方法相同）。
然后，数据通过暂存区域（如上所述）并装入数据集市而不是数据仓库。首先创建数据集市并提供报告功能。它涉及单个业务领域。
然后将这些数据集市集成到数据仓库中。

Kinball提供了这种方法，因为–首先创建了数据集市，并在创建完整的数据集市之后为分析提供了一个简单的视图并创建了数据仓库。

自下而上方法的优势–

由于首先创建了数据集市，因此可以快速生成报告。
我们可以在此处容纳更多数量的数据集市，这样就可以扩展数据仓库。
而且，设计该模型所需的成本和时间相对较低。

自下而上方法的缺点–

1. 该模型不像自顶向下方法那样强大，因为数据集市的维度视图与上述方法不一致。

数据仓库大数据架构

弱思

0 关注 0 粉丝 0 动态

相关推荐

企业如何融合人性以充分利用云计算的优势

对于企图走出舒适区的企业而言，人性是最大的阻碍。为开始一项新计划而需要的最初痛苦的精神障碍，使许多企业无论其规模有多大，都无法获得最终可能带来的收益。到目前为止，采用基于云计算的数据仓库策略的商业案例非常引人注目。但是，尽管人工编程可以帮助企业并成功迁移到

jasonchen 2020-09-07

ETL基础知识有哪些？3分钟让你轻松搞定

随着企业的发展，各业务线、产品线、部门都会承建各种信息化系统方便开展自己的业务。随着信息化建设的不断深入，由于业务系统之间各自为政、相互独立造成的数据孤岛”现象尤为普遍，业务不集成、流程不互通、数据不共享。这给企业进行数据的分析利用、报表开发、分析挖掘等带

wujun 2020-08-03

奈学：数据湖和数据仓库的区别有哪些？

数据仓库就是数据通常从事务系统中提取，在将数据加载到数据仓库之前，会对数据进行清理与转换。而数据仓库则是捕获结构化数据并将其按模式组织。在数据仓库中存储数据之前定义schema，这需要你清理和规范化数据，这意味着schema的灵活性要低不少。

chognzhihongseu 2020-06-28

数据仓库 ODS原始数据层操作

①ODS层存放的是原始数据，因此只需要一个字段就行。②ODS层的数据来源于HDFS，里面存储的文件带有压缩，因此需要指明相应的压缩方式。③在多人操作一张Hive表时，最好建立外部表，防止删表时将其中的数据也删掉了。2 编写将数据导入上述表中的脚本。④hiv

cyydjt 2020-06-25

数智时代基石，阿里云推出新一代云原生数据仓库与数据湖

6月9日，在2020阿里云峰会上，阿里巴巴副总裁、阿里云计算平台事业部高级研究员贾扬清宣布推出新一代云原生数据仓库和数据湖解决方案。基于创新的技术架构，新一代云原生数据仓库可支持PB级数据关联分析和实时查询，实现离线、实时、分析、服务的四位一体。同时推出

meiseeny 2020-06-11

数据仓库物理模型建表工具

为了将数据仓库设计过程中excel中设计的物理模型高效转换成标准的Hive建表语句，我用 python开发了如下的工具。-- V1.0 guominghuang 2020-5-15 新增上线。sql =

Laxcus大数据技术 2020-05-30

Hive -- 原理篇

　　一个简单的理解：把SQL的一些操作应用在hadoop的HDFS上面。　　数据库里面有个范式的概念，也就是说数据库中的数据是没有冗余的，用于企业的一些应用。数据仓库是存在冗余数据的，主要用来对大规模的数据及进行数据分析，用户数据挖掘、数据分析。

SignalDu 2020-05-28

数据仓库实践过程中的规范

在实践数据仓库的建设中，越发感受到规范的重要性，总结出以下几点。

lanmantech 2020-05-28

与“数据中台”，来一次亲密接触

数据中台是 2015 年阿里提出来的双中台的概念其中的一个重要组成，阿里作为先驱者，提供了数据中台架构、以及非常多的建设思路供大家参考，但是一千人眼里有一千个数据中台，到底什么是数据中台?我个人认为数据中台的核心组成，以及一些技术选型参考。其中 Hado

张小涛涛 2020-05-06

AI 时代，还不了解大数据？

如果要问最近几年，IT行业哪个技术方向最火?一定属于ABC，即AI + Big Data + Cloud，也就是人工智能、大数据和云计算。在这种趋势下，大数据技术越来越重要。相比较AI和云计算，大数据的技术门槛更低一些，而且跟业务的相关性更大。我个人感觉再

tutubuchicao 2020-04-20

内附PPT下载 | 性能为MySQL10倍！阿里云重磅推出云原生数据仓库AnalyticDB基础版

日前，阿里云正式发布云原生数据仓库AnalyticDB基础版，极大降低了用户构建数据仓库的门槛，每月可低至860元。高度兼容MySQL，极低的使用成本和极高的性能，使中小企业也可以轻松的搭建一套实时数据仓库，实现企业数据价值在线化。

weiguoxin 2020-04-10

数据分析你需要知道的操作：ETL和ELT

如果您接触过数据仓库, 您可能会使用 ETL 或 ELT 将您的数据从不同的来源提取到数据仓库中。这些是移动数据或集成数据的常用方法, 以便您可以关联来自不同来源的信息, 将数据安全地存储在一个位置, 并使公司的成员能够从不同业务部门查看综合数据。ET

天涯莺歌 2020-03-08

什么是LakeHouse?

在Databricks的过去几年中，我们看到了一种新的数据管理范式，该范式出现在许多客户和案例中：LakeHouse。在这篇文章中，我们将描述这种新范式及其相对于先前方案的优势。数据仓库不适用于许多此类场景，并且也不是最具成本效益的。由于这些原因，数据湖之

swazerz 2020-02-03

数据仓库ETL之数据交换

从1990年数据仓库之父比尔·恩门提出数据仓库的概念，ETL作为数据仓库的核心组件，在传统的数据仓库中是服务于数据采集，数据处理，大数据时代来临，对ETL的理解也由升级到这个层面。如果你也考虑建设企业级数据仓库可以作为参考。建设数据仓库的模式有由上而下以及

KANSYOUKYOU 2020-01-29

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

最佳实践概述应用场景客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行常见的ETL任务。注册阿里云账号，并完成实名认证。阿里云账户余额大于100元。您可以登录阿里云控制台，并前往账户总览页面查看账户余额。开

lichunan 2020-01-09

数据仓库四

数据量和存储空间允许，则用细粒度；当不允许，则可以选择双粒度，访问频繁的做细粒度。访问不频繁的作二次加工，用粗粒度

xiyouiOS 2014-06-12

数据仓库一

操作型 - 原子/数据仓库 - 数据集市 - 个体。CLDS 是DDS系统，数据驱动开发，由数据开始做集成，再进行数据检验和分析。SDLC 是传统的需求驱动开发。对硬件使用比较稳定，有波峰波谷。数据仓库则有时间上的间断，利用或不利用

xiyouiOS 2014-06-12

SQL Server 2008在数据仓库方面的一些优点 ―IT技术

SQL Server 2008提供了一个全面的和可扩展的数据仓库平台，它可以用一个单独的分析存储进行强大的分析，以满足成千上万的用户在几兆字节的数据中的需求。数据仓库中的数据容量随着操作系统数目的快速增加而在持续增长。内嵌在SQL Server 2008中

zjyzz 2014-05-29

马蜂窝大数据架构详解：小白都能懂的数据仓库与数据中台

2018 年起，马蜂窝也开始了自己的数据中台探索之路。在这样的思想下，我们结合自身业务特点建设了马蜂窝的数据中台，核心架构如下：。作为中台的另一大核心部分，马蜂窝数据仓库主要承担数据统一化建设的工作，包括统一数据模型，统一指标体系等。下面介绍马蜂窝在数据仓

ruancw 2019-12-17

数据仓库介绍

一个交易流程包括多个事务，比如定单，支付等，比如购物篮的分析，比如做了一次活动后的分析，比如拉新转换率有多高，这些都是面向场景的分析。还有支持决策的分析，如BI

xx0cw 2019-12-08

弱思

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号