hadoop和关系型数据库系统比较

姚强

2017-01-19

Hadoop提供了一个稳定的共享存储和分析系统，存储由HDFS实现，分析由MapReduce实现。针对每个查询，每个数据库集（至少是很大一部分）都会被处理。

为什么不通过使用数据库加上更多磁盘来做大规模批量分析？为什么我们还需要MapReduce？

1、磁盘驱动器寻址时间的速度远远慢于传输速率的提高速度，寻址就是将磁头移动到特定位置进行读写操作的工序，它的特点是磁盘操作有延迟，而传输速率对应磁盘的带宽。如果数据的访问受限于磁盘的
寻址，势必会导致它花更长的时间来读或写大部分数据。

2、在更新一小部分数据的情况下，传统的B树效果很好，但在更新大部分数据时，B树的效率就没有MapReduce的高，因为它需要使用排序/合并来重建数据库。

在很多情况下，MapReduce能够被视为一种RDBMS的补充，MapReduce很适合处理那些需要分析整个数据集的问题，以批处理的方式，尤其是Ad Hoc（自主或即时）分析。RDBMS适用于点查询和更新
（其中，数据集已经被索引以提供低延迟的检索和短时间的少量数据更新）。MapReduce适合数据被一次写入和多次读取的应用，而RDBMS更适合持续更新的数据集。

关系型数据库 vs MapReduce

	传统关系型数据库	MapReduce
数据大小	GB	PB
访问	交互型和批处理	批处理
更新	多次读写	一次写多次读
结构	静态模式	动态模式
集成度	高	低
伸缩性	非线性	线性

大数据关系型数据库数据库 td

安科网

hadoop和关系型数据库系统比较

姚强

姚强

相关推荐

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

SAP AMDP介绍 - ABAP托管的HANA数据库过程

docker容器与宿主机的数据交互方式总结

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

姚强