【4.分布式存储】-文件存储概述（GFS/TFS/Dynamo/megastore/spanner）

dailingnan0

2019-09-06

本篇概述了常见分布式存储，包括文件系统，KV系统，数据库的最主要特性。Dynamo分布式理论涉及较多。不过这个文章就是看过很多个之后总结的小点。

分布式文件系统

GFS

chunck服务器：按照每个chunck授权刚给CS租约成为主chuck（多副本都成功才行），chunck内部修改
客户端库文件形式，从master获取路由，直接访问chunck服务器，缓存元数据
master 元信息，所有控制（chubby主备），文件到chunck还是在主
文件追加：流水线；分离数据流和控制流。S1,S2,S3，1,2同机房，控制流1=》2=》3而不是1=》3=》2

【4.分布式存储】-文件存储概述（GFS/TFS/Dynamo/megastore/spanner）

master单点瓶颈？
每个chuck 64M（一般都是大文件，K~M，id为64b），3份，压缩后chunk元数据小于64B。1PB:1PB3/64M64=3G。
chunck分配，迁移，负载均衡都要限速。分配：磁盘利用率低+最近频次防止压垮+多机架分配
——————

TFS

写少读多，每次修改在master无压力
小文件问题。读目录超级快，inode，实际内容=》逻辑图片共享一个物理文件，抛弃目录树，直接blockid+offset定位。
去重：单独键值系统MD5
客户端返回带着blockiid去nameserver查机器。再带着offset去机器定位
——————

haystack 2000亿图片

haystack目录（照片id到物理卷轴路由）=》haystack物理卷轴100G，只追加（单机元数据内存中，每个占用20字节：8T/80K*20=2g）
目录量太大，memcache+mysql sharing集群
——————
CDN
L1chache->l2chache->服务器本身cache->tfs。LVS+NGINX=》
——————————
上述基本都是单层路由。若不够可以两层

——————————————————————————————

分布式KV

【4.分布式存储】-文件存储概述（GFS/TFS/Dynamo/megastore/spanner）

数据分布和负载均衡：自治gossip，种子节点
若机器被判定临时失效，选一台机器新数据分到这儿，恢复后将数据回传。若永久失效，则进行数据同步，利用merkle树（每一段一个merkle树，只需要同步从根到叶子节点不同的，叶子节点为文件内容的hash值，非叶子节点为其子节点组合的hash值）
NWR机制：N为副本数量，W为写至少几份，R为读至少几份。R读出来有多份情况，冲突用向量时钟由客户端解决或者覆盖，异步读取覆盖
——————————————————————————————

分布式table

dbproxy

【4.分布式存储】-文件存储概述（GFS/TFS/Dynamo/megastore/spanner）

proxy:解析dql,路由，读写分离，排序，分组
zk:维护db路由，选主
常驻进程：实时监控等
扩容：成倍扩
——————————

bigtable

数据：每行的每一个列（或列簇）构成一个cell
架构：在GFS上添加一层分部署索引层+chubby分布式锁
客户端：从chubby获取元数据，与子表直连（缓存和prefetch。过期需要取六次，正常三次）
master：分配子表给子表服务器，指挥合并/分裂/监控/负载均衡/故障恢复（只有主在chubby的互斥锁失效才能切换）
子表：
chubby:保整只有一个master，配合master发现子表，存储访问控制信息（两地三数据中心五副本）
元数据也存表中，二级：子表128M，元信息1K。量级：(128M128m/1k)128m/1k=2048PB。引导信息（根表位置）=》根表=》元数据（子表位置，sstable及操作日志文件编号，日志回放点）
复制一致（全局唯一id去重）与容错（定期检查锁有木有问题之类的）。单机存储：sst（想为啥分多层就是写入更快，合并怕影响，写少的话一层，都的话多层）
————————————

megastore

在bigtable上支持sql
客户端：映射操作，事务，并发控制，基于paxos的复制，请求发送给复制服务器
复制服务器：接收客户端请求转发到所在机房的biftable实例（用于解决跨机房连接数过多问题）
协调者：存储是否处于最新状态，用于实现快速读
事务：redolog写完就可以算成功，若写失败读之前要回放。夸实体组用两阶段+分布式队列
写事务流程：同一实体组乐观锁串行化（同一实体组同时更新少，同一个uid之类的）

【4.分布式存储】-文件存储概述（GFS/TFS/Dynamo/megastore/spanner）

协调者单点（从chubby获取锁，失效忽略协调者）
单副本，协调者较复杂，SSD不支持，只有实体组内部ACID

————————————
spanner
数据模型。主表包含附表。比如

【4.分布式存储】-文件存储概述（GFS/TFS/Dynamo/megastore/spanner）

部署：协调者（主备,paxos），参与者（主备，paxos）
同步：
每个子表上运行一个paxos状态机，主副本默认寿命10s
全局事务id:oracle数据库生成，谷歌时钟器，会返回误差-4~4e，时间每个都加4e即可

事务读写：夸paxos组两阶段提交：
prepare：客户端发往多个paxos，协调者主发起prepaare协议，参与者主需要锁住数据。
commit：协调者主发起commit，参与者主执行提交并解除锁定数据，当前时间戳作为提交版本

dynamo tfs 分布式存储

安科网

【4.分布式存储】-文件存储概述（GFS/TFS/Dynamo/megastore/spanner）

dailingnan0

分布式文件系统

GFS

TFS

haystack 2000亿图片

分布式KV

分布式table

dbproxy

bigtable

megastore

dailingnan0

相关推荐

分布式键值存储 Dynamo 的实现原理

剖析Amazon（亚马逊）的网站数据存储架构

一致性hash在DynamoDB上的应用

分布式系统设计经典论文

Linux下IOmeter的使用

Dynamo的实现技术和去中心化

涨知识：亚马逊的DynamoDB如何帮助数据库重塑?

dailingnan0