连放大招！微软发布三项云数据服务，都跟海量数据和性能有关

王小雷多面手

2019-02-11

微软云平台Azure最近宣布针对3项数据服务的更新，包含推出正式版的数据湖存储服务Data Lake Storage Gen2和数据完全托管服务Data Explorer，此外，还推出预览版的混合数据整合服务Data Factory，期望提供用户性价比高，又安全的云端数据分析服务。

数据湖存储服务Data Lake Storage Gen2适用于巨量数据分析，结合了Azure非结构化存储服务Blob Storage的可扩展性、安全模型和丰富的功能于一身，再加上为分析所设计的高性能的文件系统，还能与Hadoop分布式文件系统兼容，让用户选择云数据湖服务时，不需要在成本和性能中取舍。

连放大招！微软发布三项云数据服务，都跟海量数据和性能有关

微软指出，其数据湖存储服务其中一项主要目标，即是要与Apache生态系统兼容，为了做到这点，微软开发Azure Blob文件系统驱动程序，该驱动程序正式成为Apache Hadoop和Spark的一部分，并且加入到许多Hadoop的商业版本中。

为了进一步提升Data Lake Storage Gen2的分析性能，微软用层阶式命名空间，收集文档集合并整理成层阶式目录和子目录，此种命名空间对巨大数据分析架构相当重要，由于Hive或是Spark等工具经常将输出写入零时位置，并在操作结束时重新命名该位置，若没有层阶式命名空间，重新命名所花费的时间通常会比分析流程本身更长，因此，层阶式命名空间因为需要较少的计算执行，能够加速工作执行并减低成本。

而Data Explorer是一个快速且具有高扩展性的完全托管数据分析服务，能够针对大量的串流数据进行实时分析，在不需要修改数据结构的情况下，一秒内能够查询10亿笔记录，此外，该服务能与微软云其他服务相连，如Data Lake Storage、SQL Data Warehouse、Power BI。为了提升速度和简化操作，Data Explorer由两个分别的服务组成：Engine服务和数据管理服务，这两项服务都在Azure中，以计算节点的集群形式部署。

连放大招！微软发布三项云数据服务，都跟海量数据和性能有关

数据管理服务负责消化多种不同型态的原始数据，并且管理数据清理、执行失败和backpressure等任务，还能通过自动索引和压缩机制快速处理数据。而Engine服务则是负责处理输入的原始数据和用户的查询，通过自动扩展（Auto Scaling）和数据分割（data sharding）来达到高性能的目标。

连放大招！微软发布三项云数据服务，都跟海量数据和性能有关

最后，微软这次的更新还推出混合数据整合服务Data Factory预览版，Data Factory服务是用来将数据移动和转换工作自动化的服务，内建超过80个与结构化、半结构化和非结构化数据源的连接器。除此之外，该服务还提供数据工作流程可视化工具Mapping Data Flow，提供用户在设计、构建和管理数据转换的过程有可视化的体验，不需要学习Spark或是对分布式基础架构有深入的了解。

海量数据大数据

安科网

连放大招！微软发布三项云数据服务，都跟海量数据和性能有关

王小雷多面手

王小雷多面手

相关推荐

Redis+Node.js实现一个能处理海量数据的异步任务队列系统

python爬取优美图库海量图片，附加代码，一键爬取

Hadoop架构及集群

海量非结构化数据存储难题，杉岩数据对象存储完美解决

海量日志分析与智能运维

大型网站应用之海量数据和高并发解决方案总结一二

海量图片存储，杉岩分布式对象存储轻松应对

杉岩数据：对象存储是企业海量非结构化数据存储的最佳选择

海量数据MySQL项目实战

海量小文件存储最优解决方案，杉岩数据MOS完美解决

海量数据时代，如何把握人工智能先机？

如何正确访问 redis 中的海量数据？避免事故产生

海量数据展示

小米海量数据推送服务技术讲解

海量数据中寻找中位数

海量数据处理 - （top K问题）

FineBI分布式引擎——专为海量数据计算分析而生

海量数据相似度计算之simhash和海明距离

异构数据源海量数据交换工具-Taobao DataX 下载和使用

小米海量数据推送服务技术讲解

王小雷多面手