人工智能都这么火了,底层基础架构还有必要开源吗?

开源是技术圈永不过时的话题,而作为目前最成功的开源项目,OpenStack在开源世界的成功有目共睹。

OpenStack的热烈争议。但上月底OpenStack主要领导者红帽被IBM以340亿美元的巨资收购案,毫无疑问给OpenStack的拥趸者加重了砝码,也强势宣布了OpenStack在开源界不可动摇的地位。

此外,为了更加顺应开源开放、共享、包容的精神,OpenStack基金会还将OpenStack的定位调整为“开放基础设施”,并且在2018年将之前的OpenStack Days China更名为OpenInfra Days China——那么,开放基础设施到底是什么?为何它会如此重要?在数字化、智能化转型的时代,开放基础设施究竟将发挥什么样的作用?能为用户带来什么?

为了回答这样的问题,CSDN有幸邀请到了开源界知名大咖,浪潮云计算产品部副总经理刘晓欣、英特尔开源技术中心网络与存储高级研发经理、OpenStack基金会个人独立董事王庆来到CSDN主编下午茶,把酒言欢,共话开放基础设施!

人工智能都这么火了,底层基础架构还有必要开源吗?

开放精神引领开放基础设施发展

您对开放基础设施怎么看待,您觉得开放基础设施为何那么重要?

刘晓欣:现在越来越多的数据中心里的整体技术采用了开放技术体系,其实我们能够看到,从底层的技术硬件,比如OCP、ODCC这种开源组织生产的开放的硬件,到系统软件,例如Linux操作系统,云层面的OpenStack以及Kubernetes等一系列的技术都是开放、开源的技术。我们认为,未来在整个IT基础设施领域,开源、开放的技术会越来越多的引导和推动着IT基础设施的转变,所以我们才会有开放基础设施的这种称呼。

在OpenStack领域,我们也看到,OpenStack Days China改成了OpenInfra Days China,在今年的柏林峰会上我们也听到了OpenStack基金会也会将下一届OpenStack峰会更名为OpenInfra峰会,而这种改变其实都是代表着OpenStack社区在积极拥抱整个开放基础设施这么一个方向。

王庆:OpenInfra确实是OpenStack基金会对于现在OpenStack战略的调整。OpenInfra相比OpenStack来说,涉及的范围会更广,因为除了OpenStack之外,还有很多的开放的标准,开放的软件,开放的设施。从OpenStack基金会角度来说,在很多新的领域,OpenStack已经不能解决所有的问题了,比方说边缘计算,OpenStack就需要重新调整去迎合边缘计算的需求。又比如说Kata Containers安全容器,OpenStack也想做。还有基础设施的生命周期管理,OpenStack现在也不能解决这个问题。所以OpenStack基金会也是经过了一番慎重考虑,才在战略上对于OpenStack本身做了一个新的调整。因此,明年在丹佛举办的OpenStack Summit才会更名为OpenInfra Summit。

开放基础设施才是智能化转型之路

既然基金会把OpenStack的方向定位在了开放基础设施,那OpenStack社区的热点有没有什么改变?

刘晓欣:我一直在关注整个OpenStack基础趋势的一些变化,其实在一年前,就有OpenStack基金会将会向OpenInfra转变的种种迹象。我们看到社区中有很多新兴的领域,比如容器、边缘计算、StarlingX,又比如说Cyborg以及Cyborg如何与AI相融合,怎样去做更安全的容器,这些其实都代表OpenStack社区在向开放基础设施这样一个大方向转变的一些变动和调整。社区层面的变动也会使作为厂商的我们往此方向的思路上去调整,因为未来整个基础设施肯定不会都是OpenStack,而可能会有更多的相关组件联合在一起,即所谓的一体化解决方案,这应该是一个从传统的基础设施转化成真正智能化的云基础设施的一个过程。

王庆:OpenStack社区的热点一直在变,2010年到2012年热点是公有云,2015年是私有云,2016年到2017年是NFV。现在从这次德国柏林OpenStack Summit上来看,热点有两个,一个是边缘计算,另一个是人工智能,这实际上也就是当前数字化、智能化转型趋势的一种表现。

Rocky为开放基础设施注入新活力

前不久OpenStack推出了它的Rocky版本,也就是R版本。那么R版本有哪些方面的改进,它会给用户带来哪些益处?

刘晓欣:Rocky版本今年8月底就已经发布。Rocky版本修复了OpenStack上一个版本的很多问题,在这次OpenStack Summit上,提到在过去一年的时间里面修复了7万个Commit,累计7万个Commit修改是很大的变动,因此,Rocky不论是在核心组件的稳定性,还有可靠性方面,都有较大的提升。但令我印象比较深刻的可能是裸机层面的管理,因为裸机与虚拟机、容器,在很长一段时间将是并存的一个状态,所以OpenStack社区在裸机层面做了很多工作。Rocky版本在裸机的BIOS设置等方面做了相当多的改进,同时,Rocky也增加了对很多新兴技术的兼容,包括人工智能、边缘计算和容器等。从Rocky版本中可以看出OpenStack基金会打造“开放基础设施”的决心以及想实现“让世界运行在OpenStack之上”的目标。

王庆:从大的方面来讲,Rocky减少了服务停机的时间,这是一个加强。比方说在Rocky版本中,Nova的停机时间减少了。第二,解决了Cross的问题,即Cross Cloud compatibility的兼容性问题。第三,对安全性的加强。从个人角度来说,我自己比较关注Nova、Cyborg,这里要特别提一下Cyborg项目,Cyborg项目为GPU、FPGA、DPDK和SSD等加速器提供了生命周期管理。Cyborg在Rocky中引入了面向FPGA的新REST API,使得用户可以动态改变FPGA设备上加载的功能。

浪潮云海OS也即将支持Rocky版本,具体情况是怎样的?

刘晓欣:云海OS是浪潮的IaaS云平台解决方案,它的核心以OpenStack为基础来构建,包含底层的虚拟化,上层的云端管理。我们最近的工作一直聚焦在用Rocky版本来迭代我们的产品,目前预计在12月底或者1月初推出这个新版本。云海OS上一个版本是基于OpenStack的Ocata版本,从Ocata到Rocky其实是跨越了几个版本,这也是浪潮一直做私有云的思路,并不是每个版本都跟进社区的进展。所以云海OS的Rocky版本,一方面可以得到稳定性、可靠性方面的提升,另一方面,我们也是尝试将Cyborg项目对GPU的管理融合到产品管理中,从而希望我们的云平台未来能够对AI平台的应用有很好的支持。另外,对于刚才提到的容器,我们基于社区的MEC,MEX项目做了很多对接,使得OpenStack和Kubernetes能够直接融合。同时,我们还把Kubernetes容器的管理嵌入到了OpenStack云中,这样不仅仅使得系统可以启动Kubernetes的集群,容器和镜像的操作也都可以在OpenStack中直接完成。此外,在裸机管控方面,我们打通了虚拟机和裸机网络相关的驱动,增强了平台的能力。

您对厂商们采用或者支持Openstack这个Rocky版本有什么样的看法?

王庆:实际上,相对来讲,厂商还是比较保守,他们一般都是希望能够有一个稳定的版本,因为稳定大于一切。厂商不会说一个OpenStack新版本出来以后马上做升级,它会跳着升级版本,除非新版本确实有比较大的改进,就像浪潮所做的那样。

刘晓欣:还有些厂商不会把整个产品都往Rocky上全部颠覆做更新,而是会挑选其中某些功能来支持,比如有的产品需要比较强大的裸机管理功能,可能对于其他项目不一定会做最新升级,但是会从Rocky中挑选 Ironic里面新的功能加到自己的产品上去。

开放基础设施是智能化转型的基础

这次云海OS升级,还提供了对AI stack的支持,为什么?

刘晓欣:浪潮云海OS作为一个开放的基础设施平台,对于人工智能一直比较关注。因为浪潮一直在做AI相关的事情,例如AI的服务器,同时,我们也有一些这方面的积累。浪潮原来有一个称作AI Station的平台,其实是把AI服务器GPU化,用于上层的AI应用训练,还有深度学习,它能够支持AI应用自动化的在系统上运行。

随着云平台与智能化道路的逐渐融合,我们认为在未来的环境里面,AI的应用会越来越多,会有一个爆发式的增长,因此对于底层资源的管控,需要提供整体的数据中心的云化一体化方案,可以把异构的资源能够纳入到一套平台中,所以我们把AI Station的一些能力与云海OpenStack进行了融合,发布了InCloud AI-Stack这样一个产品,其实是我们在智能整合道路上迈出的一步。

王庆:人工智能是一个系统工程。OpenStack能够给AI应用提供一些基础架构设施的服务,让AI应用可以在OpenStack云中运行。但这样的话,就不仅仅是涉及到AI本身,可能还要涉及大数据、数据存储等一系列问题。所以我觉得人工智能是需要很多技术来支撑的,例如,GPU、FPGA、边缘计算、网络等等,而这就不是单单只依靠OpenStack就可以解决的,而是需要支持更多开放技术的Open infrastructure的支持。

开放基础设施是大规模云管理的利器

现在的云的规模越来越大,多云已经成为趋势。那么,在多云管理方面用户面临怎样的问题和挑战呢?

刘晓欣:从多云角度来看,不管是IDC还是Gartner的趋势报告里面都在强调多云、混合云。从浪潮实际的客户上来看,浪潮接触到一些云化的客户,比如说一些大的国企或者大型的企业用户,他们确实存在多云的情况,比如不同厂商的云,又比如私有云和公有云。在这种情况下,这些企业的核心诉求就是一个更方便的统一管理、统一运维、统一视图的开放基础设施管理平台。因此,浪潮在vForum 2018上发布了基于浪潮InCloud Manager的多云管理解决方案,提供多云统一管理、异构虚拟化统一管理、跨云资源调度和编排、多云治理、统一监控和运维、统一成本分析和优化以及基于API构建跨云应用等七大功能,实现了对多云环境的统一管理与智能运维,帮助客户更好的应对多云时代挑战。

王庆:多云的问题,其实是一个老生常谈的问题,也是一个历史遗留问题。它产生的原因可能是用户在早期采用不同厂商的解决方案,从而导致在后续上云的过程中出现了多云的问题。我个人理解,对于OpenStack中的多云管理方案,主要的诉求,就是需要有统一的API,不管上层怎么改,API和接口都要一致并符合,那么,解决这个问题就会变得容易一些。

刚才谈到云的规模比较大时,会出现多云的问题,其实还有另外一种情况,就是也会出现OpenStack大规模集群,对于OpenStack大规模集群的管理,应该怎么解决呢?

刘晓欣:确实,现在客户OpenStack集群越来越大,超过千台的也是屡见不鲜,这其实是对OpenStack的一个很大的挑战。浪潮今年上半年有一个客户,它的OpenStack规模达到了1500台,分两地三个中心,其中一个中心的规模达到了一千台左右,我们的解决方案是,两地三中心统一采用InCloud Manager跨云管理平台管理,中心节点采用OpenStack来解决,经过三、四个月的攻关,最终解决了这个问题。所以通过这样一个项目,我们自己内部的团队其实也得到了很多锻炼,因为OpenStack很多坑都是得蹚出来了。

王庆:就像刘总所说的那样,以前500台的OpenStack集群就算是很大规模了,2015年时,OpenStack社区里能够对外宣称的最大规模的OpenStack集群就是欧洲核物理研究所CERN,好像是有两三千台的规模。但实际上,国内某运营商的规模在那时已经达到了一两千台。但不管是CERN,还是该运营商都没有解决所有的问题。后来我们也是和运营商及其合作伙伴蹚过很多的坑,用Ironic进行大规模集群管理,后来OpenStack基金会也专门成立了工作组来讨论大规模集群管理的问题。

后面大规模集群又分成了两种,一种就是数据中心里面的大规模,整个数据中心里面有两、三千台机器,全国有数个数据中心分布在不同的地点。另外一种是,中心节点非常少,但边缘节点特别多的大规模。OpenStack基金会对这两种大规模都将会长期跟踪,与大家一起来共同解决大规模集群管理的问题。

融合并存是开放基础设施的未来

您对OpenStack、开放基础设施的未来趋势有什么看法?

王庆:业界有一种声音,说OpenStack在走下坡路。但从我个人角度而言,我觉得OpenStack应该不叫走下坡路,反而是处于成熟稳定期。前几年,是OpenStack的飞速发展期,现在它稳定了。有部分人说,虚机管理的问题完全都可以换成用容器来管理。个人认为,不管容器也好,虚机也好,甚至是裸机,它们三者将会是长期共存的。所以总结来说,OpenStack的成长已经进入稳定发展期,将来的趋势是容器、虚机、裸机三分天下,相辅相成,谁都无法替代谁。

刘晓欣:与王总观点相同,我认为是裸机,虚拟机、容器其实是长期并存的。现在容器的风头确实是盖过了OpenStack,对于一些新兴的,或者说从零开始的用户,他们可能可以朝着容器的思路和方向去走。但是很多传统的,比如说使用原来软件开发模式,有着各种行业应用软件的用户,这种改变的过程是很大的,而且有的可能是无法改变的。这也就是为什么我觉得未来五年或者十年,裸机、虚拟机、容器都会长期共存的原因。同时,这也是OpenStack基金会今天不把自己局限于一个虚拟机为主的平台,而是重新转向OpenInfra的主要原因。

PS:点击https://bss.csdn.net/m/topic/inspur_os观看直播回放,获取更多精彩内容!

相关推荐