神龙汽车开发时间节点图中的关键节点是哪些?,

专访阿里云研究员张献涛:“神龙”开启云计算新征程

不同于其他云技术,裸金属服务是首先在国内诞生,然后国际的巨头才推出相应的服务,裸金属服务拓宽了云的边界,让用户可以像使用云主机一样方面的使用物理机,并得到更好的性能,引发了用户对云新的需求。阿里云在2017年10月推出了神龙技术架构及弹性裸金属实例,同时兼备物理机的肌肉和虚拟机的心脏,为云计算发展开启了一段新征程。

裸金属服务今后如何发展,阿里云的裸金属服务背后有那些细节,在2018年的云栖大会上,云技术社区北极熊对阿里云神龙项目负责人张献涛进行了独家专访,为你深度揭秘阿里云裸金属服务,本文是对专访精华部分文字版的整理。


北极熊:

阿里并不是个硬件厂商,阿里云的弹性裸金属实例(神龙)如何和其他硬件服务器厂商的裸金属云竞争,尤其是底层硬件服务器的管理,如何做到更自动化,更让用户满意?

张献涛:


AWS自己也不造机柜,我们看到的是无论是云计算厂商,还是以前的软件厂商,现在更多的是在设计硬件。经过多年的探索,我们积累了一定的硬件设计能力,也正在慢慢构建设计芯片的能力,你也看到了阿里巴巴成立了平头哥半导体公司。




但我们也不会是说要建一座半导体工厂,就像苹果手机一样,设计是苹果公司,最终的生产是富士康。阿里云和硬件厂商有很好的合作关系,大部分服务器都是定制化的,很大程度上我们参与了需求设计,结合具体的业务情况,把通用服务器中不需要的部分去掉,为客户节省成本。

有人说:“现在的互联网厂商,云计算厂商是最懂业务的”,这句话我很认同,从业务的角度出发去定义芯片、定义硬件,那才是最靠谱的。比如像TPU,像芯片,对内部的操作进行抽象,抽象出来特殊的指令,不是我们看到的加减乘除这样的的指令,而是一些矢量化的指令,通过这样的一条指令可以完成一些列的动作。

服务器也一样,我们为什么要做要做神龙架构,就是传统的服务器没有办法满足我的业务需求了。因为传统服务器硬件不能变,只能在这个之上做创新,阿里云的神龙架构可以消除虚拟化的开销,还原物理机100%的计算资源,同时又拥有虚拟机的一切特性,可无缝迁移。




当然,有些友商也推出了弹性裸金属产品,但本质上还是物理机托管,不具备虚拟化能力。这一点,神龙做的是比较好的,跟阿里云的产品完全打通,这是比较难的。

如果从硬件层面去提供租赁服务,网络是可以打通的,但是整个体验是完全不一样的,你很难放到一个VPC里面,你很难支持弹性网络,你很难支持EIP。如果体验不一致,就会给客户的使用带来很大的障碍,所以做裸金属的挺多,但是能真正把裸金属做成和虚拟机一样的体验的,目前来看只有亚马逊和阿里云。




北极熊:

使用裸金属的一般都是重型应用,神龙服务器有没有获得HANA、甲骨文、SAP等厂商的认证,甲骨文也有自己的裸金属云服务,您如何看待这些关系?

张献涛:


杭州云栖大会上,我们和SAP、VMware都宣布了合作,这些企业的客户都可以用上阿里云。其实2年前,阿里云和SAP就在ECS方面有合作了,用户在阿里云上使用SAP的产品不存在任何障碍,我们也有很多实例通过了SAP HANA的认证。

多说一句,SAP认证在KVM上还是挺难的,HANA认证,四百多个CASE,性能损失要保持在12%以下,阿里云的400多个CASE最终做到了性能损失在2个百分点以下。

弹性裸金属实例(神龙)的认证就更简单了,在计算方面和物理机一致,在网络存储IO方面和虚拟机一致。

在这个领域,我们不担心竞争,裸金属云肯定是未来的一个重要方向,但是不会取代传统的虚拟化,是有益的补充,随着不断的优化,体验完全和虚拟机一样的时候,用户就不会介意使用的是裸金属还是虚拟机,只是那个更好用,那个性能更好,那个更稳定。这个是业界的发展趋势,这个领域会有更多的厂商进来,像甲骨文,AWS等,我们不担心竞争,大家一起耕耘。


北极熊:

企业用户对业务如何迁移到云上是一个痛点,神龙技术架构在帮助用户将业务迁移到云上有没有绝招,能否帮助用户不停机的迁移业务?

张献涛:


其实,最早有很多客户询问阿里云有没有物理机服务,但我们没这么做。因为,那样我们就不是云计算厂商了,而是传统的托管厂商了。我们在和客户的一轮一轮交流下来,对客户的需求进行提炼分析之后,我们认为客户要的是一个和物理机一样的服务,而且要能自动化的去使用,最好能像虚拟机的一样申请和释放,整个体验都可以像虚拟机一样的弹性。

在我们了解客户需求后,我们知道,客户要的就是今天的“神龙”。

所以当这款产品出来之后,原来可能没有办法向云上迁移的这部分客户就有了新选择。客户上来之后,会发现这个物理机居然和我要的不一样,他要的可能是一个功能机,突然发现给他的是一个iPhone的时候,他会感觉不仅功能能用,而且自动化程度更高,并且成本比物理机还低。

如果客户线下使用的VMware,没问题,可以把VMware部署到神龙裸金属服务器上面,但是传统的虚拟化,要想部署VMware在云上几乎是不可能的,软件层面要做虚拟化嵌套,性能损失、安全性都有很大的问题。




北极熊:

在杭州云栖大会上我我们看到,神龙裸金属云的嵌套虚拟化方案,请问在神龙上搭建自己的私有云,可以和已经使用的阿里云其他产品,比如云主机,云存储等打通吗?可以和用户的数据中心打通吗?如果使用的是商业产品,比如VMware,授权问题如何解决?

张献涛:


神龙和其他云产品全部是互联互通的,第一代神龙提供32个网络接口,每一个都是VPC的网络接口,VPC的网络接口每一个都有EIP,都有自己的私网IP,有自己的私网IP,可以和VPC里面的所有云产品互联互通,存储、数据库等等,通过VPC可以和整个云的设施打通。

和用户的数据中心互通,整个刚才也提到了,我们有个客户,线下采用的是OpenStack,经常有弹性的需求,使用神龙的GPU服务器、神龙的普通节点,通过我们的专线打通之后,又在云上搭建OpenStack环境。


北极熊:

能否分享一些比较好的落地案例?

张献涛:


地平线是一家人工智能初创企业,他的整个GPU云,都在使用神龙。AI这个行业对GPU的需求是非常大的,原来AI计算使用的是一张卡,后来发现一张卡不够,使用八张卡。随着复杂性的增加,发现八张卡也不够了,可能就需要十六张甚至更多,像英伟达有一款产品,可以使用十六张去训练,随着模型更复杂,十六张卡也不够用了,有些模型需要用到两百张卡,甚至五百张卡,那怎么办?

其实就是将更多机器通过高速低延迟的网络互连起来,把几百张卡连接起来,就像一张卡一样,我们现在碰到最大的一家客户,已经用到几百张卡了,那就要用基于神龙搭建的超级计算机集群的产品,可以使用低延迟的网络,把模型和规模做到几百张卡,原来可能需要一个月训练的内容,现在可能就是几天,或者几个小时就训练好了。

另外,阿里云许多汽车制造业的客户,他们在做传统的高性能计算,比如做传统的汽车仿真,一次性要调用几百台高主频的实例,他们都在用神龙的计算能力。

还有一种场景,有一些公司,本来自己是做云的,是PaaS或者SaaS层面的云,突然发现有了神龙后,自己没有必要采购硬件了。这种情况下,可以基于我们的IaaS能力构建他的云,现在这样也是一种趋势。


北极熊:

能否聊以下取名神龙的含义,后面对神龙项目的期望。?

张献涛:

你知道阿里自主开发的这一套云操作系统叫飞天,我们在设计“神龙”的时候,期望是神龙能够承担起我们未来所有的硬件基础设施,能够飞天,其实神龙就是这样来的,飞天和神龙其实挺搭的。


神龙只是刚刚开始。做硬件,做服务器,做芯片,这些不是一朝一夕能够完成的,从规划到最终落地需要很长的时间。我们今年的重心是如何更好的帮助客户把业务迁移到云,根据客户的需求,用一个小而精的团队如何快速的迭代。

北极熊:

感谢张总的分享,期待明年神龙取得更多的成就,明年再来采访张总。


(左)阿里云虚拟化技术总监张献涛和云技术社区北极熊(右)

2024-03-11

后面没有了,返回>>电动车百科