通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少将

注册:2015-11-2573
跳转到指定楼层
1#
发表于 2024-8-29 13:23:43 |只看该作者 |正序浏览
班有容、王锦涛等 中移智库

上篇

640?wx_fmt=png&from=appmsg
产业数字化转型带动了数字经济飞速发展,算力正在逐步成为新时代的核心生产力,算力发展同步带动了网络变革,为了达到极致的数据处理效率,出现了多种以数据为中心的新型计算架构,DPU作为新型计算架构代表,已经成为业内主流发展方向。DPU作为算力网络创新技术之一,统筹虚拟化、数据安全、运维管理等领域,是构建高性能、高可靠云化平台的关键技术,也被行业称为继CPU、GPU之后的第三颗数据中心核心处理器。本文将从概念背景、产业现状、核心挑战、关键技术等方面阐述中国移动通过标准化推动DPU技术发展与生态成熟的理念。
640?wx_fmt=png&from=appmsg
DPU概念及背景简介

业界对DPU概念存在多种解读,如数据处理器(Data Processing Unit)、数据中心处理器(Datacenter Processing Unit)以及以数据为中心处理器(Data-centric Processing Unit)。无论以何种维度解读,DPU从本质上来看,均是一种围绕数据处理提供网络、存储、安全、管理等数据中心基础设施虚拟化服务的专用处理器,是由ARM/X86等架构的CPU与ASIC(Application Specific Integrated Circuit)/ FPGA(Field Programmable Gate Array)等专用硬件加速引擎形成的提供虚拟化功能的实体。

DPU的出现源于业务发展为云计算领域带来的诸多难题,如:

资源争抢限制:同一计算节点上的云主机实例与虚拟化软件共享计算资源,随着资源需求的提高,资源争抢容易造成服务质量不稳定,尤其在大负载、大流量时I/O性能容易出现严重抖动,无法保障稳定的SLA体验。

计算特性损失:云计算技术的核心是Intel VT等硬件辅助虚拟化技术和KVM等主流虚拟化系统软件,通过这些技术为用户提供类似物理服务器资源的虚拟机。但是,一方面,虚拟机相比物理机存在一定的性能损失;另一方面,由于客户无法在虚拟机中再次部署虚拟化系统,导致私有云无法更好地利用公有云弹性云主机资源,限制了云主机的使用场景。

裸金属管理问题:裸金属可以解决虚拟化带来的计算特性损失问题,但是裸金属CPU资源需要全部提供给用户,因此无法在主机CPU上运行云平台管理组件,需要通过带外管理流程完成裸金属实例的部署、交付和运维,整个流程与虚拟化场景差异较大,不符合云计算弹性、灵活的原则。此外,裸金属实例在对接远端分布式存储时由于存储客户端需要运行在属于用户的CPU上,存储网络暴露存在安全风险。

随着人工智能业务的普及,越来越多的云上AI计算任务对网络和存储I/O的时延性能提出了更极致的需求,RDMA(Remote Direct Memory Access)和NVMe(NVM Express)等高性能网络和存储协议在传统网卡架构下难以满足云计算多租户的灵活需求场景。

640?wx_fmt=png&from=appmsg
图1  DPU在云计算场景实现全卸载

在这种背景下,为解决后摩尔时代I/O性能瓶颈和虚拟化技术发展限制等诸多问题,DPU应运而生。作为主机的数据出入口,DPU在具备标准网卡能力的同时,利用专用硬件完成网络和存储I/O,释放主机CPU算力资源的同时提升I/O性能。业务(主机CPU)与虚拟化软件(DPU)的硬件载体分离,业务与云平台的隔离性以及主机的安全性进一步提高。运行在DPU中的管理软件可提供裸金属的云化管理能力,提升裸机业务灵活性,降低运维难度。相比于传统网卡,DPU在单部件成本上有所增加,但是DPU的引入解放了更高成本的主机CPU算力,释放了更多可售卖资源,因此DPU引发的架构变革一定程度上提升了整个数据中心资源池的能效成本比和公有云厂商的收益成本比。在这一机遇下,产业的爆发成为必然。

640?wx_fmt=png&from=appmsg
DPU产业现状

DPU最早由Fungible提出,随着Mellanox被NVIDIA收购,BlueField系列产品的推出使得DPU的影响进一步增强,引发国内外众多厂商密切关注。我们按产业模式可将业内DPU分为定制DPU和通用DPU两大类:

定制DPU

对于云厂商来讲,为用户提供性能强、效率高、稳定可靠的平台和产品是第一需求。在过去较长一段时间里云计算的技术发展很大程度上依赖于虚拟化技术,在传统通用服务器硬件架构下的虚拟化技术演进已经逐渐到达瓶颈,在计算资源利用率提升、安全隔离性保障和统一云化基础设施等方面的需求满足上已显得捉襟见肘,因此阿里云、AWS等头部云厂商不约而同地选择了定制DPU的方式解决以上问题。

1)阿里云 CIPU:

2017年,阿里云推出了自研第一代神龙服务器,搭载自研MoC(Microserver on Chip)卡,MoC卡能力伴随神龙架构的演进也在迭代更新:

神龙1.0:解决上云后如何支持裸机服务的问题,将云化组件尤其是裸金属的管理模块卸载到MoC卡,提供裸金属的弹性交付和运维;
神龙2.0:神龙芯片能力进一步增强,通过构建轻量级Hypervisor实现计算虚拟化的卸载,支持虚拟机服务;
神龙3.0:存储、网络等数据面路径全面通过DPU芯片硬件优化,性能大幅提升,可以提供接近裸机的低延时网络;
神龙4.0:融入弹性RDMA能力,让RDMA从HPC类应用,走向支持通用类计算场景。

以MoC卡作为雏形,2022年6月阿里云发布云数据中心专用处理器CIPU,宣称将成为云时代IDC的处理核心。CIPU向下接入物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球上百万台服务器。以“飞天+CIPU”支撑阿里云实现了软硬件融合的云计算技术体系。

2)AWS Nitro:

2013年,AWS启动了一项革命性的研发项目Nitro,该项目通过软硬件的创新,给使用AWS云服务的全球用户带来更丰富的计算选项和性价比。目前,Amazon EC2(Elastic Compute Cloud,弹性计算云服务器)已经全部基于最新的Nitro系统构建,实现了Nitro系统在整个EC2产品组合中的普及。Nitro系统包括定制化硬件Nitro卡和Nitro软件,Nitro系统将管理、存储和网络处理工作卸载到专用卡上,配合轻量化虚拟机管理程序Nitro Hypervisor,构建一套性能高且灵活性强的软硬一体化云平台架构,大幅降低了单位CPU资源成本。

通用DPU

除了云厂商以外,NVIDIA和Intel等传统硬件厂商,相继推出了DPU和IPU(基础设施处理单元,Infrastructure Processor Unit)等产品,并配合DOCA(Data Center Infrastructure On a Chip Architecture)和IPDK(Infrastructure Programmers Development Kit)这类配套的协同软件开发套件,重塑数据中心软硬件架构形态。

1)NVIDIA DPU

NVIDIA于2022年4月发布了第三代BlueField,并具备持续演进能力,演进路线以集成AI算力、增强ARM能力以及升级网络速度带宽为主。BlueField架构本质上将网卡子系统与可编程数据路径、用于加密、压缩等的硬件加速器子系统以及用于控制的ARM处理器子系统融合在一起。BlueField-3 DPU继承了BlueField-2 DPU的先进特性,并对其进行了性能加强与功能扩展,在网络业务中专门对RDMA、连接跟踪、ASAP2(Accelerated Switch and Packet Processing)等网络通信技术做了进一步加强,特别是对时间精度,可在数据中心和边缘之间进行及时的时钟同步;在存储业务中支持块存储、文件存储、对象存储或者NVMe存储的仿真,同时支持数据落盘时的加解密操作。此外,NVIDIA推出了DOCA软件开发包,为开发者提供一个完整、开放的软件平台,支持开发者在BlueField DPU上开发网络、存储、安全和管理等虚拟化应用。

2)Intel IPU

在2021年英特尔架构日上,英特尔展示了其首款专用ASIC IPU Mount Evans和基于FPGA的IPU参考平台Oak Springs Canyon。Mount Evans融合了英特尔多代FPGA SmartNIC的研发经验,提供高性能网络和存储虚拟化卸载以及可编程数据包处理引擎,支持防火墙和虚拟路由等功能。同时延续了英特尔高性能Quick Assist技术以及高级加密、压缩加速等技术。Intel IPU配套的基础架构开发套件IPDK提供了统一开放API来支持业务应用开发和基础设施管理。值得一提的是,Intel提出,IPDK是一个开源的、与厂商无关的驱动程序和API框架,可管理由CPU、IPU、DPU或交换机构建的基础设施。

3)国产DPU

2021年起,DPU蓝海市场吸引了国内诸多初创公司,纷纷推出通用DPU产品,DPU产业呈现出百花齐放的状态。国内初创公司初期产品多采用可编程性较高的FPGA架构,以应对云平台软件的多变需求。但随着厂商逐步摸清业务需求、产品技术架构逐渐稳定,国内初创公司自主设计的ASIC架构DPU产品自2023年底逐步面世。


举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-17 07:22 , Processed in 0.277566 second(s), 19 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部