找回密码
 注册
关于网站域名变更的通知
查看: 205|回复: 2
打印 上一主题 下一主题

专⽤数据处理器(DPU)技术⽩⽪书1:DPU技术发展概况

  [复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2022-6-13 10:24 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
1、DPU技术发展概况+ L7 n( y3 c, l
1.1. 什么是DPU
$ |: Y% u- B- @3 q; y$ L! o( f6 r6 lDPU(Data Processing Unit)是以数据为中心构造的专用处理器,采用软件定义技术路线支撑基础设施层资源虚拟化,支持存储、安全、服务质量管理等基础设施层服务。2020年NVIDIA公司发布的DPU产品战略中将其定位为数据中心继CPU和GPU之后的“第三颗主力芯片”,掀起了一波行业热潮。DPU的出现是异构计算的一个阶段性标志。与GPU的发展类似,DPU是应用驱动的体系结构设计的又一典型案例;但与GPU不同的是,DPU面向的应用更加底层。DPU要解决的核心问题是基础设施的“降本增效”,即将“CPU处理效率低下、GPU处理不了”的负载卸载到专用DPU,提升整个计算系统的效率、降低整体系统的总体拥有成本(TCO)。DPU的出现也许是体系结构朝着专用化路 线发展的又一个里程碑。- L0 R+ R; e4 T5 j+ V' {; n

& L2 z, X. @: ?1.1.2. DPU的作用$ V$ e# U% M+ I/ }& P
DPU最直接的作用是作为CPU的卸载引擎,接管网络虚拟化、硬件资源池化等基础设施层服务,释放CPU的算力到上层应用。以网络协议处理为例,要线速处理10G的网络需要的大约4个Xeon CPU的核,也就是说,单是做网络数据包处理,就可以占去一个8核高端CPU一半的算力。如果考虑40G、100G的高速网络,性能的开销就更加难以承受了。Amazon把这些开销都称之为“Datacenter Tax”,即还未运行业务程序,先接入网络数据就要占去的计算资 源。AWS Nitro产品家族旨在将数据中心开销(为虚拟机提供远程资源,加密解 密,故障跟踪,安全策略等服务程序)全部从CPU卸载到Nitro加速卡上,将给上层应用释放30%的原本用于支付“Tax” 的算力!
; @2 i8 _; G6 W; |! {. h& ?- t7 A. d5 iDPU可以成为新的数据网关,将安全隐私提升到一个新的高度。在网络环 境下,网络接口是理想的隐私的边界,但是加密、解密算法开销都很大,例如 国密标准的非对称加密算法SM2、哈希算法SM3和对称分组密码算法SM4。如果用CPU来处理,就只能做少部分数据量的加密。在未来,随着区块链承载的业务的逐渐成熟,运行共识算法POW,验签等也会消耗掉大量的CPU算力。而这些都可以通过将其固化在DPU中来实现,甚至DPU将成为一个可信根。
2 U- W, o" u: v5 z* Z. u* p0 G3 M% s! J# w6 T
1.2. DPU的发展背景
, G3 ~5 \( a* X: M5 l2 {; C+ }DPU的出现是异构计算的又一个阶段性标志。摩尔定律放缓使得通用CPU性能增长的边际成本迅速上升,数据表明现在CPU的性能年化增长(面积归一化之后)仅有3%左右1,但计算需求却是爆发性增长,这几乎是所有专用计算芯片得以发展的重要背景因素。以AI芯片为例,最新的gpt-3等千亿级参数的超 大型模型的出现,将算力需求推向了一个新的高度。DPU也不例外。随着2019年我国以信息网络等新型基础设施为代表的“新基建”战略帷幕的拉开,5G、千兆光纤网络建设发展迅速,移动互联网、工业互联网、车联网等领域发展日新月异。云计算、数据中心、智算中心等基础设施快速扩容。网络带宽从主流10G朝着25G、40G、100G、200G甚至400G发展。网络带宽和连接数的剧增使得数据的通路更宽、更密,直接将处于端、边、云各处的计算节点暴露在了剧增的数据量下,而CPU的性能增长率与数据量增长率出现了显著的“剪刀差”现象。所以,寻求效率更高的计算芯片就成为了业界的共识。DPU芯片就是在这样的趋势下提出的。
1 a3 y% }6 h0 C. Y; H2 z, S  M; V! Z$ A7 c2 q
1.2.1. 带宽性能增速比(RBP)失调:2 C8 y; @9 y/ n) _3 s% H
# ]! Q0 O' P  u' o/ }. z

! ]- W2 e1 P$ C" I1 [6 `- q5 T) n# c* {* l0 F' k
1.3. DPU发展历程& ^3 r) O) K* y' c9 N7 j, b
随着云平台虚拟化技术的发展,智能网卡的发展基本可以分为三个阶段(如图1-2所示):
6 l2 l4 }1 M! \( e% g  c" Y
. t) k9 X9 J/ [! I4 }: [
0 I/ B+ R' H2 R. u第⼀阶段:基础功能⽹卡
6 T) k3 f2 F% p/ G) ]$ ^" P基础功能网卡(即普通网卡)提供2x10G或2x25G带宽吞吐,具有较少的硬件卸载能力,主要是Checksum,LRO/LSO等,支持SR-IOV,以及有限的多队列能力。在云平台虚拟化网络中,基础功能网卡向虚拟机(VM)提供网络接入的 方式主要是有三种:由操作系统内核驱动接管网卡并向虚拟机(VM)分发网络流量;由OVS-DPDK接管网卡并向虚拟机(VM)分发网络流量;以及高性能场景下通过SR-IOV的方式向虚拟机(VM)提供网络接入能力。) i# m+ g% {- K5 x. k
第⼆阶段:硬件卸载⽹卡可以认为是第一代智能网卡,具有丰富的硬件卸载能力,比较典型的有OVS Fastpath硬件卸载,基于RoCEv1和RoCEv2的RDMA网络硬件卸载,融合网络中无损网络能力(PFC,ECN,ETS等)的硬件卸载,存储领域NVMe-oF的硬件卸载,以及安全传输的数据面卸载等。这个时期的智能网卡以数据平面的卸载为主。+ h: A$ [* Z9 v3 ^
第三阶段:DPU智能⽹卡  N+ a/ c0 s0 K
可以认为是第二代智能网卡,在第一代智能网卡基础上加入CPU,可以用来卸载控制平面的任务和一些灵活复杂的数据平面任务。目前DPU智能网卡的 特点首先是支持PCIe root Complex模式和Endpoint模式,在配置为PCIe Root Complex模式时,可以实现NVMe存储控制器,与NVMe SSD磁盘一起构建存储服务器;另外,由于大规模的数据中心网络的需要,对无损网络的要求更加严 格,需要解决数据中心网络中Incast流量、“大象”流等带来的网络拥塞和时延问题,各大公有云厂商纷纷提出自己的应对方法,比如阿里云的高精度拥塞控制(HPCC,High Precision Congestion Control),AWS的可扩展可靠数据报 (SRD,Scalable Reliable Datagram)等。DPU智能网卡在解决这类问题时将会引 入更为先进的方法,如Fungible的TrueFabric,就是在DPU智能网卡上的新式解 决方案。还有,业界提出了HypervISOr中的网络,存储和安全全栈卸载的发展方向,以Intel为代表提出了IPU,将基础设施的功能全部卸载到智能网卡中,可以全面释放之前用于Hypervisor管理的CPU算力。5 ]: n2 U. b. d) N3 B$ q2 k4 {1 V

( H; I4 ^7 g/ F$ D+ g6 c8 j未来的DPU智能⽹卡硬件形态( E# @( C3 Q) y) r) \
随着越来越多的功能加入到智能网卡中,其功率将很难限制在75W之内,这样就需要独立的供电系统。所以,未来的智能网卡形态可能有三种形态:& S- T6 D- i0 w: ^9 a! ?6 T
(1)独立供电的智能网卡,需要考虑网卡状态与计算服务之间低层信号识别,在计算系统启动的过程中或者启动之后,智能网卡是否已经是进入服务状态,这些都需要探索和解决。1 S7 g9 l' V# T) O5 z  e
(2)没有PCIe接口的DPU智能网卡,可以组成DPU资源池,专门负责网络功能,例如负载均衡,访问控制,防火墙设备等。管理软件可以直接通过智能 网卡管理接口定义对应的网络功能,并作为虚拟化网络功能集群提供对应网络能力,无需PCIe接口。" G5 q2 o0 _8 l" O" R
(3)多PCIe接口,多网口的DPU芯片。例如Fungible F1芯片,支持16个双模PCIe控制器,可以配置为Root Complex模式或Endpoint模式,以及8x100G网络接口。通过PCIe Gen3 x8接口可以支撑8个Dual-SOCket计算服务器,网络侧提供 8x100G带宽的网口。
. n: W3 |" W: E' `$ X& q; v+ p0 Y8 l- I2 ]  K; l, j

% ]+ S; ~2 E8 m( i# h! K) eDPU作为一种新型的专用处理器,随着需求侧的变化,必将在未来计算系统中成为一个重要组成部分,对于支撑下一代数据中心起到至关重要的作用。
- j4 _1 K+ B& x( A, x
% L5 l* P  |" u( R' {, f1.4. DPU与CPU、GPU的关系$ _: \, S4 N- h, V& o
CPU是整个IT生态的定义者,无论是服务器端的x86还是移动端的ARM,都 各自是构建了稳固的生态系统,不仅形成技术生态圈,还形成了闭合价值链。+ g0 ~4 b7 A. c4 Y$ R6 s
GPU是执行规则计算的主力芯片,如图形渲染。经过NVIDIA对通用GPU(GPGPU)和CUDA编程框架的推广,GPU在数据并行的任务如图形图像、深 度学习、矩阵运算等方面成为了主力算力引擎,并且成为了高性能计算最重要 的辅助计算单元。2021年6月公布的Top500高性能计算机(超级计算机)的前10名中,有六台(第2、3、5、6、8、9名)都部署有NVIDIA的GPU。
- _! A* R* U4 J% a未来算⼒⽣态(相关⼚商为不完全列举,仅做为⽰意参考):
7 c- e  E3 ~1 n5 D! _1 t
/ c; i. Y# V+ y; E6 i
1 M0 V! Y, l2 p  y' v+ T8 S数据中心与超极计算机不同,后者主要面向科学计算,如大飞机研制,石油勘探、新药物研发、气象预报、电磁环境计算等应用,性能是主要指标,对接入带宽要求不高;但数据中心面向云计算商业化应用,对接入带宽,可靠性、灾备、弹性扩展等要求更高,与之相适应发展起来的虚拟机、容器云、并行编程框、内容分发网等等技术,都是为了更好的支撑上层商业应用如电商、 支付、视频流、网盘、办公OA等。但是这些IaaS和PaaS层的服务开销极大, Amazon曾公布AWS的系统开销在30%以上。如果需要实现更好的QoS,在网络、存储、安全等基础设施服务上的开销还会更高。
2 N) ]! X/ e6 o& W+ Y6 `& i8 y# M8 y: b! Q0 U1 N

4 k. y3 p, b! b+ j6 V* T9 ^% R2 R5 f! E' [, T% f- ~

DPU-whitepaper-final-x.pdf

10.58 MB, 下载次数: 0, 下载积分: 威望 -5

该用户从未签到

2#
发表于 2022-6-13 11:19 | 只看该作者
学习学习,嘿嘿

该用户从未签到

3#
发表于 2022-6-13 14:21 | 只看该作者
需要的资料,非常实用
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-9-29 19:24 , Processed in 0.125000 second(s), 26 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表