作者:程作品、刘如冰、朱仕银、徐深超 新华三技术有限公司
01
前言如今数字化时代,越来越多的应用对底层基础设施尤其是网络的性能和可靠性有着极高的要求,例如工业互联网、车联网、远程医疗等领域。传统的“尽力而为”的服务模式无法满足这些应用对实时性和可靠性的需求,因而确定性网络应运而生。确定性网络是一种旨在提供高可靠性、可预测性和实时性的网络架构。其内涵是指在网络中实现数据传输的高性能、低延迟和无差错的特性,而外延则是指在不同的应用场景和网络环境中应用确定性网络的范围和适用性。从确定性的内涵和外延来看,确定性网络具有以下四个特征:
确定性带宽(Deterministic Bandwidth)
确定性网络需要提供稳定和可预测的带宽,确保网络中的数据传输不会受到带宽压力或时延的影响。这意味着网络需要合理调度带宽资源,以满足实时、大流量和高带宽需求的应用。
确定性路径(Deterministic Routing)
确定性网络需要建立可靠和可预测的数据传输路径。通过优化网络拓扑、路由算法和流量调度策略,确保数据能够按照预定路径进行传输。
确定性时间(Deterministic Timing)
确定性网络需要提供稳定和可预测的传输时延。无论在网络拓扑变化、负载变化或者其他环境变化下,网络都应能够保持稳定的传输时延,以满足对实时性和时延敏感的应用需求。
确定性丢包(Deterministic Packet Loss)
确定性网络需要尽量避免或减少数据包的丢失。通过使用冗余、前向纠错、拥塞控制和故障恢复等技术手段,确保数据包能够可靠地传输到目的地,减少丢包率。
基于上述特征业界纷纷推出一系列技术和各种确定性网络解决方案,例如时间同步、资源预留和队列排队技术和时间敏感网络(TSN)等。通过优化网络拓扑和传输控制机制,以提供稳定、可靠和可预测的网络服务。随着数字化转型的加速和确定性网络的范围扩展,确定性网络将由单一、小范围网络演进到异构、大规模确定性网络。
02
大规模确定性网络面临的挑战大规模确定性网络为应用提供高实时性端到端的确定性传输服务面临着诸多挑战。首先,需求呈现多样化,网络的规模和网络所承载的业务都得到了进一步扩展;其次,要实现跨域间端到端的确定性传输服务。
图1 端到端确定性网络难题
需求呈现出多样性
随着5G uRLLC技术和工业互联网的兴起,端到端确定性的需求从局域网扩展到广域网,呈现出多样化的发展趋势。例如,电力差动保护、云游戏、基于云的PLC和工业控制等应用都需要端到端确定性网络。由此应用需求泛化,网络规模扩大,信息孤岛间互联等,对此确定性服务的需求变得越来越多样化。
跨域异构协同
在大规模多域网络中,不同类型的网络需要相互协同工作,以满足跨域部署应用的确定性需求。这涉及到不同网络间的互操作性、协议的统一和资源管理等问题。此外,跨域协同还需要解决跨网络边界的时延和丢包问题,以确保网络的确定性和可靠性。
本文将从支撑类可用性技术、分层技术、跨域异构协同技术等多个维度出发,详细探讨了构建大规模确定性网络所必须具备的技术能力以及后续演进。
03
确定性网络支撑类可用性技术如今,在产业互联网蓬勃发展的当下需要网络具备更精准、更可靠和差异化的服务能力,来确保各系统、各节点、各环节之间多业务冲击下的高时效性的协同。确定性网络的高可用性技术就是在基于 IP 网络的基础上通过一系列技术加持,提供低时延、高可靠的高质量服务,从而做到高时效性的协同。首先时钟同步是基础,在此基础上通过探测技术得出相互间依赖关系;其次从整系统的视角对业务分级分类、队列技术,做好流量管理;还有整个系统需要网络演算等理论的支撑和高可靠性的保障等等。
时钟同步
时钟同步是确定性网络的基础,为时间敏感网基于时间片的调度及量化时延的应用提供保障。同步技术分为时钟同步(频率同步,文中不加说明统一用时钟同步来描述)和时间同步(相位同步),根据场景不同采用不同机制和不同的同步方式。当前时钟同步技术具有以下趋势:首先,同步精度越来越高,可以达到纳秒甚至皮秒级别;其次,同步范围不仅限于同一域内的节点,还需要做到域间同步;第三,时钟同步异步化的趋势,如两端各自采用本地时钟,通过弱同步方式保持同步;第四,标准多样化,如IEEE 802.1AS、SyncE(Synchronous Ethernet,同步以太网)、1588v1/v2等,趋向进一步融合和转换。还有在有线网络穿越无线网络时,还可以使用无线 Sib9 作为中继;同时为了简化操作,尽量使用频率同步而非相位同步。
可靠性技术
可靠性技术也是确定性网络必不可少的技术之一,当前高价值的业务要求可靠性指标在99.999%以上,甚至更高。提高可靠性的手段很多,可以从网络层次、体系结构等方面入手,也可以从容错和余度等设计角度入手等。例如,分组数据汇聚协议(Packet Data Convergence Protocol,PDCP)和双发选收(Frame Replication and Elimination for Reliability,FRER)等协议就是利用冗余机制来保障数据的完整性和一致性。即使出现数据丢包或单链路故障,也不会影响两端的数据收发。它主要是通过复制多份数据,牺牲带宽,引入报文排序和去重等复杂度为代价的,因此在提升可靠性时往往要考虑成本与指标之间的平衡。
探测技术
探测技术在确定性网络中起着至关重要的作用。确定性业务对网络性能的要求极高,其中探测的精度和速度成为影响确定性网络可用性的关键因素。在传统的OAM手段中,双向主动测量协议TWAMP-Light 是通过模拟发包的方式进行端对端的检测,给出每段时长,但其检测结果不够真实、不够精准。后来发展出的INT、iNQA等技术通过在报文中可以携带时间戳、队列、时隙等自定义字段,既可在Underlay网络也支持在Overlay网络中的部署,具有高精度的检测和丰富的信息采集能力。而最新的iFIT技术主要遵循IETF RFC 9341标准,是一种可应用于MPLS、SR-MPLS、SRv6等网络的检测方法,通过直接测量业务报文来获取网络的真实丢包率和时延等性能参数。新探测技术演进过程具有以下特点:
1、直接对业务报文进行测量,所得数据可以真实反映网络质量状况;
2、可编程能力,可以追加自定义字段,实时获得所需数据,如:实时监测用户流的时延和丢包情况;追加队列和时隙等字段,可以实时获得上下游节点、以及节点内各模块间的周期映射关系,作为确定性调度中的周期参数;
3、精度越来越高,直接基于硬件实现,对网络影响较小,具有较强的可扩展性的同时,获取的精度越来越高,精度可达微秒级,甚至更高。
分级分类
分级分类和精准业务识别是实现确定性网络可用好用性的关键技术手段。确定性节点接收到的流量往往是非常复杂的,无序的。机制上需要做到确定性流与非确定性流识别、隔离;其次还需要对确定性流进行流量监管、流量整形、资源上优先保证等才能做到确定性。
首先,根据应用场景和业务特征提出符合确定性网络QoS分类的指标体系,并定义确定性业务等级及其SLA指标。例如,根据时延和抖动指标对确定性业务进行分级,明确规定SLA指标;部署过程中就用相应的指标来约束和限制相应的业务。具体可以参见:2023版《确定性承载技术和评测体系研究报告》。
其次,进行精准业务识别,区分确定性流与非确定性流,以及确定性流的各种自定义特征;在精准业务识别的技术和手段方面,当前有由传统的模式匹配方式往机器学习方式的转变趋势。
最后,建立流量模型做好流量监管、流量整形等,与后续的分配好的资源做关联,实现业务分级分类调度。例如,根据等级指标,流量按特征进行分级分类,并按照规划进入相应的切片队列资源进行精准调度。
扩充一点,有了前面一系列的分级分类方法和手段外,不可否认的是我们的网络还会面临更加复杂局面,比如:对异步流量的处理,它们会在任何不可预知的时间发送长度大小不一的流量包,在做流量工程时,需要现有技术与相关的确定性的技术和手段做有机结合,如:异步确定性流经过传统的流量监管的流量承诺和流量整形处理后,再做后续的确定性转发,采用合适队列技术,走哪条路径,从哪个时隙调度走等等,在调度方式和资源选择上最好有多种可选项,具备一定的弹性。
队列技术
采用合适的队列技术和适当的队列设计,可以有效规避拥塞的发生,起到拥塞保护作用。随着应用场景的深化,队列技术也得到不断发展。早期采用CBS(基于信用整形队列机制), 一定程度上能提升QoS,但未涉及抖动控制机制,且时延抖动随跳数而累计,严格意义上不满足确定性要求。
接着出现了TAS,CQF通过门控和周期转发机制满足低时延低抖动确定性业务需求,但在队列控制和配置上还是过于复杂,同时还需要各个节点间实现精准时间同步;为了寻求一种能从空间和时间上降低复杂度并能解决端到端确定性传输的方案,业界纷纷把重点转移到降低对时钟的依赖、对流抽象和沿途资源控制上。
TCQF/CSQF/RCQF/TQF等技术出现降低了对时钟精准同步的依赖,只需频率同步即可,无需相位同步。后续节点通过增加额外的容忍队列、偏移映射等无状态时延补偿方法来解决异步周期下边界对齐的问题。流的抽象可以采用原先的逐流方式或者是按类方式,还可以进一步通过聚合方式进行队列调度。在资源控制方面,包括:接口、链路、带宽、时隙、队列等在内,通过硬切片和软切片等技术手段,可以进一步抽象为虚通道、虚链路等,再按网络级、节点级、链路级等进行分级控制。
还有另一种思路,彻底摆脱时钟同步的依赖。如ATS技术就是在设备上维护逐流状态,通过聚合队列调度,计算每个报文的发送时间,从而达到逐流整形和时延有界的效果,这个是典型的用空间上的复杂度换取时间上的简单化的做法;还有一种与TTE(时间触发以太网)类似的方法,在报文中携带时间戳信息,通过上下游配合实现时延抖动的有界。如,已知上游节点的理论上最大时延和实际上所耗时延,下游节点就可以根据二者的差进行偏移周期做吸收上游节点产生的抖动,这里忽略了数据在链路上传输过程中带来的偏差。
由此可见,队列技术演进的思路:1、减轻对时钟同步的依赖,降低部署门槛;2、通过抽象进一步简化,以适应大规模确定性网络的场景。应用中队列技术的选择往往跟现实场景、网络规模、性能指标相关,还有端到端确定性业务经常还会跨越多个确定性网络域,存在不同确定性技术对接的问题。为此 DetNet/DIP/EDN 等从系统架构技术体系出发,通过队列时隙化和确定性调度等机制、及控制面协议的扩展以适应大规模确定性网络。
网络演算
网络演算也称为网络微积分,它把复杂的非线性通信系统简化为线性系统,可分为确定性网络演算(Deterministic Network Calculus,DNC)和随机性网络演算(Stochastic Network Calculus,SNC)两大类。确定性网络演算基于到达曲线与服务曲线,求解网络的性能边界绝对值,如,最坏的情况下,网络时延的上限保证。随机性网络演算是在确定性网络演算的基础上结合统计及概率模型,求解网络在一定概率条件下(如满足 99.99% 时延及丢包率情况下)网络性能的统计边界,可以看出确定性网络演算是随机性网络演算的一个特例。
图2 网络演算
网络演算理论能够根据服务曲线和到达曲线,计算出网络的时延及缓存容量上限。反之也可利用网络演算模型通过资源的调度和规划来达成确定性的网络。如,从微观层面采用TDM方式能做到将服务开始时间进行离散化(T*)处理,严格刻画出每流的服务开始时间为T1, T2, … Tn,来保证排队时延严格有界,避免排队拥塞,从而做到确定性。
网络演算就是能从系统角度为每条流给出理论上端到端时延上界的理论支撑,当然每条流要满足时延上界要求也离不开合适的路由路径、队列、时隙和调度方法等,同时还包括:1、流量模型;2、网络演算算法;3、调控手段:如,控制发包速率、调整发包时间、边缘整形、队列规划、时隙调度、时延补偿等方式。
综上所述,确定性网络的可用性技术是支撑性技术,连同后面介绍的分层和异构的确定性网络技术一道实现端到端的确定性传输。这些技术大多是基于现有网络技术进行优化和重构的结果,如引入时延、抖动、时隙和队列等。同时它们又是相辅相成的,比如,需要时钟同步技术作为整个确定性网络的统一基准;多业务下通过分级分类做好合理规划、精准识别和资源的精准匹配来满足不同SLA要求;网络演算在提供了一种理论支撑的同时,又为确定性网络提供更多的解决方案等等。
通信人家园 (https://www.txrjy.com/) | Powered by C114 |