算力调度是通过对不同业务的算力资源和算力需求进行匹配,使合理的算力去处理相应数据的一种方式。算力调度是高效利用算力资源的关键。算力调度更多是指调用合理的算力去处理相应的数据。 目前算力调度存在许多问题,例如算跨 AI 框架的应用无法直接调度,需要应用代码迁移;算法适配具有高度的专有性,不同的加速芯片适配技术复杂多样;跨厂商的作业调度生态支持能力弱,异构芯片适配标准不统一等。 1. 算力调度技术研究 (1)跨区域算力调度技术 跨区域算力调度是以算网大脑作为算力网络的核心系统,重点在构建分层分域管理的算网架构。 通过专网构建跨区域分布式算网大脑。分层算网大脑架构在总部部署总部中心算网大脑,分布式控制调配全网算力资源。同时,在省内部署区域中心算网大脑,实现区域的集中控制、本地优先。总部中心与各省的算网大脑通过专用网络实现算力协同,共同构成覆盖全国的超级分布式算网大脑。 算网大脑基于开放资源矩阵进行算网地图建模。基于算网请求的多维约束条件和权重短阵动态并行计算 Top N 候选结果,然后以资源利用率、成本、能耗等多目标进行求解后得到最终优选的算和网,并建立网络路径和流量引流,最终实现算网资源双均衡效果。 全国范围集中管控算力资源带来巨大的计算量需求,需要从算力资源和管理方面集中评估算力资源的调配。在跨省调度效益方面,跨省资源选择“东数西算”枢纽资源,而社会泛在算力资源只在省内调度,可确保跨省调度效益最大化。在管理方面,将路径计算分成用户所在省、全国骨干网、云资源所在省三段,算力评估时各自计算路径,使计算分布式,提高效率、优化管理流程。 不同厂商的网络设备实现互通可有效助力算力网络需求匹配。其中一种有效方法是,复用现有的通用网络协议。主要实现两目标:一是有效降低对路由器软件和性能的要求;二是实现了尽可能少的对路由器进行改造,从而充分利用现有资源,降低迭代、运维成本,加快算力网络落地进度。 (2)闲置算力调度技术 海量闲置算力的调度技术,重点聚焦方法研究,重点聚焦于算力调度的各种方法和集群调度器研究两大分类。 1)闲置算力的调度方法 空闲算力调度模型分为 Monolithic 统一调度、Two-Level 两级调度、Shared State 共享状态调度。 Monolithic 统一调度:通过集群状态信息,负责统一的资源和任务的调度。统一调度也被称为云计算中的调度,属于静态资源分区调度方式。资源集合的全面控制。部署在专门的,静态划分的集群的一个子集上。或把集群划分为不同的部分,分别支持不同的行为。 Two-Level 两级调度:通过资源动态划分,使用中央协调器来确定每个子集群可以分配的资源,每个子调度器不具备全局资源视图,只是被动的接收资源,中央协调器仅将可用的资源推送给各个框架,各框架自主选择使用或拒绝这些资源。一旦框架接收到新资源后,再进一步将资源分配给其内部的各个应用程序,即调度策略下放到各个应用程序调度器,进而实现双层调度。 Shared State 共享状态调度:系统同时存在多个调度器,每一个调度器都可以访问整个集群状态,共享全局资源视图,当多个调度器同时更新集群状态时使用乐观锁并发控制。 2)集群调度器 Kubernetes:Kubernetes 是一个容器集群的编排管理系统,主要面向跨 Docker 主机场景之下容器集群的统一管理,用于自动部署、扩缩和管理容器化应用程序,提供资源调度、部署管理、服务发现、扩容缩容、监控、维护等一整套功能。 Borg:Borg 是Google 内部自研的一套资源管理系统,用于集群资源管控、分配和调度等。通过准入控制,高效的任务打包,超额的资源分配和进程级隔离的机器共享,来实现超高的资源利用率。能够支持高可用应用,并通过调度策略减少出现故障的概率。 Swarm:Swarm 是Docker 公司的一套管理 Docker 集群的工具。架构包含 Manager 和 Node,Manager是 Swarm Daemon 工作的节点,包含了调度器、路由、服务发现等功能,负责接收客户端的集群管理请求,然后调度 Node 进行具体的容器工作,如容器的创建、扩容与销毁等。 Torca:Torca 是腾讯Typhoon 云平台的关键系统。一个 Torca集 群 由 一 个 Central Manager 和 若 干 Execute Server 组成 。Central Manager 是集群任务调度中心,ExecuteServer 接收任务并负责相应执行。 伏羲:伏羲是阿里巴巴“飞天”云计算平台的分布式调度系统,有资源调度和任务调度分离的两层架构。主要负责集群资源管理和任务调度,支持超大规模,水平扩展,提供优先级、抢占、Quota等灵活的资源调度功能 2.现有算力调度平台分析 (1)中国联通算力调度平台 1)算网一体化编排调度平台 平台概述:目前平台正在建设,能够实现对公有云、私有云、算力及网络资源的统一调度,在云、网、边之间按需分配和端到端智能调度算网资源,满足不同行业应用场景对算网的需求。 调度机制:基于边缘云进一步下沉算力,引入智能算力网关,通过 SDWAN 网络链接边缘云和智能算力,并基于 SRv6 技术实现应用、网络统一编排和可编程调度执行功能,构建面向云网算业一体的算力网络管理编排架构和算力网络可编程调度体系,并制定南北向接口规范、测试标准等,支撑集团相关系统开发及部署,实现算网统一管控、协同编排和灵活调度,支持对中心云、边缘云以及在网算力、端算力等的端到端一体化编排调度能力。 应用情况:中国联通算网一体化编排调度平台及基于该平台开发的云网边一体产品提供方便快捷的一站式算网融合服务。目前,该产品已在江苏、河北、上海、福建、重庆等多个省分公司进行试点,覆盖工业互联网、智慧交通、教育、能源等多个行业、多个领域。 2)天穹算力运营调度平台 平台概述:目前天穹算力运营调度平台已完成建设,并正式投入运营,为业内首个三算一体统一调度平台。通过平台向用户提供基础、智能、超级算力订购模式,满足不同类用户算力使用需求;平台同时向用户提供算力调度、运营等内部管理手段。天穹算力运营平台以多云纳管和异构算力资源分配调度机制为核心,聚合运营商高速专网优势,集成整合存储服务、监控运维、安全防护、迁移灾备等生态能力,提供一站式算力智能调度运营服务。 平台特征:该平台为业内首个实现异构算力资源抽象建模、统一调度分配功能的调度平台。云算网储能力:多云纳管数量业界第一,具备云网专线、高性价比存储,云算网储统一纳管能力。拥有强大的算力调度编排框架适配性:能够适配多种算力调度编排框架,包括容器(Kuebernets)、人工智能(Kubeflow)、超算(Slurm、OpenPBS)等,解决应用对算力资源的编排作业需求。拥有高效智能的运营运维体系,对运营与运维人员提供针对性的自定义统计分析报表、自定义监控告警、自动化作业等运营运维场景服务。 应用情况:平台已应用于工业、政务、医疗多个行业。在医疗、工业、政务等关键民生领域输出算力资源,该平台产品已在多个大型国企、事业单位落地应用。平台支撑项目涵盖医疗、工业、政务等民生关键领域,赋能大湾区千行百业数字化转型。典型应用案例为:粤康码、疫苗预约、核酸检测等。 (2)中国电信算力调度平台 1)甘肃省算力调度平台 平台概述:目标是打造高速泛在、天地一体、云网融合、智能敏捷、绿色低碳、安全可控的智能化综合性信息基础设施,面向全国用户实现云网业务的统一受理、统一交付、统一呈现,实现云网深度融合供给,满足用户一体化服务需求。平台基于“能力与应用分离、应用与数据分离”的云化解耦思路,遵循“中心化、服务化”架构原则,具备业务运营、服务、管理全流程的中台能力,面向政府、企业、个人灵活构建上层算力应用,提供丰富的业务应用场景。 平台特征:甘肃将整合省内的闲置算力资源,面向省外算力需求提供算力清单,建立全省统一的算力资源池;制定全省统一的算力接入标准,引导新建算力资源按统一标准建设及接入;建设算力调度平台,形成覆盖全省、互联互通的算力调度服务体系和平台基础框架,实现对全网算力资源统一编排、统一输入输出;构建算力交易平台,建立算力交易和结算体制,实现算力资源线上交易。 平台架构:包括算力运营要素、算力调度网络、天翼云技术底座、业务中台、安全中台等部分。算力运营核心要素包括云、网、物资及其他资源。算力调度网络是实现云网融合、算网一体调度的基础,通过算力网关、算力路由、算网融合及算网控制等网络关键技术,为上层云网一体化调度提供服务能力。天翼云技术底座,全面提升了算力、存储、网络的能力,重点覆盖产业上云场景。业务中台是调度平台的内核,主要包含算网管理、算网计量、算网大脑等组件。安全中台采用先进安全理论,对系统进行全方位监测预警,认清风险、找出漏洞、通报结果。 应用情况:中国电信在西部甘肃节点积极推进算力网络的试点工作,目前已完成“东数西渲”和域内跨资源池存储等场景的落地与验证和“东数西渲”场景聚焦三维重建业务。“东数西渲”目前实践的场景可覆盖六百多个商业综合体、多个景区,域内跨资源池存储场景目前已经纳管甘肃省内存储资源近 3000PB,提供用户直接订购存储服务并使用的能力,同时也提供统一对外接口,方便用户嵌入第三方平台业务使用。 2)“息壤”算力分发网络平台 平台概述:中国电信推出天翼云 4.0 算力分发网络平台——“息壤”,实现 3.1 EFLOPS 全国算力的调度。平台构建的“算网大脑”是把多个数据中心和网络统一调度起来,根据应用的特征和实际的业务量,自动分配最合适的数据中心,自动调配算力资源和网络资源,实现业务体验和资源成本最优化。平台可对边缘云、中心云、第三方资源等全网算力进行统一管理和调度,具备算力感知、算力注册、算力映射、算力建模等能力,通过 AI 模型从实时业务预测未来的业务分布情况,基于网络编排、算力编排优化资源分布,最终将业务牵引到最适合的节点,满足不同业务算力需求。 平台架构:平台提供多样化、差异化的算力产品形态,满足从中心到边缘的多样化算力场景,产品形态包括 ECK 专用算力集群、ECK 托管算力集群、Serverless 边缘分布式容器、边缘容器实例、边缘函数、批量计算等。通过结合自研的算力调度引擎,实现了对算力资源的统一管理、统一编排、智能调度和全局算力资源优化效果。 应用情况:在全国范围内实现每分钟数万次、每天上千万次的算力统筹和调度,满足各种领域对算力的极致需求。把东部需要进行的机器学习、数据推理、智能计算等 AI 训练和大数据推理的工作放到西部,自动配置和调度相应算力;把东部对时延不敏感的、不活跃的、需存档的海量数据,放在西部存储。通过“息壤”,实现“东数西算”、“东数西训”“东数西备”“东算西也算”“东部企业西部上云”云渲染、跨云调度、性能压测、混合云 AI 计算等多种应用场景 (3)中国移动混合算力感知调度 AI 平台 平台概述:平台整体由1 个中心节点,N 个边缘节点构成,可实现异地多活的集群协同管理架构,提供高性能 AI 能力推理服务。引入国产化 AI 芯片,同时研发国产化 NPU 芯片模型迁移工具和混合调度框架,形成 GPU+CPU+NPU+MLU+内存的混合资源调度。统一AI 平台构建以云原生为基础、兼容异构算力和多种管理模式的“云- 边-端”协同架构。实时感知云边端算力资源使用情况,根据任务需求动态调度算力资源。 平台特征:支持GPU 虚拟化和碎片优化,大幅提升模型训练过程中的 GPU 使用效率。通过对全域算力和服务的智能感知,实现 AI 模型在西部节点集中训练、AI 能力在全域动态部署的模式。通过 AI 算力感知调度,实现异构设备的管理和用量监控、异构资源池的划分、异构设备的调度。基于云原生技术自主研发 AI 任务资源调度器,提供国产芯片算力调度、多机多卡协同调度、显卡碎片调度优化、细粒度显存调度等多种调度方案。基于国产化全栈软硬件平台,通过半自动化模型迁移工具和图形界面开发工具,可迁移不同框架模型。 应用情况:在 AI 算力感知调度层面,深度应用于训练和推理两大类人工智能主流任务当中,实时监控任务使用情况,在出现任务所需算力不足时,动态调度可用算力以满足任务的计算需求。广东移动打造的自动化稽核应用,目前已推广至全国三十多个省,其中八十多项能力分别部署至哈尔滨和汕头节点,实现跨云算力编排调度,赋能中西部省份就近使用 AI 能力。 (4)中科曙光一体化算力交易调度平台 平台概述:全国首个“算力可用、可控、可计量”的一体化算力交易调度平台、算力服务交易解决方案平台。目前已经完成黑龙江、京津冀、河南、山西、陕西、四川、甘肃、安徽、江苏、浙江、上海、广州等地自有智算中心的互联,实现一体化调度。平台建设目标是整合算力提供方的零散算力,利用一体化协同调度系统智慧匹配算力资源,为大规模任务提供无损智算算力,解决算力输出、转化、匹配、应用、交易等问题。 算力服务体系:面向用户的弹性计算服务,为用户和企业提供专属的云上高性能物理服务器,实现高性能、高安全性、灵活性和弹性等特点。先进计算服务体系为企业提供更多算力获取途径,实现公有云、私有云混合调度,充分挖掘企业算力边界。同时,可帮助企业实现计算服务能力的对外输出,增强生态合作,拓展多元化业务,提供完整的专有计算行业解决方案,包括人工智能、大数据和云计算服务,满足企业业务升级和技术创新需求。 应用场景:包括弹性计算服务、混合调度、专有计算服务三大类。应用领域为:生命科学(基因测序、新药研制、基因拼接、蛋白结构、生物起源)、气象环境海洋(天气预报、环境监测、海洋监测、生态监测、减灾防灾)、物理化学材料(新材料、新能源、新产品、新装备、新方法、材料基因组)、工业仿真(航空、航天、汽车、船舶、精密仪器、制造业、能源装备)、其他(人工智能、卫星遥感、石油勘探、天文研究、地震模拟)。 (5)华为公共多样性算力服务平台 平台概述:业界首个公共多样性算力服务平台,适用于人工智能计算中心、高性能计算中心和一体化大数据中心等多种场景,通过系统工程与架构创新,实现从能源效率 PUE 最佳到有效算力 CUE 最佳的跨越。华为集群计算解决方案具有算力场景多样、算力利用高效、算力使用便捷等特点。通过多样性计算框架,支持 AI、HPC、大数据等多种场景;通过创新的多样性算力融合调度,算力利用率可以提升 50%~80%;通过算力服务平台使算力获取速度从几周缩短到几分钟。 北冥多样性计算融合架构:是为多样性计算硬件及集群打造的完整软件栈,简化多样性计算环境下的开发和部署,充分释放算力性能,可帮助开发者在多样算力环境下,实现与单机相同的应用开发和部署体验,并获得远超单一算力的应用性能。算力网络调度的整体架构为跨地域、跨管理域的多层复杂调度。地城架构包括八大枢纽节点,组织内/区城内包括据组节点、一级集群、二级集群;组织间/区域间包括 HPC、AI、云上集群;组织间包括云厂商、运营商、科研组织。 多瑙调度器是华为自主研发的面向重算力场景的多算力统一集群调度器。基于前沿的架构设计理念进行设计开发,横向支持 HPC、AI、大数据多场景统一调度;纵向支持应用、算力、存储、网络、能耗深度感知和多维度智能调度,结合专家系统、实现跨域联动、提高系统效率;支持数据中心间资源协同,全局调度。当前,多瑙应用业务不仅包含半导体、制造、气象气候、高能物理、材料化学等行业应用,也包含超算等公共算力平台。 元调度器用于纳管东部和西部 AI 及 HPC 集群,实现全局调度。原型功能是实现算力网络接入,将异构集群动态加入算力网络。同时实现资源管理、租户管理、数据管理和作业调度。元调度器开放集群适配器接口,与合作伙伴共同定义标准;开放调度策略,提供调度框架和标准调度算法,二次开发调度策略。元戎是华为面向多样性计算集群打造的分布式并行开发框架。当前元戎已经实现了对数据并行和算法并行两类关键应用开发场景的支持,大幅提升了分布式应用开发的效率。未来,元戎将支持多种计算模式的组合,帮助开发者更加灵活地在多样性计算集群中开发分布式应用。 3.总结分析 算力调度通过连接算力基础设施的各种异构算力资源,采用高效的算力调度算法,建设算力资源调度与服务平台,向不同领域用户提供所需的算力服务。其中算力调度平台作为算力资源供给和需求的中枢,在算力调度的过程中扮演重要的角色。在算力资源接入、算力平台架构、集群调度器、算力调度算法等方面,平台技术发展路线和应用场景呈现多样性。 算力调度形式涵盖了跨区域算力调度、闲置算力调度、智算调度、超算调度、边缘计算调度等多种类型。三大运营商基于强大的骨干网络和广大的政企研客户,构建算力调度平台时具有显著优势,在算网融合、三算一体,统一调度、智算调度等方面取得实质进展。各厂商基于自身的业务优势,也纷纷布局发展算力调度平台,重点在企业 AI 算力需求、企业级 Cloud-HPC、低成本算力使用等方面部署应用。同时异构算力调度技术受到越来越高的重视,并取得重点突破,如分布式异构计算调度和面向 FaaS 的算网异构算力调度。中国信通院在异构 AI 算力操作平台方面展开持续深入的研究,并取得了丰硕成果。 未来,需要算力调度技术在异构算力纳管、算力感知和度量、跨层跨域智能调度、一体化协同服务、数据安全等方面进一步创新和突破。随着CPU、GPU、FPGA、ASIC等芯片的融合应用,算力呈现出异构多样化,需要进行统一纳管。通过量化异构算力资源和多样化业务需求,建立统一的描述语言,建立算力资源度量和计费标准。通过不同的调度引擎和调度算法,保证算力使用的便捷性,支持资源自动化和智能化分配,实现跨层跨域的智能调度。同时在算力调度和使用过程中,会产生海量数据,需要关注数据安全。根据业务的需求,对网络和算力进行管理和监测,满足绿色、共享、智能、可信的算力服务,更好地支撑算力的应用。
|