跳动百科

在线、离线业务融合场景,天均CPU利用率提升至55% | 创新场景

庄义翠
导读 场景描述图片系AI生成在线服务资源使用量随着终端用户的使用习惯呈现出稳定的潮汐现象,夜间CPU利用率极低,导致集群均值CPU利用率较低;业...

场景描述

图片系AI生成

在线服务资源使用量随着终端用户的使用习惯呈现出稳定的潮汐现象,夜间CPU利用率极低,导致集群均值CPU利用率较低;业务保有大量的独占资源池,资源池割裂产生大量的资源碎片,拉低CPU利用率;业务为了稳定性考虑,会过量囤积资源,进一步拉低CPU利用率。

解决方案

点击报名参与创新场景50的评选

在阿里云的协助下,小红书混部技术经历了四个阶段演进:闲置资源再利用、整机腾挪分时复用、常态混部、统一调度。

一,通过技术手段将集群中的闲置资源收集起来,分配给转码类业务场景使用;

二,通过弹性能力(HPA),在凌晨业务低峰期按比例对在线业务缩容,腾挪空出整机,并将转码、训练等离线pod在该时段运行起来,起到利用率“填谷”的效果;

三,平台持续推进业务大规模合池,将业务由独占池迁至平台托管的公共混部池,通过合池、资源超卖等技术手段,CPU分配率得到有效提升,同时通过建设更为细粒度的资源管理与调度能力来实现均值利用率提升的目标;

四,混合云架构的统一调度来管理异构计算资源,并支持各类业务形态的工作负载调度能力。

成效

通过大规模容器混部的持续推进,小红书在资源成本效能上有显著改善。

在CPU利用率方面,在线混部集群天均CPU利用率提升至45%以上,部分集群天均CPU利用率可稳定提升至55%。在线集群CPU利用率提升8%-15%不等,部分存储集群利用率提升可达20%以上。在资源成本方面,为小红书各类离线场景提供数百万核时的低成本算力。混部集群CPU分配率提升至125%以上,相较于独占资源池,资源碎片率明显下降。

「关于创新场景50」

场景不是案例,它更加精准、也更加抽象。数字化就是创新场景的不断叠加和迭代。

在此背景下,钛媒体重磅推出「创新场景50」评选,每年遴选并解读50个全行业与业务深度融合的创新性场景及其解决方案,并在钛媒体年度ITValue Summit 数字价值年会上隆重颁奖、深度交流。

目前场景正在征集中,更精准的解读、更广泛的曝光、更强大的品牌势能,欢迎你提出问题,更欢迎你留下解决的方法和工具。点击这里投递更多场景信息