在AI大模型驱动产业智能化转型的背景下,算力资源的高效配置成为企业数字化转型的关键。顺丰科技团队发布的《EffectiveGPU技术白皮书》,针对传统GPU资源分配模式的痛点,提出了EffectiveGPU池化技术(简称egpu),为提升异构算力利用率和管理效率提供了创新解决方案。
传统GPU资源分配模式存在诸多问题,如利用率低(平均<30%)、弹性不足、生态碎片化等。这些问题导致资源浪费、管理成本高,阻碍了AI应用的落地。EffectiveGPU技术通过统一调度接口、算力细粒度切分与跨节点协同调度,旨在解决这些痛点,提升集群GPU等异构算力的利用效率,为云端及边缘场景提供灵活高效的算力基础设施。
该技术的架构以GPU池化和虚拟化技术为核心,通过管理面整合私有云和公有云的GPU和NPU资源,支持多种使用方式,满足多样化应用场景需求。其核心组件包括egpu-core、egpu-device-plugin、egpu-scheduler等,分别实现CUDA的显存和算力切分、设备资源管理、任务调度等功能。在集成方案上,与Volcano集成新增显存超分能力,实现NUMA亲和调度和优先级QoS;兼容HAMi生态,在虚拟化接口、调度接口和异构GPU方面实现兼容。
EffectiveGPU技术具有多个创新点。实现了多节点异构GPU的池化和调度,通过API拦截实现算力细粒度切分;抽象适配国产和海外GPU的统一调度接口,以插件形式实现资源复用;实现GPU的显存和算力切分保障机制,支持国产AI算力并解决多种技术难点;通过显存超分和优先级保证多任务并行运行,优化资源分配与调度。
展开剩余77%在实施部署方面,介绍了云原生部署和基于Volcano调度器部署的方法,并进行了部署功能测试,包括使用整卡EGPU、算力和显存切分、配置任务优先级等测试。在应用场景中,该技术在大模型推理服务、测试服务集群、语音识别、适配国产算力的推理等场景均展现出优势,如提升资源利用率、降低成本、提高服务质量等。
EffectiveGPU技术为云原生环境下的异构算力管理提供了完整解决方案,已在实际场景中得到验证。未来,该技术将持续推动异构算力生态融合,完善云原生AI基础设施技术体系,助力数字经济发展。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系
发布于:广东省