热点资讯
最新动态 你的位置:星辉注册 > 最新动态 > 2024年EMS弹性内存存储技术白皮书
2024年EMS弹性内存存储技术白皮书发布日期:2024-09-09 11:24    点击次数:76

基于大模型的生成式 AI 技术的重大突破推动了人工智能的应用范围从传统的分类任务扩展至广泛的生成任务,引发了 AI应用的爆发性增长,并引领IT 产业迈入全新的“AI 时代”。随着 AI产业的迅猛发展,云计算基础设施也在从以通用算力为核心向以智能算力为核心转变,在这种新型云计算基础设施中数据的“算力”和“存力”是相辅相成的。尽管云数据中心在智能算力方面取得了显著进步,但是在存力方面的不足已成为制约效率的关键瓶颈。存力问题主要表现在三个方面:持久化存储性能不足。DRAM 利用率低、以及 HBM 内存墙问题。

为解决这些存力问题,华为云推出了全球首创的弹性内存存储服务EMS(Elastic MemoryService)·种以内存为主要存储介质的云基础设施服务,通过 EMS,华为云将传统的“计算-存储”分离的两层云架构升级为“计算-内存-存储”分离的三层云架构,其中新增的“内存层”即为EMS。这种新型的三层云梁构能有效解决上述存力痛点,从而具有高资源弹性、高资源利用率和高性能等优势。具体来说,EMS通过以下方式解决三大存力问题:1)作为计算与存储之间的高性能缓存层,使用 DRAM 介质缓存来自HDD 和 SSD 的数据,显著提升数据访问速度,解决“持久化存储性能不足”问题:2)将 AI服务器中的DRAM 资源解耦并池化,形成 EMS 内存池,实现 DRAM 资源的按需分配和高效利用,解决“DRAM 利用率低”问题:3)扩展 AI加速器中的 HBM 内存,通过 DRAM 内存容量和带宽的补充,大幅提升 AI 训练和推理的性能,解决“HBM内存墙”问题。

EMS的软件架构主要由分布式内存池、领域专用服务SDK和管理控制面三部分组成,具备易用性、弹性扩展和高可用性。分布式内存池提供跨节点的内存管理、数据负载均衡和数据恢复等功能,确保内存数据存储的低成本、高扩展性和高可用性,领域专用服务 SDK 提供针对不同 AI场景的内存加速技术,如在 AI 推理场景中,通过以存代算、显存扩展和计算卸载技术降低首 token 时延,提升解码吞吐量,并支持更长的序列长度。在 AI 训练场景中,通过并行训练拓扑感知的检査点读写技术,实现极低的检查点操作时延,在推荐模型场景中,通过 Embedding存取优化技术,实现高性能访问。

免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有

内存池存力内存算力梁构发布于:新疆维吾尔自治区声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。