新闻中心 您当前所在位置:首页 > 新闻中心 > AI与云时代的存储芯片技术创新

AI与云时代的存储芯片技术创新

    AI与云时代下,存储芯片亟待走出一条革新之路。

    当云计算步入“算力-存力-运力”协同共生的关键阶段,当PB级数据洪流与AI大模型万亿级参数训练和每秒上万token推理需求相叠加,存力已经从计算的“支撑底座”跃升为“创新引擎”。作为先进存力核心载体的存储芯片,其技术突破将有力促进云服务的质量和效益,也影响着AI训练和推理的效率和成本。这对传统存储技术体系提出多重挑战,存力发展新航道有待开辟。

日前,聚焦“算网一体化中的存力挑战”,工信智媒体(通信世界)以“存力革命新引擎:AI与云时代的存储芯片技术创新”为讨论主题,邀请信通院、运营商、忆恒创源以及平头哥半导体等行业专家进行座谈,深入分析AI与云时代下存力发展的重重困境,探索存储芯片技术的创新曙光,以及存算网生态协同带来的无限机遇。

    当前,随着AI与云规模化扩张,高频实时场景逐渐深化,存力需满足的核心性能指标也呈现“三高一动态”特征

  • 高IOPS支撑多租户并发访问

  • 高带宽适配大数据传输

  • 高可靠保障核心业务连续性

  • 动态扩展能力匹配云资源按需分配特性

    这使得传统存储技术体系“应接不暇”,供需失衡成为制约算力效率释放的关键瓶颈。

    从技术侧来看,中国信通院云大所数据中心部工程师高伟绚介绍,因为传统架构里,存储和计算是分离的,很多时候算力受存储 I/O 瓶颈制约,导致算力利用率下降。AI时代存力需匹配算力的低时延、高带宽、高并发等需求,产业正在进行近存计算等技术探索,推动存算协同优化。

    不同场景的存力诉求差异显著且日益精细化。不同计算对存储的需求不同,但总体来看就是计算的发展速度要比存储的发展速度快,所以需要通过各种方式不断‘压榨’存储性能。”中国移动数智化部高级项目总监高从文指出。“例如,目前的热点技术GPU直通技术,就是绕过CPU直接访问各类存储设备,以提升带宽和延迟性能。我们也在ODCC存储特设组开展了相关研究。”

    在AI与云时代的存力需求变局中,政策层面的量化目标为产业发展锚定了清晰方向。

    工信部等六部门联合印发的《算力基础设施高质量发展行动计划》明确,到2025年,先进存储容量占比达到30%以上。而SSD作为先进存力的核心载体,无疑是实现这一目标的关键抓手。但SSD如何从“替代机械硬盘”走向“定义先进存力标准”仍存在多重鸿沟。

    从技术路径看,“全闪替代HDD”已成为行业共识,但成本控制与性能释放的平衡是核心难点。中国移动云存储首席架构师周宇提出,应该让存储主动去贴合计算,在性能优化方面,可以考虑用先进SSDFTPDNS等存储方式;聚焦成本与效能平衡,可以探索用相对低成本的QLC做冷数据存储,替代HDD不仅如此,还可通过自研SPU芯片管理更多SSD,打造高密服务器,在推进国产化的同时降低全闪存储成本、提升效能。

    对此,天翼云基础硬件总监庞玮认为,先进存力从应用角度来看,更希望它能够帮助应用以及业务解决一些核心痛点。在不同场景下,不同介质选择也各有侧重,应根据存储分级匹配数据价值与介质特性。例如通算场景用QLC、SSD、消费级颗粒降成本,智算场景用HBM、SCM(非易失性内存)满足高性能需求。

    具体到SSD主控芯片在设计研发时应该如何适应先进存力需求,平头哥半导体产品总监周冠锋介绍,SSD具有大量可定制开发的技术点,可以通过芯片和固件方面的技术,一方面可以尽量不增加成本的同时,对可靠性、时延等加以优化,另一方面可以通过软硬结合的架构创新和算法创新,提升NAND的利用率和适用性,从而优化存储成本。“这需要主控、SSD公司、NAND三者共同的努力。”

    具体来看,如时延的优化,SSD时延由主控芯片内在时延、NAND固有时延、后台操作时延等多种因素影响。以镇岳510为例,主控芯片内部实现IO命令和数据DMA的全自动化,实现了全路径表项操作的硬件加速,从而大幅降低芯片的内在时延。此外,凭借NAND的suspend/resume和镇岳510的最优电压预测技术,可进一步有效降低NAND固有时延。

    正如SSD的进阶离不开产业链协同,忆恒创源产品总监朱磊强调,从SSD厂商的角度来说,多样化的负载,要求我们更加注重产品在多场景下的性能优化,将各方面都做到极致。同时,忆恒创源还与OEM等存储厂商紧密配合,双方产品深度适配,借助存储架构层面、文件系统等层面的进一步优化,充分发挥存储性能,为用户提供更具成本与性能优势的存储方案。

    值得一提的是,当前“东数西算”工程作为优化算力布局的国家战略,为存力发展带来新机遇的同时,也提出了跨域存储的严苛要求,成为检验存储芯片适配能力的“试金石”。

    与会专家一致认为,“东数西算”不仅带来了跨域时延与数据调度难题,也对存储芯片的适配性提出更高标准。对此,存储芯片一方面需要支持存储设备与国产云服务器高度兼容,保障跨地域部署的稳定性;另一方面需具备灵活的资源调度能力,支持热点数据在东西部节点间流畅实现动态迁移。

    长远来看,存算网一体化的实现,仍需破解协同研发的瓶颈,运营商的存算网协同能力需求有待于和存储生态的深度融合。

    中国信通院云大所所长何宝宏认为,随着算网一体、存算一体发展,存储可以借鉴计算领域的“Scrapy”概念,通过网络实现规模化扩展。存力不足时可借助算力与网力补充,网络能力受限可通过存力与算力解决,三者协同是核心发展方向。

    存算网一体化在场景落地中,离不开产业链的协同创新。回到存储芯片革新上,行业正通过“联合定制+标准共建”推动存储技术与产业需求深度匹配。

    一是由运营商云主导标准制定,通过集采明确存储芯片的云适配标准,指导芯片厂商聚焦行业标准与需求进行场景创新,避免技术与实际需求脱节。

    二是芯片厂商与云服务商联合定制,芯片厂商针对云存储场景优化并再与云服务商的存储架构、文件系统深度适配,最终实现“芯片性能-云架构效率”的最大化释放。

    对此,刘宏伟提出了可计算存储概念,作为存算协同的理念之一,该理念思考的是如何降低存储系统整体TCO、提升资源利用率方便实现新一代SSD。

    周冠锋建议搭建跨领域合作平台,聚合运营商、云服务商等需求,提炼共性功能融入芯片设计,从而发挥规模效应

    “综合来看,无论是存算网协同发展,还是存力挑战的破解,从来不是某一家企业、某一项技术的‘独角戏’,而是运营商、芯片厂商、设备厂商、研究机构、行业用户共同搭建的‘生态合唱’。”工信智媒体(通信世界)总编辑刘启诚讲道。

    积力之所举,则无不胜;众智之所为,则无不成。可以预见的是,未来的存算网体系,必将超越单一设备的性能堆砌,走向以数据为中心、以场景为导向的系统级创新。将目光投向存力,在这场跨越技术与时代的演进中,没有旁观者,只有同行者。而答案,或许就写在协同创新、开放共赢的道路之上。