跳过正文

边缘人工智能:加速智能的未来存储与内存

AI Edge
目录

人工智能在工业领域的日益广泛应用,正加速着更为复杂的技术方案的涌现——包括机器学习(ML)、深度学习,乃至大型语言模型。这些进步预示着边缘侧将需要处理海量数据。尽管目前的焦点主要集中于如何加速神经网络的运算,但美光科技致力于研发针对边缘人工智能优化的内存和存储解决方案。本文将探讨创新的存储和内存技术如何使未来的创新成为可能。

什么是合成数据?
#

国际数据公司(IDC)预测,到2025年,全球将产生175泽字节(1泽字节=10亿太字节)的新数据。这些数据量难以想象,然而,人工智能的进步将持续推动对数据需求若渴的系统不断突破极限。

事实上,不断增长的人工智能模型一直受到从直接测量或物理图像中获取的真实物理数据量的限制。如果你拥有10,000张现成的橙子图像样本,那么识别一个橙子是轻而易举的。但是,如果你需要比较特定的场景——例如,随机人群与有组织的游行,或者烘焙饼干中的异常与完美的饼干——除非你拥有所有变体样本来创建你的基线模型,否则很难确认准确的结果。

行业正在日益广泛地使用合成数据。合成数据是基于仿真模型人工生成的,例如,这些模型可以提供相同图像的统计学真实性。这种方法在工业视觉系统中尤其适用,因为物理图像的基线是独一无二的,而且在网络上找不到足够多的“小部件”来提供有效的模型表示。

AI at Edge
来源:“忘掉你的真实数据——合成数据是人工智能的未来”,Maverick Research,2021年,引自“什么是合成数据”,Gerard Andrews,英伟达,2021年。

当然,挑战在于这些新型数据将存储在哪里。可以肯定的是,任何新创建的数据集都必须存储在云端,或者对于更独特的表示,则需要存储在更靠近数据分析位置的边缘侧。

模型复杂性与内存墙
#

在算法效率和人工智能模型性能之间找到最佳平衡是一项复杂的任务,因为它取决于诸如数据特征和数量、资源可用性、功耗、工作负载需求等多种因素。

人工智能模型是复杂的算法,可以用其参数数量来表征:参数数量越多,结果越准确。行业最初采用常见的基线模型,例如ResNet50,因为它易于实现并成为网络性能的基线。但是,该模型侧重于有限的数据集和有限的应用。随着这些Transformer模型的演变,我们看到Transformer的演变趋势是参数数量的增加超过了内存带宽的增加。这是一个明显的瓶颈:无论模型可以处理多少数据,我们都受到模型和参数可用的内存和存储带宽的限制。

AI at Edge
多年来最先进(SOTA)模型的参数数量演变,以及人工智能加速器内存容量(绿点)。来源:“人工智能与内存墙”,Amir Gholami,Medium,2021年。

为了快速比较,我们可以看一下嵌入式人工智能系统以每秒万亿次运算(TOPS)衡量的性能。在这里我们看到,低于100 TOPS的人工智能边缘设备可能需要大约225 GB/s的内存带宽,而高于100 TOPS的设备可能需要451 GB/s的内存带宽(表1)。

AI at Edge
表1 – 对比人工智能系统内存带宽需求和内存技术设备带宽。(*饱和INT8 Resnet 50模型DLA所需的估计带宽)。美光科技。

因此,优化该模型的一种方法是考虑性能更高且功耗最低的内存。

通过采用新的标准,内存正跟上人工智能加速解决方案的发展步伐。例如,LPDDR4/4X(低功耗DDR4 DRAM)和LPDDR5/5X(低功耗DDR5 DRAM)解决方案比以前的技术有了显著的性能提升。

美光科技正在提供行业领先地位和长期供货保障

  • 行业领先的顶尖LPDRAM供应商
  • LP5行业领先地位 - 首家推出FUSA认证产品
  • LP5X以最低功耗提供最高性能
  • LP4行业首家采用1A制程节点 - 实现成本降低和长期供货
  • 专用长寿命工厂,持续支持传统产品

广泛的工业和多市场产品组合

  • LPDDR4和LPDDR5最高可达128Gb
  • 与所有主要CSV合作伙伴广泛合作和兼容
  • LP4/LP5是人工智能芯片组生态系统的首选解决方案
  • LP4/LP5提供比旧技术更高的温度范围:(例如,工业级Ti = 100℃)

AI at Edge

LPDDR4每个引脚的运行速度高达4.2 GT/s(每秒每引脚千兆传输),支持高达x64的总线宽度。LPDDR5X的性能比LPDDR4提高50%,性能翻倍至高达8.5 GT/s每引脚。此外,LPDDR5的功耗效率比LPDDR4X高20%(来源:美光科技)。这些都是重要的发展,可以支持不断扩大的边缘人工智能应用场景的需求。

存储方面有哪些考虑因素?
#

仅仅认为计算资源受限于处理单元的原始TOPS或内存架构的带宽是不够的。随着机器学习模型变得越来越复杂,模型的参数数量也在呈指数级增长。

机器学习模型和数据集不断扩展以实现更好的模型效率,因此也需要更高性能的嵌入式存储。典型的管理型NAND解决方案,如具有3.2 Gb/s的e.MMC 5.1,不仅是代码启动的理想选择,也是远程数据存储的理想选择。此外,UFS 3.1等解决方案的运行速度可提高七倍——达到23.2 Gb/s——从而支持更复杂的模型。

AI at Edge

新的架构也在将通常属于云或IT基础设施的功能推向边缘。例如,边缘解决方案实现了一个安全层,该安全层在受限的操作数据和IT/云域之间提供物理隔离。边缘人工智能还支持智能自动化,例如对存储的数据进行分类、标记和检索。

支持3D TLC NAND的NVMe™ SSD等内存存储技术的发展为各种边缘工作负载提供了高性能。例如,美光科技的7450 NVMe SSD采用了176层NAND技术,非常适合大多数边缘和数据中心工作负载。凭借2毫秒的服务质量(QoS)延迟,它是SQL服务器平台性能要求的理想选择。它还符合美国联邦政府采购要求的FIPS 140-3 Level 2和TAA标准。

不断壮大的人工智能边缘处理器生态系统
#

Allied Market Research估计,到2030年,人工智能边缘处理器市场将增长到96亿美元。有趣的是,这一新涌现的人工智能处理器初创企业正在开发专为空间和功耗受限的边缘应用而设计的ASIC和专有ASSP。这些新的芯片组在内存和存储解决方案方面也需要性能和功耗之间的权衡。

此外,我们看到人工智能芯片组供应商已经开发出企业级和数据中心标准外形尺寸(EDSFF)加速卡,这些卡可以安装在1U解决方案中,并与存储服务器一起部署,从而加速从人工智能/机器学习推理到视频处理的任何工作负载——所有这些都使用相同的模块。

如何寻找合适的内存和存储合作伙伴?
#

人工智能不再是炒作,而是正在各个垂直领域实现的现实。在一项研究中,89%的行业已经制定或将在未来两年内制定关于边缘人工智能的战略。

但是,实施人工智能并非易事,合适的技术和组件将带来巨大的差异。美光科技在内存和存储方面的最新技术组合,以其智商(IQ)价值主张引领着工业客户的发展。如果您正在设计人工智能边缘系统,请让美光科技助您更快地将产品推向市场。

相关文章

美国将限制中国经第三国购买GPU AI芯片
GPU AI
AI加速器互连技术
AI Accelerator Interconnect
人工智能背后的硬件简介
AI Hardware