跳过正文

AMD 发布 XDNA 2 NPU 优化的文本生成图像模型

AMD 文本生成图像 XDNA 2 NPU
目录

AMD 近日发布了 Stable Diffusion 3 Medium 模型的优化版本,该版本专为其 XDNA 2 神经处理单元(NPU)设计,并使用 BF16 浮点精度格式。在文本生成图像的过程中,该模型在降低内存占用的同时提升了生成效率。现在,它已在 Amuse 3.1 Beta 版本中开放试用,用户可在兼容的 AMD Ryzen AI 设备上直接运行。

Stable Diffusion 3 Medium

Stable Diffusion 3 Medium 是 Stability AI 开发的开源扩散模型,用于根据文本生成图像。标准版本模型通常对计算资源要求较高,而 AMD 优化版本通过调整为 BF16 精度,显著降低了内存需求。在常规运行环境中,标准模型可能占用超过 16GB 内存,而优化版本仅需约 9GB,即可生成 1024x1024 分辨率的图像。这使其可以在配备 24GB 系统内存的笔记本电脑上流畅运行,无需额外量化,也不牺牲图像质量。

XDNA 2 NPU:驱动本地 AI 的核心
#

XDNA 2 是集成在 AMD Ryzen AI 处理器中的 NPU,专为加速 AI 任务而设计。其计算能力达 50 TOPS(每秒万亿次运算),并支持包括 BF16 在内的多种数据类型。该精度格式在保持计算准确性的同时,提升了处理速度。与 FP32 相比,BF16 可减少一半的内存带宽需求,从而加速矩阵运算与卷积操作。在文本生成图像任务中,这意味着更短的推理时间,例如从输入提示词到输出图像的过程仅需数秒,具体取决于提示复杂度和硬件配置。

Stable Diffusion 3 Medium

AMD Ryzen AI 300 系列处理器是运行该模型的主要平台。该系列采用 Zen 5 架构,集成 RDNA 3.5 图形单元与 XDNA 2 NPU,整体计算性能超过 50 TOPS。以 Ryzen AI 9 HX 370 为例,它拥有 12 个 CPU 核心、16 个图形计算单元,并支持最多 16GB 的 LPDDR5X 内存。该系列笔记本通常配置 24GB 或更高的系统内存,适合移动 AI 应用场景。相比之下,Ryzen AI MAX+ 系列则面向更高性能需求,提供更强大的 NPU 配置以满足工作站级任务。

运行该模型需要满足硬件要求:配备 50 TOPS 或更高 XDNA 2 NPU 的 AMD Ryzen AI 300 系列或 Ryzen AI MAX+ 处理器,并具备至少 24GB 系统内存。操作步骤包括:下载最新 Adrenalin 显卡驱动,安装 Amuse 3.1 Beta 应用程序,在应用内启用高画质模式,并开启 XDNA 2 Stable Diffusion 加速功能。Amuse 3.1 是 AMD 开发的 AI 图像生成工具,支持集成多种模型。用户只需输入简单提示词(如 “湖边日出”),即可生成对应图像。

Stable Diffusion 3 Medium

高级特性与实用场景
#

该模型另一大亮点是内置的二级流水线处理功能。在 XDNA 2 NPU 驱动下,可将初始生成的 1024x1024 分辨率图像放大至 2048x2048(即 4MP)分辨率。该分辨率提升基于超分辨率技术,利用神经网络插值与细节恢复算法,无需外部软件即可生成适用于打印或高清展示的图像。整个过程完全本地化运行,无需联网或订阅服务,赋予用户更灵活的图像创作能力。

在实际应用中,该优化模型适用于图形设计与内容创作。例如用户可生成自定义品牌图像库,通过调整提示参数快速迭代设计概念。如果输入“科技公司标志、蓝色调、抽象几何图形”等提示,模型可在数秒内输出多个变体,用户可进一步精修或放大。与云服务相比,本地执行避免了数据传输延迟与隐私风险,尤其适合移动办公场景——如在飞机上使用本地模型处理图片。

Stable Diffusion 3 Medium

合作背景与技术细节
#

AMD 与 Stability AI 的合作并非首次。早在 2024 年台北电脑展(Computex 2024)期间,双方就推出了 SDXL Turbo 模型,这是另一款针对 XDNA 2 NPU 优化的 FP16 模型,主打实时文本生成图像功能。此次推出的 SD 3 Medium 在此基础上进一步升级,支持更复杂的提示解析及多模态输入(如结合文本与参考图像生成变体)。

从技术角度看,BF16 精度的应用得益于其在训练与推理中的良好平衡。BF16 采用 8 位指数和 7 位尾数,相比 FP32 大幅降低存储需求,同时保留足够的动态范围,避免 INT8 可能带来的精度损失。在扩散模型中,这有助于降噪与采样过程,提高生成一致性与细节还原能力。Stable Diffusion 3 Medium 的核心架构包括变分自编码器(VAE)与 U-Net 网络,前者负责图像编码,后者处理扩散流程。AMD 的优化主要集中在 U-Net 权重的量化处理,确保在 XDNA 2 硬件上高效运行。

Stable Diffusion 3 Medium

在硬件层面,XDNA 2 NPU 的设计强调能效,其峰值功耗控制在 15 瓦以内,即使在电池供电模式下也能维持稳定性能。结合 Ryzen AI 处理器的整体功耗管理,系统支持动态电压频率调整(DVFS),可根据任务负载智能分配资源。在图像生成过程中,NPU 可独立承担 AI 运算,释放 CPU 与 GPU 执行其他任务,从而提升多任务效率。

对于技术爱好者而言,这款模型的推出扩展了本地 AI 的可能性。用户可在笔记本上尝试各种生成式任务,无需依赖高端台式机或云端服务器。在教育领域,它可用于可视化科学概念,如输入“量子纠缠图解”生成解释图像;在娱乐方面,可用于创建个性化艺术作品。该模型亦兼容开源生态,用户可通过 Hugging Face 平台下载权重并集成至自定义脚本中进行二次开发。

总的来说,SD 3 Medium 的优化展示了软硬件深度融合的成果。通过 BF16 与 XDNA 2 的结合,实现了在内存受限设备上高效的图像生成,推动 AI PC 的普及。未来,随着 AMD 处理器的持续演进,该技术有望扩展至更多模型类型,如视频生成或 3D 建模,进一步丰富用户体验。

相关文章

AMD 放弃 Medusa Halo
AMD Medusa Halo
AMD 下一代 UDNA 架构将配备多达 96 个计算单元
AMD UDNA 计算单元
AMD 如何从英特尔的“平替”发展成强劲对手
AMD Intel EPYC