EC2 虚拟云服务器托管常见问题解答
加速计算实例类别包括一系列实例,这些实例使用硬件加速器或协处理器比使用在 CPU 上运行的软件更有效地执行浮点计算和图形处理等功能。 Amazon EC2 提供三种类型的加速计算实例 - 用于一般计算的 GPU 计算实例、用于图形密集型应用程序的 GPU 图形实例以及用于高级科学工作负载的 FPGA 可编程硬件计算实例。
问:什么时候应该使用 GPU 图形和计算实例?
GPU 实例最适合具有高度并行性的应用程序,例如使用数千个线程的工作负载。 例如,图形处理具有较大的计算需求,其中每个任务相对较小,作为形成管道的一组操作来执行,并且该管道的吞吐量比单个操作的延迟更重要。 要构建充分利用这种并行度的应用程序,用户需要了解 GPU 设备以及如何针对各种图形 API(DirectX、OpenGL)或 GPU 计算编程模型(CUDA、OpenCL)进行编程。
问:什么样的应用程序可以从 P4d 中受益?
我们希望客户使用 P4d 的一些应用包括机器学习 (ML) 工作负载,例如自然语言理解、自动驾驶车辆感知模型训练、图像分类、对象检测和推荐引擎。 提高的GPU性能可以显着减少训练时间,而额外的GPU内存将帮助客户训练更大、更复杂的模型。 HPC 客户可以使用 P4 增强的处理性能和 GPU 内存进行地震分析、药物发现、DNA 测序和保险风险建模。
问:P4d 实例与 P3 实例相比如何?
P4 实例使用 NVIDIA 最新一代 A100 Tensor Core GPU。 与上一代V100相比,平均TFLOP性能提升2.5倍,GPU显存提升2.5倍。 P4 实例采用 Cascade Lake Intel CPU,每个插槽 24C,以及用于矢量神经网络指令的附加指令集。 与 P3.16xl 相比,P4 实例的系统总内存是 P3dn 或 16x 的 1.5 倍,网络吞吐量是 P3dn 的 4 倍。 另一个主要区别是NVSwitch GPU互连吞吐量将是P3的两倍,这样每个GPU都可以以相同的600GB/s双向吞吐量和单跳延迟与其他GPU通信。 这使得应用程序开发能够将多个 GPU 和内存视为单个大型 GPU 和统一内存池。 P4d 实例还部署在紧密耦合的超大规模集群(称为 EC2 超级集群)中,使您能够运行最复杂的多节点机器学习训练和 HPC 应用程序。
问:什么是 EC2 UltraCluster?如何访问它?
P4d 实例部署在称为 EC2 UltraCluster 的超大型集群中。 每个 EC2 UltraCluster 均由 4000 多个 NVIDIA A100 Tensor Core GPU、PB 级网络和可扩展低延迟存储(包括 FSx for Lustre)组成。 每台 EC2 UltraCluster 都是世界上最好的超级计算机。 任何人都可以在 EC2 SuperCluster 中轻松启动 P4d 实例。 如需进一步帮助,请与我们联系。
问:我在 P3 和 P3dn 上使用的 AMI 可以在 P4 上使用吗?
P4 AMI 将需要使用适用于 A100 GPU 的新 NVIDIA 驱动程序并安装更新版本的 ENA 驱动程序。 P4 实例由 Nitro 系统提供支持,该系统需要安装了 NVMe 和 ENA 驱动程序的 AMI。 P4 还配备了新的 Intel Cascade Lake CPU,其中包括更新的指令集,因此我们建议使用最新版本的 ML 框架,该框架利用这些新指令集进行数据预处理。
问:P3 实例与 G3 实例有何不同?
P3实例是新一代EC2通用GPU计算实例,最多可配备8个最新一代NVIDIA Tesla V100 GPU。 这些新实例显着提高了性能和可扩展性,并添加了新功能,包括用于机器学习 (ML)/深度学习 (DL) 性能的新流式多处理器 (SM) 架构、新一代 NVIDIA NVLink 高速 GPU 互连以及高度优化的 HBM2 内存以提高效率。
G3 实例使用 NVIDIA Tesla M60 GPU,它为使用 DirectX 或 OpenGL 的图形应用程序提供高性能平台。 NVIDIA Tesla M60 GPU 支持 NVIDIA GRID 虚拟工作站功能以及 H.265 (HEVC) 硬件编码。 G3 实例中的每个 M60 GPU 支持 4 个分辨率高达 4096x2160 的显示器,并获得 NVIDIA GRID 虚拟工作站的许可,供一个并发连接的用户使用。 使用 G3 实例的应用程序示例包括 3D 可视化、图形密集型远程工作站、3D 渲染、应用程序流、视频编码和其他服务器端图形工作负载。
问:使用 NVIDIA Volta GV100 GPU 有哪些优势?
全新 NVIDIA Tesla V100 加速器配备强大的全新 Volta GV100 GPU。 GV100不仅保留了其前身Pascal GP100 GPU的优势,还大幅提升了性能和可扩展性,并添加了多项新功能来提高编程性能。 这些优势将极大有利于高性能计算、数据中心、超级计算机和深度学习系统和应用。
问:谁将从 P3 实例中受益?
P3 实例提供高计算性能,有利于人工智能 (AI)、机器学习 (ML)、深度学习 (DL) 和高性能计算 (HPC) 应用程序的用户。 受益用户包括数据科学家、数据架构师、数据分析师、科学研究人员、机器学习工程师、IT 经理和软件开发人员。 受益的主要行业包括交通运输、能源/石油和天然气、金融服务(银行、保险)、医疗保健、制药、科学、IT、零售、制造、高科技、政府机构、学术研究等。
问:P3 实例的主要用例有哪些?
P3实例使用GPU来加速各种深度学习系统和应用程序,包括无人驾驶汽车平台、语音/图像/文本识别系统、智能视频分析、分子模拟、药物发现、疾病诊断、天气预报、大数据分析、金融建模、机器人、工厂自动化、实时语言翻译、在线搜索优化和个性化用户推荐等等。
问:客户为何应将带有 GPU 的 Amazon P3 实例用于 AI/ML 和 HPC 应用程序?
基于 GPU 的计算实例可提供更高的吞吐量和性能,因为它们可以在每个 GPU 上使用数千个专用核心进行大规模并行处理,这与 CPU 仅有少数核心且只能执行顺序处理的实例不同。 此外,开发人员还构建了数百个 GPU 优化的科学 HPC 应用程序,例如量子化学、分子动力学、气象学等。 研究表明,超过 70% 的最流行的 HPC 应用程序提供内部 GPU 支持。
问:P3 实例是否支持 EC2 Classic 网络和 Amazon VPC?
P3 实例仅支持 VPC。
问:G3 实例与 P2 实例有何不同?
G3 实例使用 NVIDIA Tesla M60 GPU,它为使用 DirectX 或 OpenGL 的图形应用程序提供高性能平台。 NVIDIA Tesla M60 GPU 支持 NVIDIA GRID 虚拟工作站功能以及 H.265 (HEVC) 硬件编码。 G3 实例中的每个 M60 GPU 支持 4 个分辨率高达 4096x2160 的显示器,并获得 NVIDIA GRID 虚拟工作站的许可,供一个并发连接的用户使用。 使用 G3 实例的应用程序示例包括 3D 可视化、图形密集型远程工作站、3D 渲染、应用程序流、视频编码和其他服务器端图形工作负载。
P2 实例使用 NVIDIA Tesla K80 GPU,专为使用 CUDA 或 OpenCL 编程模型的通用 GPU 计算而设计。 P2 实例为客户提供 25Gbps 高带宽网络、强大的单精度和双精度浮点运算以及纠错码 (ECC) 内存慈云数据自营海外云服务器,高稳定高性价比,支持弹性配置,非常适合深度学习、高性能数据库、计算流体动力学、计算金融、地震分析、分子建模、基因组学、渲染和其他服务器端 GPU 计算工作负载。
问:P3 实例与 P2 实例有何不同?
P3实例是新一代EC2通用GPU计算实例,最多可配备8个最新一代NVIDIA Volta GV100 GPU。 这些新实例显着提高了性能和可扩展性,并添加了新功能,包括用于机器学习 (ML)/深度学习 (DL) 性能的新流式多处理器 (SM) 架构、新一代 NVIDIA NVLink 高速 GPU 互连以及高度优化的 HBM2 内存以提高效率。
P2 实例使用 NVIDIA Tesla K80 GPU,专为使用 CUDA 或 OpenCL 编程模型的通用 GPU 计算而设计。 P2实例为客户提供高带宽25Gbps网络、强大的单双精度浮点计算能力以及纠错码(ECC)内存。
问:GPU 图形和计算实例支持哪些 API 和编程模型?
P3 实例支持 CUDA 9 和 OpenCL,P2 实例支持 CUDA 8 和 OpenCL 1.2,G3 实例支持 DirectX 12、OpenGL 4.5、CUDA 8 和 OpenCL 1.2。
问:在哪里可以获得 P3 和 G3 实例的 NVIDIA 驱动程序?
有两种方法可以获得 NVIDIA 驱动程序。 AWS Marketplace 上提供的列表包括预装了 NVIDIA 驱动程序的 Amazon Linux AMI 和 Windows Server AMI。 您还可以启动 64 位 HVM AMI 并自行安装这些驱动程序。 但您必须访问 NVIDIA 驱动程序网站并搜索 NVIDIA Tesla V100(适用于 P3 实例)、NVIDIA Tesla K80(适用于 P2 实例)或 NVIDIA Tesla M60(适用于 G3 实例)。
问:哪些 AMI 可与 P3、P2 和 G3 实例一起使用?
目前,您可以在 P2 和 G3 实例上使用 Windows Server、SUSE Enterprise Linux、Ubuntu 和 Amazon Linux AMI。 P3 实例仅支持 HVM AMI。 如果您想要启动具有此处未列出的操作系统的 AMI,请联系 AWS 客户支持提出请求或通过 寻求帮助。
问:使用 G2 和 G3 实例是否需要第三方许可证?
除了 NVIDIA 驱动程序和 GRID SDK 之外,使用 G2 和 G3 实例不需要第三方许可证。 但是,您需要确定 G2 和 G3 实例上使用的内容或技术是否需要任何附加许可证。 例如,如果流式传输内容,则部分或全部内容可能需要许可证。 如果您使用第三方技术(例如来自 Microsoft、Thomson、Fraunhofer IIS、Sisvel SpA、MPEG-LA 和 Coding Technologies 的操作系统、音频和/或视频编码器和解码器),请咨询这些提供商以确定是否获得许可是必须的。 例如,如果您在 NVIDIA GRID GPU 上使用板载 h.264 视频编码器,则应联系 MPEG-LA 获取指导,如果您使用 mp3 技术,则应联系 Thomson 获取指导。
问:为什么我无法使用从 NVIDIA 网站下载的驱动程序在我的 G3 实例上获得 NVIDIA GRID 功能?
G3 实例中使用的 NVIDIA Tesla M60 GPU 需要特殊的 NVIDIA GRID 驱动程序才能启用所有高级图形功能,以及 4 个分辨率高达 4096x2160 的显示器。 您需要使用预装了NVIDIA GRID驱动程序的AMI,或者根据AWS文档下载并安装NVIDIA GRID驱动程序。
问:为什么使用 Microsoft 远程桌面时看不到 GPU?
使用远程桌面时,使用 WDDM 驱动程序模型的 GPU 将替换为非加速远程桌面显示驱动程序。 要访问GPU硬件,需要其他远程访问工具,例如VNC。
问:什么是 Amazon EC2 F1?
Amazon EC2 F1 是一个计算实例,可通过可编程硬件实现应用程序加速。 新的 F1 实例类型提供高性能并可轻松访问 FPGA,以开发和部署自定义硬件加速。
问:什么是 FPGA?为什么需要它?
FPGA 是可以使用软件进行配置的可编程集成电路。 与仅使用 CPU 的服务器相比,通过使用 FPGA,您的应用程序速度可以提高 30 倍。 此外,FPGA 是可重新编程的,因此您可以灵活地更新和优化硬件加速,而无需重新设计硬件。
问:F1 与传统 FPGA 解决方案相比如何?
F1 是一个 AWS 实例,可通过可编程硬件实现应用程序加速。 借助 F1,您只需点击几下即可访问 FPGA 硬件,从而节省整个 FPGA 开发周期的时间和成本,并将部署时间从几年或几个月缩短到几天。 尽管FPGA技术已经存在了几十年,但开发基础设施、硬件设计和大规模部署所需的时间和成本等因素使得加速器的开发以及向传统企业销售定制硬件的商业模式难以应用。 加速采用是很难实现的。 通过这项服务,客户可以避免在本地数据中心开发 FPGA 的繁重工作。
问:什么是 Amazon FPGA 映像 (AFI)?
您创建的用于对 FPGA 进行编程的设计称为 Amazon FPGA 映像 (AFI)。 AWS 提供注册、管理、复制、查询和删除 AFI 的服务。 创建后云服务器和硬件搭配什么,AFI 可以加载到正在运行的 F1 实例上。 您可以将多个 AFI 加载到同一个 F1 实例上,并在运行时在它们之间切换,而无需重新启动。 这使您能够快速连续测试和运行多个硬件加速。 您还可以向 AWS Marketplace 上的其他客户提供 FPGA 加速和带有自定义软件或 AFI 驱动程序的 AMI。
问:如何在 AWS Marketplace 上发布硬件加速服务?
您需要首先开发自己的 AFI 以及使用它所需的软件驱动程序/工具。 然后,您需要将这些软件工具/驱动程序以加密格式打包到亚马逊系统映像 (AMI) 中。 AWS 以您提供的加密格式管理所有 AFI,确保您的代码安全。 要在 AWS Marketplace 上销售产品,您或您的公司必须注册为 AWS Marketplace 经销商,然后提交要打包到单个产品中的 AMI ID 和 AFI ID。 AWS Marketplace 克隆 AMI 和 AFI 以创建产品,并将产品代码与这些工件相关联,以便所有购买该产品的最终用户都可以访问 AMI 和 AFI。
问:F1 实例附带什么?
AWS为开发者提供了有助于缩短开发周期的硬件开发套件(HDK)、用于云端开发的FPGA开发者AMI、运行F1实例AMI所需的SDK以及用于注册、管理、复制、查询并删除 AFI 的 API 集。 开发人员和客户都可以访问 AWS Marketplace 并购买其中发布的 AFI 以实现应用程序加速。
问:我需要成为 FPGA 专家才能使用 F1 实例吗?
从 AWS Marketplace 订阅 F1 优化的 AMI 的 AWS 客户无需了解有关 FPGA 的任何信息即可使用 F1 实例和 AWS Marketplace 提供的加速。 只需从 AWS Marketplace 购买具有与您的工作负载相匹配的加速功能的 F1 优化 AMI。 AMI 包含使用 FPGA 加速所需的所有软件。 客户只需为该加速器的特定 API 编写软件即可开始使用该加速器。
问:我是一名 FPGA 开发人员,如何开始使用 F1 实例?
开发人员可以通过创建 AWS 账户并下载 AWS 硬件开发套件 (HDK) 来开始使用 F1 实例。 HDK 包括 F1 相关文档、内部 FPGA 接口以及用于生成 AFI 的编译器脚本。 开发人员可以开始将 FPGA 代码编写到 HDK 中包含的记录接口中,以创建加速功能。 开发人员可以使用 FPGA Developer AMI 启动 AWS 实例。 该 AMI 包含编译和模拟 FPGA 代码所需的开发工具。 开发人员 AMI 在最新的 C5、M5 或 R4 实例上效果最佳。 开发人员应具有用于创建 FPGA 代码的编程语言(即 Verilog 或 VHDL)的经验,并了解要加速的操作。
问:我不是 FPGA 开发人员,如何开始使用 F1 实例?
客户可以通过从 AWS Marketplace 卖家处选择 AWS Marketplace 加速器并使用该 AMI 启动 F1 实例来开始使用 F1 实例。 AMI 包括适用于加速器的所有软件和 API。 AWS 通过加速器的 AFI 管理 FPGA 的编程。 客户不需要任何 FPGA 经验或了解如何使用这些加速器。 它们完全在适用于加速器的软件 API 级别上工作。
问:AWS 提供开发人员套件吗?
是的。 硬件开发套件 (HDK) 包括仿真工具和仿真模型云服务器和硬件搭配什么,开发人员可以使用它们来仿真、调试、构建和注册加速代码。 HDK 包括代码示例、编译脚本、调试接口以及为 F1 实例开发 FPGA 代码所需的许多其他工具。 您可以在 AWS 提供的 AMI 或本地开发环境中使用 HDK。 这些模型和脚本可使用 AWS 账户公开获取。
问:我可以在本地开发环境中使用HDK吗?
能。 您可以在 AWS 提供的 AMI 或本地开发环境中使用硬件开发套件 (HDK)。
问:我可以将 FPGA 添加到任何 EC2 实例类型吗?
不能。 F1 实例提供三种尺寸:f1.2xlarge、f1.4xlarge 和 f1.16 xlarge。
问:如何在 Inf1 实例中使用 Inferentia 芯片?
您可以通过使用 GPU 实例(例如 P4、P3 或 P3dn)在流行的机器学习框架(例如 TensorFlow、PyTorch 或 MXNet)中构建模型来启动工作流程。 一旦模型训练到所需的精度,就可以使用机器学习框架的API调用Neuron(Inferentia的软件开发套件)来编译要在Inferentia芯片上执行的模型,并将其加载到Inferentia的内存中,然后执行一个投机的电话。 要快速开始,您可以使用预装了机器学习框架和 Neuron SDK 的 AWS Deep Learning AMI。 在完全托管的体验中,您将能够使用 Amazon SageMaker 在 Inf1 实例上无缝部署经过训练的模型。
问:何时应使用 Inf1 与 C6i 或 C5 与 G4 实例进行推理?
运行对推理延迟和吞吐量敏感的机器学习模型的客户可以使用 Inf1 实例来实现高性能且经济高效的推理。 对于那些对推理延迟和吞吐量不太敏感的机器学习模型,客户可以使用 EC2 C6i 或 C5 实例并使用 AVX-512/VNNI 指令集。 对于需要访问 NVIDIA CUDA、CuDNN 或 TensorRT 库的机器学习模型,我们建议使用 G4 实例。