Oracle云服务 |
如今,为了降低本地部署软硬件的购置、更新和维护成本,企业纷纷将业 务应用和数据库迁移至云端。然而,由于传统云产品无法满足高性能计算 (HPC) 负载的特殊需求,大多数高性能负载仍然只能在本地部署中运行。为了获得特定结果,HPC应用通常需要持续占用全部的可用计算能力。它们需要专用的网络性能、快速存储、强大的计算能力以及大量内存资源,而传统商用云采用的虚拟化基础设施却无法满足这些需求。 在云端运行HPC 负载具有重大意义,前提是云服务已针对高性能业务或 技术负载进行了架构优化设计。比如这些负载仅会在运行模拟、创建模型 或渲染动画等高峰时段占用大量资源,而在空闲时段仅占用少量或完全不 占用资源。而Oracle云基础设施提供卓越的性能、安全性和控制力,可满足当今企业严苛的HPC负载要求。从配备最新、最快的CPU和GPU的裸金属产品 到超低延迟的闪存和高速RDMA网络,Oracle云基础设施的这些优势特性可帮助客户快速解决各种复杂问题。 面向 HPC 负载的优秀解决方案 Oracle 基础设施即服务 (IaaS) 持续采用前沿计算、存储、网络和软件技 术,成本却比在本地部署环境中构建高端基础设施低得多。 从癌症研究到药物测试,从自动驾驶到油藏建模,Oracle 基础设施能够 满足数据科学家、工程师、设计师和研究人员的各种严苛要求。 Oracle 云基础设施的优势 • 快速实现价值。构建本地部署 HPC 集群耗时长且成本高昂 • 为 HPC 基础设施使用团队提供直接控制权 • 按使用付费 • 可根据需求灵活调整容量 • 让您能够专注于战略优先事项和HPC成果,而无需分心管理基础设施或为购置新硬件的预算而犯难。 HPC 客户面临的挑战 • 预算超支或利用率低下:难以准确规划 HPC负载所需的基础设施 • 构建本地基础设施需要大量前期资本支出:HPC部署规模比传统企业环境规模更大,且风险高 • 在云端取得成效的速度过慢:市场上大部分商用云产品使用的虚拟机性能达不到要求 • 满足团体需求:您的HPC集群等待列表是否过长?
什么是 HPC? HPC(高性能计算)是指将多台计算机和存储设备聚合 为一个紧密结合的架构,用于解决科学、工程和商业领 域的重大问题。在 HPC 环境中,各个节点可以通过协 同运行来轻松解决一台计算机无法解决的问题。事实上,此类型基础设施正在迅速普及:预计到 2022 年底,全 球 HPC 市场份额将从 2017 年的 320 亿美元增长到 450 亿美元。虽然人们一贯将 HPC 看做是一项学术研究, 但许多行业已经开始利用 HPC 技术来解决日常业务问 题。 基因组学负载包括常用于祖先研究的 DNA 测序和蛋白 质分析、健康检测以及可加快新药上市速度的药物相互 作用分析。 零售商使用 AI 模型来分析客户数据,以便提供有针对 性的购买建议。GPU 芯片还可通过与加速硬件紧密耦 合,将负载性能提升 15 倍之多。 媒体和娱乐公司利用 HPC 制作动画、渲染特效以及执 行媒体转码。这些工作往往涉及突发负载,需要成百上 千个节点并行运行。 金融科技公司利用 HPC 负载执行风险分析、高频交易 以及财务建模。该行业有时需要大量计算和存储资源 (例如运行季度报告时)。 汽车公司在设计、制造和测试新车的过程中需要执行复 杂模拟。他们利用 HPC 负载来支持计算机辅助工程 (CAE) 模型,并用于碰撞测试、模拟和各类分析中。 石油和天然气公司利用 HPC 进行地质建模,预测石油 和天然气资源的储藏位置。这些工作需要空间分析、地 震分析以及超大型数据集。 航空航天公司需要 HPC 基础设施来分析计算流体动力 学,例如模拟机翼上方的气流情况。这些模拟任务需要 大量节点,并且要求每个节点都配置超高 CPU 和内存。
HPC 网络 — RDMA 集群可降低延迟、提高吞吐量 Oracle 云基础设施采用扁平网络模型,应用网络不会运行虚拟化或管理流 量,服务器之间的延迟得以最小化,从而为 HPC 应用提供显著优势。 Oracle 所有裸金属服务器均配备至少两个 25 Gb/秒的网卡 (NIC),而 HPC 配置的传输性能更是高达 125 Gb/秒(两个网卡的传输速度分别为 25 Gb/ 秒和 100 Gb/秒)。这对于大多数企业应用来说是足够的,但是对于 HPC 来说还不够。以计算流体动力学 (CFD) 或汽车碰撞模拟等 HPC 应用为例, 这些应用要求超低延迟(低于 2 微秒)和超高的吞吐量。只有采用 Mellanox RDMA 集群网络的 Oracle 云基础设施能够轻松满足这一要求。 Oracle 采用了针对(快速)标准以太网的超低延迟协议 RDMA over Converged Ethernet (RoCE) v2。许多高并行 HPC 负载都是基于消息传递 接口 (MPI) 而构建,但传统云产品并不能满足这一接口对于超低延迟的需 求。而 RDMA 集群网络绕过传统 TCP/IP 堆栈在服务器之间实现了直接互 联,是业界延迟最低和吞吐量最高的网络。 数据传输 Oracle 不仅提供数据传输服务以帮助客户迁移海量数据,还免费提供数据 提取服务以及 10 TB 的免费数据出口额度。通常而言,ISP 会为 HPC 客户 提供一条专用快速连接 通道。Oracle 快速连接服务采用按端口收费的模式, 客户只需为使用的端口付费,而不必为数据出口支付额外费用。这不仅能 够为客户节省数万甚至数十万美元的成本,还能够打消客户在数据传输或 供应商锁定等方面的顾虑。 HPC 存储 Oracle 不仅与大多数云提供商一样,提供对象存储、文件存储和块存储等 多种基础存储选项,还提供其他解决方案,可满足高性能计算负载的特殊 需求。 • 本地 NVMe SSD:高速本地闪存存储非常适合大型数据库、高性 能计算(本地暂存和日志)以及 Apache Spark 和 Hadoop 等大数 据负载。 • 块卷:网络块存储服务提供高达 60 IOPS/GB 和 25000 IOPS/卷的性 能,且适用 Oracle 最高性能 SLA 协议。 • 并行文件系统:HPC 系统对数据集规模和性能的要求通常高于标准 企业文件服务器。使用 Oracle 高性能裸金属实例构建的并行文件系 统可轻松实现超过 60 GB/秒的吞吐量,并且每月每 GB 成本不到 5 美分。 • 最快的云端文件服务器:Oracle 已与 IBM 达成合作,可在 Oracle 云 基础设施上大规模提供高性能文件服务器。您现在可以使用 IBM Spectrum Scale 在 Oracle 云基础设施块存储上为 HPC 或大数据应用 构建高性能计算文件服务器。此类文件服务器不仅可在数分钟完成 部署、轻松伸缩、每月每 GB 成本仅为几美分,而且性能卓越,曾入 选本地和云端文件服务器全球 20 强! 安全设计 Oracle 云基础设施采用安全设计。作为 Oracle 云产品、应用和数据库的运行平台,OCI 实施的架构安全创新包括隔离网络 虚拟化层以及使用原始固件部署物理主机等。通过跨网络、物理硬件和面 向 Web 的多层防御机制以及安全、加固的操作流程,Oracle 云基础设施可 为数据和应用提供全面保护,并为客户提供以下安全优势: • 攻击面更小,可防止客户数据访问威胁,并保护其他客户租户不受 影响 • 通过单独的网络虚拟化层和使用原始固件部署的物理主机实现细粒度 客户隔离 • 利用内置防火墙、DDoS 和加密功能,在从物理硬件到 Web 层之间建 立多层防御机制 • 通过监控基础设施和执行身份验证降低风险,确保只有适当人员能够 访问适当信息 • 通过一致架构快速提高在各区域的合规性水平 • 为本地部署和云环境中的数据和应用提供一个安全云平台。
业界一流的性能保证 如今的企业不仅要求云基础设施具备高可用性,还要求其为关键任务负 载提供稳定性能,并且支持随时管理、监控和修改云端资源。目前,市 场上只有 Oracle 能够满足这些需求,提供全面覆盖服务性能、可用性以 及可管理性的端到端 SLA。IaaS 资源仅具备高水平可访问性是远远不够 的,它们还必须保持一致性能,确保始终满足您的需求。Oracle 是首家 提供性能保证的云供应商,您大可放心地将企业应用托付给 Oracle 云基 础设施。如果 Oracle 提供的网络性能达不到发布性能的 90% 且发生率超 过 1%,客户可以要求 Oracle 退还受影响服务储值的 25%。SLA 不仅是我 们的目标,更是我们对客户的承诺。 除了网络和存储性能 SLA,Oracle 还提供可用性和可管理性 SLA。可用 性 SLA 覆盖了计算、块卷、对象存储和 FastConnect,可管理性 SLA 则 覆盖了计算、块卷和数据库管理系统。
HPC ISV 生态系统 借助 Oracle 云基础设施,应用供应商可以扩大服务范围,为更多客户提供更加丰富的功能。 3D 渲染和动画 神经网络和深度学习 计算流体动力学 计算机辅助工程 科学计算
全新的 IaaS 理念
基于让本地部署计算优势上云这一策略,Oracle 开发出了独一无二的 IaaS 解 决方案,包括面向业务应用的 Exadata,以及面向高性能应用、配备裸金属CPU和扁平网络的本地 HPC 配置。从一流的服务器硬件到完全交换网络再到 Oracle 服务级别协议 (SLA),Oracle 云基础设施的每个要素都是按照这一策略 来选择和实施的。此外,Oracle 还针对 HPC 应用的迭代性质提供灵活的定价模式,支持客户根据实际需求扩展或收缩系统容量。如果需要开展新的工作,客户还可以重新进行配置。
• Oracle 不会超订计算、网络或存储资源,可确保为企业、云原生及 HPC 负载提供无与伦比的性能和一致性。 • Oracle 裸金属服务器的运行速度在业内首屈一指,为企业在云端运行 HPC 模拟(需要快速且可扩展的本地存储性能)奠定了坚实基础。 • 每台裸金属服务器均与其他租户隔离,可确保客户对其云环境拥有完全控制权。
相比之下,Amazon Web Services (AWS) 和 Microsoft Azure 推出的产品主要是为了快速、灵活地部署非关键任务负载。这些第一代云产品采用了虚拟化和超订模式,根本不是为运行性能密集型负载而设计的。即使 Amazon 和其他云提供商也开始提供高性能产品来满足高性能市场需求,但仍无法与 Oracle 相提并论。Oracle 提供业界最快的集群网络和文件服务器、采用最新款的CPU和GPU,始终致力于深耕HPC市场。
此外,Oracle 还提供简单明了且可预测的 IaaS 定价模式。即便最基础的AWS服务都设置有上百个 SKU,并且可能产生意外收费,而 Oracle 云产品在使用 过程中却不会产生任何隐性成本(相比之下,客户在使用 Amazon 产品时经 常需要支付跨区域数据传输费用)。
HPC 应用适用于制造、媒体和娱乐、地震研究、AI、流体动力学等计算密集型 领域,能够帮助高效解决各种复杂的计算密集型问题。这些应用通常需要强大 的网络性能、快速存储、强大的计算能力以及大量内存。
现在,您可以利用 Oracle 云基础设施运行任何 HPC 负载,并获得可媲美高端本 地部署 HPC 基础设施的稳健性、可扩展性以及可预测性。在 Oracle 云基础设施 上运行 HPC 负载非常简单:您只需添加数据即可,完全无需考虑配置问题。
将HPC负载迁移至Oracle云基础设施有何优势? • 按使用的计算密集型负载付费且可预测运营支出,从而避免大量资本支出 • 获得可媲美甚至超越本地部署的性能 • 快速扩展和收缩基础设施容量,按使用付费 • 使用公有云中的高性能IaaS应用快速完成模拟、渲染以及AI训练任务 • 让您能够专注于处理模拟和渲染任务,无需耗费精力更新软硬件。 |