在我们的铠侠 CD6-L 评测中,我们将有目的地研究 SSD 平台。这些 PCIe Gen4 NVMe SSD 的主要设计目标是从 SATA SSD 中夺取份额。在这篇评论中,我们将看看他们的表现如何。最后,我们将有一个惊喜,铠侠不知道正在发生。
当我们讨论数据中心 NVMe SSD 时,我们通常指的是 PCIe Gen3 x4 设备。随着 Sandy Bridge 一代英特尔至强 E5 (V1) CPU 的发布,我们终于拥有了一个支持 NVMe SSD 的平台。那是 2012 年。在我们为服务器开始转向 NVMe 的 8 周年纪念日做准备时,我们还必须为 SATA SSD 不可避免的衰落做好准备。这也是我们测试下一代 Arm 服务器 CPU 的第一次审查,特别是配备 PCIe Gen4 NVMe 存储的 Ampere Altra Q80 部件。虽然人们可能将 CD6-L 视为 CD6 的近亲(确实如此),但我们在这篇 CD6-L 评论中添加了一些新位。
观看视频
我们有一个配套视频来配合这篇文章,它更多地关注 NVMe 取代 SATA 的比较:
铠侠 CD6-L 概述
铠侠 CD6-L 是该公司最新的专注于数据中心的 NVMe SSD。因此,它提供 PCIe Gen4 性能,专为新的 U.3 外形尺寸而设计。实际上,U.3 有助于传统供应商更轻松地设计支持 NVMe SSD 或 SAS/SATA 的服务器背板。最终,我们将看到下一代外形尺寸接管,但在那之前,2.5 英寸是 SSD 的重要行业外形尺寸。
以下是 CD6-L 的主要规格:
我们通常喜欢公司按模型划分指标。如果您阅读我之前的评论,您会注意到在铠侠 CD6 PCIe Gen4 数据中心 SSD 评论中,该公司就是这样做的。
这就提出了一个问题,即我们之前测试的驱动器 (CD6) 和我们今天测试的驱动器 (CD6-L) 之间到底有什么区别。如果您查看 CD6 图表的 7.68TB 线并将其与 CD6-L 数字进行比较,您会注意到最大的区别之一是随机写入性能。铠侠能够在那里获得更多的性能。其他读者会注意到,我们现在读取密集型线路的 DWPD 评级为 1.3,而且容量也更少。我们没有 960GB 驱动器,也没有带有 CD15.36-L 的 6TB 驱动器。
正如我们在 CD6 评测中提到的,读取密集型意味着该驱动器专为许多工作负载而设计,这些工作负载专注于写入一些数据,但随后频繁访问存储的数据。有一些写入密集型驱动器专注于用作日志设备,其中模型在大多数情况下是写入一次/读取一次或根本不读取写入的数据。对于大多数工作负载,读取密集型驱动器将正常工作。在 STH,我们在 SATA SSD 时代购买了许多二手驱动器,并使用 SMART 数据来辨别现实世界中实际写入驱动器的数据量。 二手企业级 SSD:剖析我们的生产 SSD 群体 。摘自该文章:
这只是我们为该文章购买的 SSD 的子集,因此这仅包括该文章中的 234 个 SSD。这些是较旧的驱动器,因此它们比我们这里的 7.68TB SSD 小得多。当时,“读取密集型”通常接近 0.3 DWPD,因此我们发现,我们购买的 SSD 中有 80-90% 在该速率下是正常的。对于 1 DWPD 和更大的驱动器,大多数工作负载很有可能在现代大型 1 DWPD 驱动器上正常运行。许多数据中心客户会购买更高端的驱动器,因为他们根本不想考虑必须管理特定服务器中特定驱动器的工作负载的影响。如今,通用 SSD、日志设备和启动设备有相当明确的细分,因此我们认为这比我们进行该研究时的问题要小。
让我们继续进行性能测试,以及我们必须做些什么来测试驱动器。在那里,我们发现的比我们预期的要多得多,所以首先,我们将讨论我们在开始 Gen4 驱动器评测时发现的内容,然后我们将进入更多性能方面。
铠侠 CD6-L 性能
我们将首先进行一些独特的测试,我们甚至在获得结果之前必须进行这些测试。然后我们将讨论我们的结果。如果您阅读我们的 Kioxia CM6 评论,您将已经看到这一点,但我们仍然想指出这项工作,因为它导致我们创建了一个新的比较集。我们确实对 Ampere Altra 进行了轻微的更新。
PCIe Gen4 NVMe 性能在今天有所不同
有点出乎意料但也许应该出乎意料的是,AMD EPYC 7002 “Rome” 与 Intel Xeon 可扩展系列的 PCIe Gen3 性能并不完全相同。它很接近,但也有不同。我们甚至走上了将 2 插槽系统上生成的数据放在单插槽 Intel Xeon 平台上的道路。虽然我们可以在同一台机器上获得一致的 Intel 到 Intel 性能,但性能并不像 Intel 到 AMD 那样一致。
因此,我们意识到我们需要在全 AMD EPYC 7002 平台上重新测试对比驱动器。这些增量很小。就现实世界的影响而言,大多数人会认为这完全无关紧要。它们通常在 2% 以内,可以归因于测试变体,但由于这不是 2% 的全面范围,而是更多的 +/- 2% 范围,因此我们不得不呼吁不使用旧数据进行审查,因为我们努力保持一致性。为此,我们必须研究 AMD EPYC 性能的另一个方面:PCIe 布局。
即使在 AMD EPYC 7002 系列中,也需要了解芯片的布局和功能。一个很好的例子是内存带宽减半的 AMD EPYC 7002 Rome CPU。在那篇文章中,我们将介绍 SKU 以及为什么它们的设计内存通道较少。
事实证明,当我们在 AMD EPYC SKU 上测试 PCIe Gen4 器件时,工作负载在内核上的实际放置(即 AMD CCD)以及 PCIe 通道的位置实际上很重要。从上图中可以看出,在大型 I/O 芯片(或 IOD)上,CCD、RAM 和 PCIe 通道可能彼此相距甚远。当我们运行工作负载时,这是一个非常小的影响 (<1%),但我们可以衡量它。
此外,我们发现,在一些延迟测试中,48 核 (6 CCD) SKU(如 AMD EPYC 7642)和较低时钟速度的 SKU(如 AMD EPYC 7262)的一致性不如更高时钟频率和 4 倍或 8 倍 CCD SKU。即使使用单个 PCIe Gen4 设备,所有 AMD EPYC 7002 SKU 也不是一样的。正如我们在这里测试的那样,这在单个驱动器上不太明显,但转移到即使在 EPYC 平台上使用 PCIe Gen3 SSD 也可以看到的驱动器阵列时,这将成为一个更大的挑战。
我们花了这么长时间才发布这个系列,原因很简单,它花了很长时间来验证,然后决定解决方法。由于 PCIe 映射到 IO 芯片在许多系统上不容易追踪,并且我们需要一个 x8 插槽来容纳 PCIe Gen4 SSD 和 Gen3 时代的 SSD (PM1725a),我们最终不得不围绕 Tyan EPYC Rome CPU 测试系统中的单个 x16 插槽构建我们的测试设置。 然后将工作负载映射到该插槽周围的 AMD CCD。我们还使用了 AMD EPYC 7F52,因为它具有完整的 8x CCD 支持和 256MB L3 缓存,同时还利用了高时钟速度,因此我们在测试中没有最终受到单线程限制。
同样,这些是非常小的 deltas,但非常重要。因此,当人们查看 Arm 参与者时,它们也会有所不同,例如 Ampere(上图 Altra)、华为( 鲲鹏 920)、Annapurna Labs/Amazon AWS(Graviton 2)、NVIDIA-Mellanox Bluefield/Bluefield-2 和配备 Power9 / 10 的 IBM。
很快,我们将有 Ice Lake Generation Intel Xeon CPU 以及 AMD 的 EPYC 7003“Milan”一代添加到此列表中。最重要的是,由于我们正在摆脱英特尔至强拥有 97-98%+ 市场份额的局面,并且我们拥有 NVMe SSD,因此这一切都很重要。随着 AMD 现在超过 10% 的市场份额,这一点正迅速变得重要。这也是我们多年来一直在测试的东西,包括几年前的 Cavium ThunderX2 评论 。PCIe 控制器和芯片能力的差异在业内是众所周知的,也是 STH 多年来一直在关注的问题。
这样做的一个缺点是,我们进行了大量测试,然后围绕单个 PCIe Gen4 插槽进行构建,我们的测试能力变成了串行而不是并行,当您也无法使用历史数据进行比较时,这令人不快。尽管如此,为了测试 Kioxia CD6-L(以及之前的 CM6/CD6),我们必须达到这种细节水平,以便与其他驱动器进行有效的比较。使用我们基于 Xeon 的 PCIe Gen3 测试结果是站不住脚的。
这也是我们将拥有 Ampere Altra Arm 服务器 PCIe Gen4 性能的第一次审查。
拥有一整套 24x SSD 是一种更常见的部署场景,可以减轻上述测试的需要,但由于我们关注的是单个驱动器,因此这一点变得很重要,尤其是在应用程序级测试中。
传统的“Four Corners”测试
我们的第一个测试是查看铠侠 CD6-L 7.68TB SSD 的顺序传输速率和 4K 随机 IOPS 性能。请原谅比正常比较集小的比较集,但如果您需要解释,请参阅上文,了解我们为什么不使用旧版至强可扩展平台结果。
在这里,我们可以看到铠侠所说的带有 CD6-L 的 “读取优化” SSD 是什么意思。我们实际上获得了非常好的顺序性能。四个角测试中似乎较低的一个领域是 4K 随机写入测试,考虑到市场,这是有道理的。同时,我们获得了比原始 CD6 更好的性能。
只需快速看一下 CD6-L 在 Ampere Altra Q80 平台上的相对性能,作为 Arm CPU 性能与 AMD EPYC 7002 性能相比的代表,我们得到了相当不错的性能。

这里有一些简短的说明。我们打算使用实验室中的 IBM POWER9 系统来测试这些测试。我们的测试结果看起来明显错误,因此我们不在此处发布它们。测试设置不太成熟,因此我们基本上发现我们需要回头重新审视系统设置。其次,Ampere 部件位于 Wiwynn Mt. Jade 平台中,这不是您将在 2021 年第一季度在系统上看到的最终固件。第三,我们还预计在 2021 年第一季度将看到 AMD EPYC 7003 CPU。我们确实有通过授权渠道获得的米兰 CPU,但告诉 AMD,鉴于我们拥有的 SKU 的敏感性,我们不会公布结果。米兰将看到 AMD 数据的最新数据,因此预计 AMD 和 Ampere/Arm 的数据将在下个季度上升。最后,英特尔至强 Ice Lake 芯片将于 2021 年上市,我们现在预计在第二季度初上市。因此,请将所有这些 Gen4 结果更多地视为一个时间点快照,在接下来的一个半季度内将发生很多变化。
STH 应用测试
以下是与我们的 PCIe 3.0 x4 和 x8 参考驱动器相比的实际应用测试的快速浏览:
如您所见,就铠侠 CD6-L 和 PCIe Gen4 的影响而言,这里存在很多变化。如图所示,鉴于其中一些使用 x86 VM,我们目前尚未将所有内容移植到 Arm/验证基于 Arm 的设置,因此我们只显示了两个 Ampere 结果。让我们来讨论一下性能驱动因素。
在 NVIDIA T4 MobileNet V1 脚本上,我们看到的性能影响很小,但我们看到了一些。这里的关键是,我们主要受到 NVIDIA T4 性能的限制,存储不是瓶颈。在这里,我们可以看到较新驱动器在性能方面的好处,但并不是很大。也许这里更具影响力的变化是从 Gen3 x8 迁移到 Gen4 x4 为系统中的其他 NVIDIA T4 释放了更多的 PCIe 连接,从而对整体性能产生更大的影响。这是讨论存储系统性能的一种奇怪方式,但它在 AI 领域非常相关。
同样,我们的 Adobe Media Encoder 脚本会定时复制到驱动器,然后转码视频文件,然后传输驱动器。在这里,我们的影响更大,因为我们涉及一些更大的顺序读/写,主要的性能驱动因素是编码速度。从这些测试中得出的关键结论是,如果您的计算受限,但仍需要为工作流的某些部分进行存储,则会产生明显的影响,但影响不如获得更多计算那么大。在这里,CD6-L 的表现与我们所看到的顺序读/写数字大致相同。
在 KVM 虚拟化测试中,我们看到对存储的依赖程度更高。第一个 KVM 虚拟化工作负载 1 的 CPU 限制比工作负载 2 或 VM Boot Storm 工作负载更多,因此我们看到了强大的性能,尽管不如其他两个。这些是基于 KVM 虚拟化的工作负载,我们的客户正在测试在给定时间可以在线拥有多少 VM,同时在目标 SLA 下完成工作。每个 VM 都是一个独立的工作线程。根据我们的性能分析,我们知道,由于使用的数据库,工作负载 2 实际上可以通过快速存储和傲腾持久内存更好地扩展。同时,如果数据集较大,PMem 将不具备扩展能力。此分析也是我们在 CPU 评审中使用工作负载 1 的原因。坦率地说,我们看到铠侠 CM6 比铠侠 CD6-L 更快。我们的感觉是,这是有目的的,因为 CM6 的每 GB 驱动器成本更高。对于许多人来说,牺牲几个百分点的性能是值得的。如果可以在存储上容纳更多的 VM,那么与拥有略快的应用程序性能相比,这可能具有更大的 TCO 优势。并非在所有情况下都是如此,这就是为什么我们有混合用途 CD6-L 和 CM6 的原因。
转到文件服务器和 nginx CDN,我们看到与 PCIe Gen3 x4 驱动器相比,新 CD6 的 QoS 要好得多。如果我们认为 PCIe Gen4 上的 SSD 也具有低延迟链路,也许这是有道理的。在 nginx CDN 测试中,我们使用来自 STH 网站的旧快照和访问模式,并禁用 DRAM 缓存,以显示在这种情况下的性能。以下是分布的快速浏览:
总体而言,我们看到了一些异常值,但这是一个出色的表现。我们的性能再次不如我们在铠侠 CM6 上看到的那么好,但它比我们的基准 PCIe Gen3 SSD 好得多。也许关键的收获是 CM6 更快,但如果您需要容量并专注于读取,CD6 是更好的选择。
我们将驱动器交换为 AMD EPYC 7742 平台和 Ampere 平台。这为我们提供了一个 128 核/256 线程的 AMD 平台和一个 160 核/线程的 Ampere 平台。由于我们有 linux 和 nginx,因此该应用程序在 Arm 上已经相当成熟。
在这里,我们可以看到性能比在此测试期间在 AMD 系统上看到的要好一些,因为我们进一步深入了尾部。AMD 的 SMT 设计及其小芯片架构确实有影响,因此在这里我们可以看到很小的影响。一般来说,当我们测试 Q80-33 时,它并不总是比 EPYC 7002 系列更好,但我会让 Patrick 在完整的 Altra 评测中讨论这一点。
对我们来说,关键的收获是,随着我们迁移到 PCIe Gen4 时代,推荐 SATA 而不是 NVMe 将变得非常困难,因为像铠侠 CD6-L 这样的驱动器(可能很快就会有其他驱动器加入)将 PCIe Gen4 NVMe 定价压低以满足 SATA 的要求。借助下一代系统,我们将更好地支持 NVMe 驱动器,因此数据中心的 SATA 即将关闭。
接下来,在进入最后的话之前,我们将对新变体提供一些市场观点。
铠侠率先向市场推出面向数据中心的通用 PCIe Gen4 NVMe 驱动器。根据我们的测试,这些驱动器的性能比 PCIe Gen3 NVMe 驱动器高。也许更大的因素是,虽然它们没有取代我们实验室和生产环境中的数百个 PCIe Gen3 NVMe SSD,但它们已经改变了我们的购买模式。一旦我们开始看到 Gen4 NVMe SSD 的性能,我们实际上就停止为实验室购买多余的 PCIe Gen3 NVMe SSD 和 SATA SSD。
更广泛地说,这些驱动器现在能够取代 SATA SSD 组。随着容量的增加和 PCIe Gen4 通道数量的增加,我们简单地将其视为计算机架构发展的下一步。作为一个站点,我们也倾向于更倾向于横向扩展节点和存储设备的数量,而不是创建专有的高可用性设计。虽然铠侠 CM6 显然是更快的驱动器,具有双端口等功能,但对于我们的团队来说,CD6 是一款更具影响力的产品。
因此,我们将铠侠 CD6 系列(包括 CD6-L)授予我们的编辑选择奖 。祝贺铠侠团队取得这一成就。
最后
对我们来说,铠侠 CD6-L 是我们希望为 STH 自己的集群购买的驱动器类型。它不具有与 CM6 相同的性能,也不具有 CM6 的所有更高级的功能集。相反,它旨在以较低的价格提供强大的读取性能。具体来说,这个价位旨在以每 GB/TB 的价格在主要 OEM 的系统中与 SATA 驱动器进行正面竞争。
在这篇评论中,我们还展示了驱动器的另一个重要方面:不仅可以在 AMD EPYC 服务器中使用它们,还可以在我们将从 Arm 生态系统(如 Ampere Altra)中看到的未来服务器中使用它们。当 PCIe Gen3 发布时,英特尔至强在服务器这一代占据主导地位。借助 PCIe Gen4 NVMe SSD,我们将拥有更多架构,而这些架构将不仅仅是基于 Intel Xeon 的架构。
如果人们正在寻找 NVMe SSD 的绝对最佳性能,那么铠侠 CD6-L 的设计几乎明确地不能满足这一需求。相反,它旨在以读取优化的驱动器外形尺寸带来 PCIe Gen4 性能,其成本与 SATA SSD 更相似。当我们开始看到性能数据是 SATA SSD 的 8-12 倍,成本非常接近,并且具有广泛的生态系统兼容性时,这种转变就会发生。也许 2021 年,像 CD6-L 这样的驱动器最终将标志着数据中心 SATA SSD 的终结。
Tips
文章来源于STH,查看原文请:click here.
文章评论