去中心化解决方案和块存储的未来

Chris Evans是“Architecting IT”背后的顾问和分析师。他以对存储技术和厂商的精辟而富有洞察力的分析而闻名。我们想借此机会请教他对一些主流存储厂商以及临时性云和去中心化存储等新技术的看法。

Chris Mellor：那些已经将存储操作系统迁移到公有云的传统块存储阵列厂商，例如像NetApp（依托ONTAP的AWS、Azure和Google服务）和Pure（Cloud Block Store）这样的公司，如何在竞争中应对临时性云存储四个玩家：Dell（PowerFlex）、Lightbits、Silk和Volumez？

Chris Evans：那些已经将本地存储迁移到云端的厂商，实际上已经融入了云生态系统。这意味着云服务提供商负责扩展、提供弹性、确保可用性以及进行升级。这是一种真正的服务。这些平台还充分利用了对云平台内部运作的了解来进行深度集成。目前，只有NetApp和微软（采用Windows文件服务器）能够实现这一点。其它厂商则需要在独立运营的云平台上构建解决方案，因此必须基于观察和猜测来适应云的内部运作方式。对于Pure、Volumez和Lightbits等厂商，下一个关键的发展方向是与云平台提供商建立更紧密的合作关系，以实现更深入的本地集成。

从技术角度来看，NetApp目前处于优势地位。但要注意，NetApp是一项OEM服务，因此其客户由云平台所有，这对NetApp来说也带来了挑战，因为他们无法建立与这些云客户的直接升级销售关系，由于缺乏客户/厂商的关系。

Chris Mellor：对于现有的本地非结构化数据存储厂商来说，如何在与像Storj、Cubbit和Impossible Cloud等去中心化存储初创公司的竞争中立于不败之地？

Chris Evans：去中心化存储是一个值得关注的模式，20年前我们还无法构建出来。

高速网络、低成本计算（用于纠删码计算）以及全球数据中心的广泛分布为这项技术提供了理想的条件。然而，去中心化模型最大的挑战之一是法规和监管要求。

如果数据需要存储在本地以满足法规要求，那么去中心化模型的优势将会减弱。此外，还需要考虑规模的问题。去中心化存储不仅仅是关于几TB的文件数据，而是涉及PB到EB级容量的长期存储，这种需求可能会随时间变化而变化。

本地化厂商需要仔细考虑他们希望在未来存储市场中占据多大份额。小规模（<1PB）的本地存储仍然会继续满足本地存储需求，特别是对于受到监管法规限制的数据。但许多企业可能会考虑将数据推送到去中心化存储云，因为这在财务上可能是最合适的选择，尤其是当数据价值不明确时，风险损失与保留成本相比时。本地化厂商可能需要考虑合并或收购像Backblaze或Wasabi这样的公司，以提供综合的本地和云端解决方案。

Chris Mellor：从商业成功角度，你如何评价Storj、Cubbit和Impossible Cloud与像FileCoin这样的加密货币、反对法定货币、Web3风格的去中心化存储厂商之间的竞争？

Chris Evans：我认为去中心化存储厂商正在刻意避开与加密货币领域的相似性，尤其是考虑到最近加密货币市场遇到的问题。我将去中心化存储视为RAID和纠删码技术的自然演进。RAID用于在单一系统内进行数据保护，而纠删码技术将这一概念扩展到跨多个硬件平台和地理位置的数据分布。如今，去中心化存储提供了以“服务方式”购买纠删码存储的能力。尽管底层的安全机制（尤其是FileCoin）借鉴了Web3和区块链技术的概念，但比较而言，应该将其与加密货币界限分开。

这里存在着一个两层模型。首先是存储层，提供可靠、大规模和低成本的数据存储。然后是在其之上构建的各种服务。CDN就是一个很好的示例，还可能包括以AI为基础的服务，厂商可以从去中心化云中获取AI数据的副本并将其缓存到本地。我认为真正的价值在于可以提供各种服务。就像对象存储刚进入市场时一样，这个概念具有潜力，但更高级的应用场景将增加其价值。

Chris Mellor：你认为Pure Storage和IBM是否在技术上具备可持续且显著的优势，超越了使用通用固态硬盘（COTS SSD）的全闪存阵列厂商吗？

Chris Evans：我们反复看到存储介质方面存在一些问题，特别是在扩展容量或性能（有时是两者）方面，这对整个行业都构成了技术挑战。随着NAND闪存的扩展，每个存储单元的位数增加，这引入了耐久性问题和性能挑战，尤其是延迟方面的挑战，而不是吞吐量。

目前，我认为SSD容量面临以下三个主要限制：

单位成本问题：每单位成本可能高达1万美元的32TB盘。要确保系统足够可靠，需要安装足够多的盘，这会显著增加成本。此外，客户将更加关注故障的情况，以确保厂商在保修期内更换任何故障设备。没有一个客户会轻易放弃价值1万美元的故障盘。存储厂商和介质厂商也会因此而受到影响，因为存储厂商希望介质厂商在保修期内替换故障介质。因此，SSD需要更容易维修，或者至少能够在一定程度上重复使用。
DRAM开销：增加SSD容量的方式是通过提高位密度和层数来实现的。DRAM用于存储元数据，跟踪SSD上存储的数据位置。通常情况下，每1TB的容量需要使用1GB的DRAM。对于64TB的SSD来说，这就意味着每个SSD需要64GB的DRAM。从成本、功耗和冷却的角度来看，这在高容量系统中是不可持续的。目前厂商的解决方案是使用更大的间接单元（IU，Indirection Unit）或更大的数据块来写入数据。这意味着较少的元数据，但增加了写放大，因此这些SSD适用于读取为主的操作。该行业的解决方案似乎是分层化的，就像Solidigm展示的那样。
故障域问题：我六年前写过一篇文章，讨论了32TB规格SSD的挑战。业界花了很多时间才达到64TB级别。其中一部分问题在于设备故障的影响。在任何系统中，都需要至少有一个单位的空余容量。如果你使用32TB的SSD来构建系统，那么至少必须保留一个32TB的SSD（或相等容量）的备用。对于通用SSD来说，所有盘都是独立的，因此无法预测故障。因此，系统必须设计为具有足够的冗余容量，以满足MTTR（平均修复时间）。使用64TB的通用会导致大量额外的后端I/O流量来重新保护数据。

Pure Storage和IBM可以控制整个FTL（闪存转换层），因此可以减轻DRAM扩展、故障域挑战和介质成本的影响。他们可以通过在同一存储设备中混合使用SLC、QLC和TLC来管理介质成本。在这个领域，Pure Storage进展较快，而IBM目前只是拥有更好的SSD。未来，IBM可能会迎头赶上，正如IBM院士和存储首席技术官Andy Walls在这个播客中所展示的。

Chris Mellor：VAST Data的存储技术（DASE架构 + QLC闪存 + 用于元数据和写入的SCM + NVMe内部架构）是否构成了一项颠覆性的创新，首先对于现有的横向扩展/纵向扩展文件存储厂商，其次对于并行文件系统软件厂商？

Chris Evans：VAST Data已经构建了一种非常有意思的架构，专门设计用于应对大容量介质所带来的挑战。他们以适合QLC SSD的顺序写入方式进行数据条带化。SCM用于管理短期I/O操作和实时性的元数据。实际上，VAST系统本质上是一个大规模的KV存储系统，甚至元数据也以KV数据的形式存在。因此，这个平台可以适用于各种数据存储解决方案。然而，虽然VAST数据平台可以用于基于块的存储，但这并不是最理想的选择，因为块数据的I/O特性可能会对SCM层造成更大的负载。

对于非结构化市场来说，VAST Data的技术具有颠覆性作用，因为它提供了一种可以实现在架构中“无限”扩展的能力，而且随着容量更大的介质的引入，性能依然可以保持良好。他们的C节点和D节点设计创建了一个“物理层”，可以在其上运行各种存储应用程序，具体包括NFS和S3，但现在也扩展到了数据库和其它结构化架构。传统厂商无法轻松应对VAST的这种架构（这也是为什么HPE签署了OEM协议的原因）。传统厂商将逐渐失去市场份额，从高容量部分开始逐步减少。唯一的出路是，VAST Data的解决方案（目前）是为PB级别及以上的规模而设计的。

Chris Mellor：我认为你相信HCI厂商Nutanix最终可能会被收购。你对这个看法的推理是什么？

Chris Evans：我认为未来会看到架构的融合。公有云已经使IT组织有能力构建和部署应用程序，而不必过多考虑基础架构。云服务商提供物理基础设施、虚拟实例、应用程序实例（构建在虚拟实例上）等等。在内部，IT部门的内部客户将越来越要求类似云的体验。IT团队不想花力气建设自己的云生态系统，而是希望从厂商那里获取一个现成的解决方案。这就是VMware、Nutanix、OpenShift、OpenStack和SoftIron等公司所提供的。

因此，如果你是Dell、HPE、Cisco，甚至是Oracle，你将如何区分你的硬件解决方案？我可以想象主要的基础设施厂商之一会收购Nutanix，因为它提供了一个“现成的”云解决方案，可以向客户出售，可以作为一种服务或作为一个平台。与Cisco的合作很有意思，因为Nutanix最大的开销在于销售和营销。如果可以证明与Cisco的合作可以降低足够的开支以实现盈利，那么这就证明了Nutanix拥有一个可行的解决方案，某个公司将会收购他们。并购路径更可取，因为它能够阻止基础设施厂商之间的竞争。简单地转售Nutanix（或任何私有云解决方案）只会使这些基础设施厂商继续看起来像是设备销售商，而且在这个领域的利润越来越少。

Chris Mellor：Pure Storage正在推动一个观点，即在2028年之后将不会再出售新的机械硬盘（HDD）。你认为这个观点站得住脚吗？你的看法背后的原因是什么？

Chris Evans：正如我在这篇博客文章中所讨论的，我认为这个消息是语义和营销的结合。从“新”的角度来看，这是语义上的问题。我们可以理解为HDD厂商将继续销售现有的HDD型号，但不会再推出新的型号，因为开发成本将被收入回报所抵消。这是行业的临界点，当研发成本无法通过新产品销售收回时。在那一刻，厂商们只是将相同的产品推向一个日益萎缩的市场，这个市场可能还会持续10-20年。64000美元的问题是这个临界点是否在2028年。还有营销的角度：今天制造一个故事，五年后很少有人会去核实。

Chris Mellor：随着边缘计算和数据中心IT的崭露头角，以及应用程序的回归，你是否认为公有云对内部IT的接管已经停滞不前？为什么或为什么不？

Chris Evans：我认为“边缘计算”这个术语颇具趣味。实际上，边缘计算一直都存在，只是形式在不断演变。例如，IBM曾经推出System/38和AS/400，它们可以看作是当时的边缘计算。个人电脑和本地文件服务器也为核心数据中心提供了边缘计算功能。内容分发网络（CDN）等交付网络技术已经有20多年的边缘计算历史。在过去的70年里，IT从集中式发展到分布式，然后再次集中。所以，“边缘计算”实际上是IT发展周期中的一部分。

现在对“边缘计算”的现代解释是，边缘设备将数据收集、存储、进行预处理，并将其转发到核心数据中心。人们认为这些设备通常位于恶劣的环境中，而将数据传输到主要数据中心的成本太高。今天，我们看到边缘计算更多地是数据中心的扩展，更像是分布式计算模型，而不仅仅是数据的存储和传输。

从AWS和Azure等云服务商的角度来看，它们的平台旨在扩展和集成内部系统，而不仅仅是作为公有云提供服务。在这个过程中，唯一需要解决的问题是延迟。这也是我将AWS Outposts比喻为巢中杜鹃鸟的原因。

然而，边缘计算的目标需要重新审视，并且需要应用于来自内部或云服务提供商的产品和解决方案。边缘解决方案需要解决在可能不太理想的物理环境中部署的问题。如果网络连接中断，边缘系统需要能够自主运行。此外，边缘解决方案需要更强大的弹性，因为维护可能会出现断断续续的情况。目前，大多数这些挑战已经得到解决。未来的边缘设计需要更多关注安全性和运营方面的问题，包括确保从边缘收集的数据可信，系统可以进行远程更新，应用程序可以进行远程部署等等。当前的云服务商并没有提供满足这些需求的解决方案，因此他们的策略在这方面似乎已经停滞不前。

Chris Mellor：最后，你认为生成式AI的炒作是合理的还是不合理的？

Chris Evans：这是一个难以回答的问题。毫无疑问，生成式AI可以带来一些重大好处。人性化界面是其中之一，最近的消息表明AI可以听、看和说话。以自然语言提问的能力也是另一个好处。然而，在IT领域，我们经常受到新技术炒作的影响。厂商看到了销售新产品的机会，而最终用户也喜欢尝试新的、亮眼的东西（即使没有明显的业务场景）。

对于所有新技术，我都喜欢保持一定的谨慎。首先，我会进行调查和深入了解，但也会注意到其中的局限性。引用Ronald Reagan的话，我相信“信任但要核实”。例如，我相信我的GPS，但我也会核实它给我的导航指令，因为它偶尔会出错。我认为我们现在正处于一个充满了过高期望的炒作周期中，AI被看作是解决所有问题的答案，并将集成到每个平台中。实际上，我们将会进入一个平衡的状态，生成式AI将加速某些任务，但我不认为它会变成“天网”并接管世界！

生命科学HPC基础设施趋势

相关文章: