AI时代的数据战略：跨越数据湖，迎接数据海洋

预测：展望2023，企业AI应用蓬勃兴起，数据海洋正逐渐涌现而出。

未来很快将成为过去。—— 乔治·卡林（George Carlin）

随着每个月、每个季度甚至每一年的落幕，我们总会迎来新的计划；在我们的行业里，许多权威人士、行业观察家以及分析师们往往会在年终时分享他们对未来一年的预测。正如著名的尤吉·贝拉（Yogi Berra）所说：“预测很难，尤其是关于未来的预测。”然而，有些技术预测可能变得过于平淡或陈词滥调，从而失去一些可信度，这也是每个人在对即将到来的一年发表看法时都可能面临的风险。实际上，下一个预测可能会让你感觉仿佛刚刚阅读了一个极为流行的说法：“2023年数据将继续增长”，但实际上，这个预测远不止于此，因为它为我们展示了即将到来的一年中另一个重要的企业趋势奠定了基础。

企业AI崛起之势

2023年，我们相信企业中的AI将继续迅猛发展。这句话是否有些老套？在您跳转到下一个预测之前，让我们深入思考一下过去65年来AI所经历的持续稳定增长。没错，AI的历史已经有大约65年，这可能会令许多人感到惊讶。AI首次应用于上世纪50年代中期，当时数学家和计算机科学家艾伦·图灵（Alan Turing）于1950年撰写了一篇名为“计算机机械与智能”的框架，这被认为是AI的开端。很多人将AI的起步日期追溯到1955年，当时的“逻辑定理证明机”项目旨在模仿人类思维解决问题的能力，由RAND公司提供资金支持。在接下来的几十年里，由于成本的限制，AI主要局限在政府或私人研究机构资助的专业实验室中应用。然而，这一情况在21世纪中期发生了改变，当时GPU开始在企业IT环境中被用于需要进行复杂、并行处理的应用。随后，在2009年，斯坦福大学的两名研究员发表了一篇关于使用GPU进行ML应用技术提升的论文。随着时间的推移，GPU逐渐被广泛应用于AI、ML和技术计算等领域中的大规模并行复杂计算任务。

当我们审视Gartner发布的2023年顶级战略技术趋势报告时，AI和自适应AI无疑成为了两大主要亮点。就AI而言，我们肯定会看到对于信任、风险、检测、安全等应用案例的拓展，甚至超越这些领域。然而，真正引人瞩目的是自适应AI的崛起，这可能会对许多采用它的组织产生颠覆性的市场影响。自适应AI是什么呢？根据Gartner的定义：“自适应AI系统支持以更快决策为中心的决策框架，同时保持灵活，以应对问题的出现。这些系统旨在基于运行时的新数据持续学习，以更快速地适应现实世界情境中的变化。AI工程框架可以协助编排和优化应用程序，使其适应、抵御或吸收干扰，从而促进自适应系统的管理。”传统的AI训练模型着重于由AI团队调整模型准确性，而自适应AI则是不断演化的训练模型，持续利用实时反馈进行模型重塑，并基于新的实时数据进行学习。

此外，随着GPU技术的更加可用和易于访问，我们相信2023年将看到企业中对AI的采用不断增加。一个表明GPU领域增长的数据点是Oracle在2022年宣布计划将数以万计的Nvidia GPU（包括A100和即将推出的H100）添加到OCI中。

在企业中释放GPU的强大能力，就像解锁了仅存在于国家实验室和高端学术研究机构的超级计算能力。然而，许多人面临的挑战是，拥有这种无限制的计算能力不仅需要满足GPU数据的容量需求，还需要支持数据管道。大约十年左右以来，我们一直在使用“数据湖”的术语来定义一个集中位置，以便各种应用程序更高效地访问数据，而无需为了提取价值而创建多个相同数据的副本。虽然数据湖在一般文件和不受延迟影响的工作负载方面已经被证明非常有用，但GPU对数据的需求可能确实超出了从数据湖中可用的数据量，且未来AI工作负载的典型协议栈。研究表明，由于无法将数据传送到核心，GPU的使用率可能高达70%。为了充分发挥GPU的威力，供AI引擎使用的数据量和速度将需要一个数据传输平台来保持这些GPU的活跃和繁忙，这有可能为组织提供持续的分析服务。

“数据海洋”的崛起

这引出了2023年的下一个预测：将数据湖扩展为数据海洋。数据海洋不仅仅是一个更大的范围来保留数据，它还支持“泄洪门”，通过信息数据管道将数据传送到永远渴望的GPU核心。虽然这可能比企业AI的崛起更为缓慢，但随着自适应AI的出现，企业数据海洋的发展将不可避免地随之而来。

总之，虽然我们以一种欢快的方式使用“2023年数据增长”来铺陈这些预测，但这个陈述背后的真相要复杂得多。2023年的游戏变革将不是企业可用数据的纯数量，而是可以从所有数据中挖掘出的洞察力的质量。自适应AI和企业追求的业务结果将在未来多年塑造未来。然而，为了推动AI的进步，我们首先必须确保全球的AI引擎能够通过运行在最佳速度的数据管道来供应，以保持GPU核心的高度利用，同时避免在此过程中浪费宝贵的计算周期。解决这一挑战正是数据海洋所能发挥的价值。

为何AI需要“数据海洋”

领导者必须唤起伟大愿景的力量。—— 亨利·基辛格（Henry Kissinger）

关于我们前面的预测，或许存在一些不准确之处，尤其是涉及将数据湖扩展至数据海洋的部分。虽然可以将小事渲染成大事，但却不能将湖变为海。换句话说，将“数据湖扩展为数据海洋”的说法在语义上可能并不准确，然而，超越数据湖、进入数据海洋的理念准确捕捉了我们所见到的数据驱动型企业发展的方向。

在深入探讨之前，让我们简要了解一下数据海洋的构成，从“数据湖”的定义开始。数据湖通常包含未经加工的原始数据，主要关注业务的特定部分，并且通常不强调高性能。与之相比，数据海洋则更为广泛，不仅具备保存数据湖中同类数据的大规模能力，还能提供适用于精细分析的“小数据”和“宽数据”。对于一些人来说，“小数据”和“宽数据”可能是新的概念，因此简要解释一下可能是明智的。

所谓“小数据”是一种分析技术，用于从较小的单一数据集中发现引人注目且有意义的洞见；而“宽数据”则侧重于将不同的数据源联系在一起，涵盖多个来源，以进行有益的分析。例如，“宽数据”可以呈现出某些客户购买特定品牌产品的趋势或习惯，而“小数据”则与“大数据”相对，因为它提供了针对单一焦点的狭窄分析，因此从大量数据集中提取更具挑战性。一个有趣的“小数据”案例是如今广为人知的“乐高旧球鞋”现象，这充分展示了小数据洞见在组织中所能带来的重要力量。根据2021年Gartner的分析，预计到2025年，“70%的组织将从关注大数据转向关注小数据和宽数据”。这种转变将为客户提供更小、更精细的数据集，以提供更大的上下文信息，并确保AI获得所需的大量数据以保持最佳运行状态。

过去几十年中，企业、机构和组织一直在应对海量数据的挑战，随着数据不断增长，发现新的数据利用方式变得愈发具有挑战性。“数据湖”术语是由Pentaho的前CTO兼创始人吉姆·迪克森（Jim Dixon）创造，用来描述在某个时间点可能具有价值的所有未经加工的原始数据存储的库。然而，随着数据增长，出现了“数据湖之地”或数据孤岛的情况，用户很快发现，未经检查的数据湖可能会演变成“数据沼泽”。

勇往直前

我们在开篇提到，全球AI市场的增长将推动数据海洋的兴起成为必然。让我们进一步探讨并展开这一论点。在90年代初，首次出现了“大数据”这个术语，然后到了2000年代初，它被用来解释由Hadoop等技术驱动的业务分析解决方案的增长现象，以及所有类似Hadoop的迭代。当时人人都在谈论“大数据”和数据分析，但正如你所见，Hadoop的相关性显著下降，因为客户们希望能更快速、更离散地分析他们的数据，并拥有一个可以实现机器学习和深度学习的平台。

现在，在我们继续深入之前，让我们解释一下两种不同的AI类别。首先，有狭义人工智能（Artificial Narrow Intelligence，简称ANI），以及通用人工智能（Artificial General Intelligence，简称AGI）。ANI是目前市场上普遍存在的，意味着它被设计用来执行特定的任务，比如下棋、通过Alexa、Siri和Google Home等语音助手识别语音，基于趋势数据提出预测等。这些ANI解决方案或系统在训练模型中获得数据和可能的结果，产生了与人类响应预设脚本类似的结果。在另一端，我们涉及到更多类似GPT-3和GPT-4的通用AI（AGI）模型，它们已经开创了人类式对话工具，并且更先进的医疗专家系统开始模仿人类从经验和交互中学习的过程，以及随着时间推移所呈现的数据。

有人将AGI比作一个孩子根据行动和反应来学习和处理。行动可能不是由训练模型引发的，但反应提供了数据的洞见和逻辑，将在下一次此行动的迭代中应用。虽然完全实现的AGI平台目前尚不存在，但AGI领域具有强劲的未来增长。为了实现这种增长，需要一个能够传递和处理数据的平台，以及深度和广泛的存储库，如数据海洋。

AGI就绪数据基础设施的速度和性能至关重要，不仅仅是读取性能，还包括写入性能。考虑到之前提到的孩子根据行动和反应处理数据的示例，存在一种实际需求，不仅需要读取数据，就像大多数ANI解决方案一样，还需要以极高的速率输出数据，以便AGI解决方案可以在学习和经验方面进行迭代建模。想象一下，如果您的解决方案只能以每秒仅有5、10或20GB的速度进行写入，您将会面临怎样的局限性。这不仅会减缓学习过程，还会导致由GPU支持的昂贵数据基础设施基本处于闲置状态。

预计未来5-10年，全球AI市场将表现出非常强劲的增长，到2030年，市场规模预计将接近2万亿美元，将我们的行业推向更接近真正通用AI（AGI）的方向。在将数据海洋作为数据基础设施的一部分进行部署，以保持领先地位，将成为许多将AI/ML作为一级倡议纳入路线图的组织取得成功的关键。

结论

在大数据时代，做出明智的决策需要一个强大的数据管理策略。虽然数据湖作为存储大量数据的有价值工具，但数据海洋的概念将数据管理和数据智能推向了一个新的水平。通过将Exascale级别的容量与极低的延迟、高性能的数据访问以及改进和广泛的数据可访问性相结合，数据海洋为在广阔的数据海洋中航行提供了更全面、更有效的解决方案。拥抱数据海洋的方法使组织能够释放其数据资产的全部潜力，并在数据驱动的世界中自信地驶向成功。