什么阻碍了AI走出实验室

2022-05-30 07:24格雷戈里·维亚尔江璟璐塔尼娅·詹尼利亚安－弗朗西丝·卡梅伦

商业评论 2022年6期

格雷戈里·维亚尔江璟璐塔尼娅·詹尼利亚安－弗朗西丝·卡梅伦

北美一家大型医院为人工智能（AI）赋能系统提高病患护理质量的前景而欢欣鼓舞。然而，当它打算从概念升级到原型构建时，却发现建立和运行系统所需的数据分散在20个传统系统中，检索起来非常复杂。最后，它只好放弃该项目。

高级分析技术和AI有望产生帮助企业保持竞争优势的洞见。它们在这方面的能力很大程度上取决于能否获得优质的数据，但有时候，组织偏偏没有能让AI发挥作用的数据。

最近，我们研究了组织如何将AI项目从实验室研发环境转至生产环境，以及在此过程中它们遇到了哪些问题。为此，我们采访了六家北美公司的AI主管和信息提供者，这些公司的规模和所处行业各不相同。一个关键发现是，尽管许多人在评定数据质量时，主要依据的是其准确度和完整性（参见副栏“什么是优质数据”），但是数据可被机器访问的程度（数据质量的一个维度）似乎才是将AI从实验成果转化为商业应用过程中会遇到的更大挑战。更重要的是，我们发现数据可访问性通常仅被当作IT问题来处理。实际上，我们的分析表明这是一个管理问题，而人们对AI数据可访问性的性质和作用存在误解，则令这一问题更加严重。

数据可访问性的关键不在于数据本身的属性，而在于是否具备能够让机器获取数据的要素。虽然组织拥有的数据浩如烟海，但数据访问仍然是一大挑战，尤其是在AI开发与运行的环境中，这一挑战因为以下两个彼此关联的原因而变得更加艰巨。首先，AI项目通常会牵涉各种利益相关者群体，他们对数据可访问性的兴趣各不相同。其次，典型的AI开发生命周期往往会削弱数据可访问性的重要性。

AI利益相关者在数据可访问性方面的差异

大部分数据可访问性问题的核心是，AI项目会牵涉各种各样的参与者群体，对于数据可访问性的性质和作用，他们有不同的兴趣、观点和影响力。例如，业务主管通常会参与流程的启动和收尾工作，帮助界定AI的用例，并利用最终产品，但他们往往并不会考虑数据的访问方式。“业务部门的人总是以为自己有AI需要的数据。”一家AI咨询公司的产品交付副总裁说。“他们想快点开始，然后，当我们掀开盖子时，”他笑着说，“我们得到了PDF文件、Excel电子表格，接着我们要收集所有这些东西，再用光学字符识别技术来处理。这从来都不是一件容易的事情。”

另一方面，开发、测试并维护模型的数据科学家，还有可能与之合作的科学顾问都会重点关注获取模型开发所需的数据。与业务部门的利益相关者一样，他们对数据可访问性的兴趣也不大。

数据工程师负责构建基础设施，以生成数据，供数据科学家的模型使用。他们会适当关注一下数据的可访问性。但他们常常认为，从操作系统中提取出来用于原型开发的数据，也可以直接用于生产。这种看法有时并不正确。

数据可访问性问题对于软件工程师来说更重要一些。他们负责将AI打包到产品或服务中，这些产品或服务必须能够在生产环境中获取数据。虽然IT部门的成员很少被视为AI项目的主要参与者，但他们要为AI所需的技术基础设施（包括数据）提供支持。他们的工作能帮助组织严格遵守保护技术和数据资产的安全政策和治理机制。

上述每一类利益相关者都各自发挥着重要作用。同时，他们对数据可访问性的看法也受其直接职责所限。例如，一家大型金融机构的AI主管告诉我们，他的团队需要从操作系统中获取大量数据。然而，许多操作系统是在主机上运行的，从构建之初，就无法在支持常规操作的同时，再支持此类数据访问需求。当负责维护操作系统的IT人员听说他的AI项目要求访问数据时，很是不情不愿。他告诉我们，有一次，他们这样回答：“我可不想让那些刚出校门的技术狂每天都跑过来检索15TB的数据，那会把整个系统都给搞崩的。”

AI生命周期削弱数据可访问性

除了各类利益相关者兴趣不同的问题之外，AI项目的典型生命周期也会促使团队专注于模型的快速迭代开发。于是，关于数据可访问性的重要对话，尤其是与AI在组织中實施相关的对话，迟迟没有开展。在此过程中，数据可访问性的性质发生了改变，它同组织的数据管理结构、机制和技术基础设施的关系，从彼此独立转为相互关联。随着AI从一个单纯的概念转变为组织使用的实际产品或服务，关键利益相关者在AI开发各个阶段的参与情况也随之发生变化（参见副栏“AI生命周期中的利益相关者和数据”）。我们在之前研究的六个组织中发现，典型的AI生命周期都是分为五个阶段。为了弄明白数据可访问性为何经常被忽视，我们需要逐一分析这几个阶段。

第一阶段：构思构思阶段相当于一个过滤器，用于找出AI在组织中的潜在高级业务用例。在这个阶段，大多数对话都是在管理人员、商务顾问和科学顾问（有时也是全职学者）之间进行的，其目标是为商业和科学创造一个会谈空间，由此催生出来的业务用例应该看起来前景良好、切实可行。在AI咨询公司，这个关键第一步的作用是向客户科普AI的潜力。不过，这个阶段的重点是数据的存在，而不是数据可访问性。讨论的核心话题是业务目标以及应用AI模型解决组织当前的问题。

第二阶段：蓝图出于优先级别、资源限制或缺乏潜在价值等原因，构思阶段产生的用例并不能全部被选中在一定时间内实施。蓝图阶段会生成一个综合用例，其中包含一些细节，例如清晰且可衡量的业务目标、列出具体AI技术的行动计划，以及应当准备好提供给AI的数据要素。在蓝图阶段，评估数据可访问性仍然以数据的存在为唯一指标，因为组织会着眼于流程的下一个阶段，即构建工作原型。其背后的假设是，只要数据存在就足够了，因为这样团队就可以继续向前推进。

第三阶段：概念验证在概念验证阶段，数据科学家构建一个或多个模型来实施商定的用例。大部分工作的重点是以迭代方式创建、训练和测试模型，衡量比较它们各自的性能，并检验输入新数据的AI是否达到了预期效果。数据从源系统中被提取出来，由数据工程师进行转换，使其符合在建模型的格式和精度要求。解决方案最终可能是通过一个装有用户界面的应用程序交付，或者紧密集成在组织的业务流程中（比如说，用于修改银行的信贷申请流程），但在概念验证阶段，这些工作通常还不是重点。同样，团队主要关心的是获取数据来推进他们的短期工作，几乎不会考虑AI进入生产阶段后，数据访问最终会采取何种形式。

第四阶段：最简可行产品（minimum viable product， MVP）一旦概念验证的某个版本表现出足够的价值，就可以被优化为MVP。此时，数据科学家和数据工程师便功成身退，下一步工作由软件工程师接手，因为如果AI适于应用，最终就会走出实验室，被部署在组织的基础设施中，并与其他生产系统集成。在先前几个阶段，模型开发是大家密切关注的问题，由此产生的一个意外结果是，对生产中数据可访问性的考虑已退居次要地位。当软件工程师和IT人员深入讨论待交付解决方案的规格和集成时，就可能会从数据可访问性相关问题中发现，模型使用的某个关键功能需要大量计划外的工作。

第五阶段：生产在最后这个阶段，包含AI的改进版MVP被投入生产，现在必须向其输入直接从生产系统中获取的数据。数据可能需要从多个系统中提取并进行转换，从而生成模型所需的输入项来支持生产中的业务用例。无论这一工作是实时进行还是批量进行（例如，频繁反复训练和测试模型），与AI集成相关的真正问题总是会在这一步浮现出来，尤其是涉及组织数据基础设施的问题。如果自主系统无法按照要求的数量或速度提供、提取并集成数据（比如受传统系统所限），AI就可能会失去全部的潜在价值。

关于AI数据可访问性的四个误解

除了弄清AI开发的不同作用和阶段及其对数据可访问性的影响之外，了解人们对数据性质的一些主要误解，以及许多组织如何看待数据的性质，也会有所帮助。

误解一：数据可访问性是个技术问题虽然技术问题往往颇为复杂，但只要找到合适的人才和资源，通常都是可以解决的。参与我们研究的人认为，数据可访问性其实是一个涉及技术的管理问题。在设计AI解决方案之初就必须明确认识到，哪怕是完整、准确、及时的数据，如果无法实现快速方便的检索，也没有任何价值。数据存在于大量数据库和电子表格中的某个位置，未必就意味着它是可以访问的。有时，之所以出现数据可访问性问题，是因为数据治理或安全政策限制了访问。

业务人员和IT人员之间的优先权之争已经存在了几十年。如果再把AI团队的优先级别也加到这对组合中，那么事情很快就会变成一团乱麻。如果仅仅将数据可访问性视为技术问题，产品和服务或许就会卡在概念验证阶段，直到其他团队来解决数据可访问性的难题，最终导致进度延误、成本增加。还有一种可能是，数据太复杂或检索成本太高导致数据被遗漏，使产品和服务无法发挥全部潜力。在这两种情况下，AI都无法兑现承诺，其原因不在于AI模型，而在于数据可访问性。

误解二：数据只是运营的副产品当组织中分析和AI活动与运营分离，人们尚未意识到AI有潜力改进或革新整个组织的流程时，经常会出现这种误解。于是，虽然运营系统（例如企业资源规划和客户关系管理）消费并生产数据，但没有人了解这些数据对AI的潜在价值。如果分析团队或AI团队想要使用运营产生的数据，只能自己去检索并加以利用，这与传统数据仓库团队做了多年的工作并无太大区别。

在充斥着此类误解的地方，组织可能坐拥大量数据，却没有被AI充分利用。造成这一现象的主要原因是，业务流程产生的数字痕迹往往散布在各个运营系统。如此一来，检索必要的数据以重建流程全貌就成了难题。简而言之，数据作为价值创造输入项的战略潜力未能得到充分开发。

误解三：数据可访问性问题可以等到AI生命周期的后期阶段再解决 AI生命周期的五个阶段旨在推动AI团队以敏捷模式工作，尤其是在概念验证阶段和MVP阶段。就其本身的性质而言，AI是一种不确定的努力，因此它很适合采用这种方法。团队必须有能力用模型开展实验，根据实验结果来找出解决组织问题的最佳方案。但遗憾的是，这种方式也会促使团队在前三个阶段的大部分时间里，几乎完全专注于AI工作中的科研部分。参与构思、蓝图和概念验证阶段的利益相关者，同处理数据可访问性问题的利益相关者不是同一群人。数据工程师主要关心的是创建可供数据科学家构建和训练模型的平面文件。他们认为，只要能生成此類文件，动用能力所及的一切手段（包括黑客、变通办法和模拟数据）都是合理的。

若想让AI赋能的系统为组织增值，就必须将其打包为可以同组织基础设施集成的产品或服务。集成问题常常是在生命周期的后期阶段解决（参见副栏“AI生命周期中的利益相关者和数据”）。于是，软件工程师和IT人员就成了公布坏消息的人。如果公司不尽早解决数据可访问性问题，最终往往就会付出始料未及的额外成本。此外，当其他利益相关者（通常是IT人员）的优先次序被意外打乱以解决数据可访问性问题时，项目可能会停滞下来。在某些情况下，AI项目甚至可能无法在生产中实现。

误解四：实验室数据和实际运营数据是一样的公司构建AI基础上的概念验证已经越来越纯熟。然而真正的考验是，它们能否从概念验证阶段的受控实验室环境顺利过渡到散乱无序的生产环境。人们常常认为，一旦AI通过了MVP阶段进入生产阶段，就可以复制概念验证阶段的数据检索流程，几乎不用付出任何成本。但是别忘了，概念验证阶段的数据来自一些平面数据文件，而这些文件通常是基于历史数据快照创建，专门用来构建和测试模型的。

在生产阶段，AI必须连接到多个即时系统，这些系统会检索AI工作所需的输入项，有时以实时方式进行。需要提取的这些数据可能具有相同的特征，但其访问和检索方式千差万别。例如，运营对数据量和速度的要求，或许与反复训练模型的要求相差甚远。实际上，我们研究的一些AI咨询公司会刻意限定自己的业务范围，仅提供概念验证开发服务，从而完全避开生产中的数据问题。

如果组织认定实验室数据和生产数据是一样的，就会忽视数据可访问性当中相当多的复杂性。这意味着AI项目或许能快速启动，但需要付出大量额外的时间和精力才能在生产中运行。

如何管理AI的数据可访问性

数据可访问性问题会影响AI在组织中的成功。为了解决这一问题，我们提出三条建议，以帮助组织更好地管理AI的数据可访问性：让利益相关者将数据可访问性理解为业务问题，认识到组织数据对AI的价值，在AI的整个生命周期中始终考虑数据可访问性。

宣传数据可访问性时，首先强调它是业务問题，其次才是技术问题。AI项目的所有利益相关者必须对数据可访问性形成统一认知，将其视为数据质量的必要组成部分，不仅影响IT，还影响运营，因此在AI的整个生命周期内都要予以关注。利益相关者要将各自掌握的数据可访问性专业知识集中起来，从而建立“数据可访问性是业务问题”的共识。

改变我们对数据可访问性的观念可能需要一定时间，还要开展前所未有的对话和协作。在我们研究的一家AI咨询公司中，数据可访问性已成为员工与客户之间早期高级别讨论的一部分，并被纳入AI生命周期的构思阶段。在其他一些公司中，利益相关者之间会持续开展对话，从而确保AI团队的需求与组织资源（如IT人员）协调一致，并长期保持这种协调性。仅仅在战略层面上将数据可访问性界定为一个重要业务问题或许是不够的，组织必须为之付出持续的努力和关注。否则，数据可访问性问题仍然只是技术问题，积压在IT人员的待办事项清单中等待解决——至于最终能否解决，就是个未知数了。

这也意味着组织需要让AI团队的成员明白，识别数据可访问性问题并将其报告给管理层非常重要。从技术层面来解决数据可访问性问题或许很简单，但可能要经过漫长的审批流程，而且安全政策可能也会导致数据无法访问。在这些情况下，技术手段是行不通的，唯一可行的解决方案就是认真地讨论一下，看看能否适当放宽安全政策来支持AI团队的工作，当然，前提是构思阶段形成的业务用例能支持这一方案。

任何数据都可作为AI的潜在备选数据。数据可访问性之重要，不仅仅是对当前的AI业务用例而言。组织面临的许多问题，都会有各种不同的AI解决方案，这意味着任何数据都有可能成为AI项目的宝贵输入项。改进整个组织的数据可访问性，一个关键因素就是跳出“数据只是运营的副产品”这一思维框架。换言之，某些数据即使在执行特定流程的有效生命周期结束时，仍可作为AI的输入项继续创造价值。在我们研究的一个案例中，供暖、通风和空调系统多年来例行收集的运行日志，如今已成为创建预防性维护模型的输入项。

在数据驱动的文化中，员工依靠数据来指导自己的决策。这种文化通常关注最终产品，也就是对所提取数据的使用，而不是将数据呈现给员工的流程。业务部门必须明白，他们输出的数据可能会为AI提供输入项。例如，传统上，旅行社会根据客服人员的工作日志来监督他们的生产率，并确保其完成客服电话指标。但是，如果组织能获取关于客服电话类型和持续时间的既往详细数据，就可以将其用作AI的输入项，从而根据员工的专业知识，对排班进行优化和个性化调整。从跨职能的角度认识到数据的双重作用，明白它既是输出项（在本案例中，指旅行社客服的通话终止时间），也是输入项（指客服电话的持续时间，AI用它来优化排班），可能会影响组织对解决方案或供应商的选择或者系统的配置。

我们研究的最成功的业务用例，都是在建立运营流程时，就考虑到其支持系统最终要为AI提供数据。在一个案例中，一家大型金融机构的AI主管告诉我们，流程再造和系统升级（例如迁移到基于云的服务）是将AI纳入现有业务流程的重要条件。达成这一目标的关键要素，就是实行有效的治理机制，让人和机器都能方便地检索和访问数据。

在AI项目启动之初解决数据可访问性问题。AI生命周期中的迭代式模型开发，并不排斥在AI项目早期考虑数据可访问性，并引入合适的专业知识。在我们研究的一些案例中，这意味着在蓝图阶段让软件工程师和IT人员参与进来，从而使嵌入AI的最终产品或服务的高级参数广为人知，对数据可访问性的担忧也能相应地被提出来。更重要的是，这将确保组织在流程后期尽量减少意外的同时，也考虑到今后将AI集成到组织基础设施中的问题。为此，我们建议管理者将两项任务明确区分开来：一是获取数据以构建AI，二是在生产中实现数据可访问性。在受控实验室环境中构建AI当然没有问题，但这并不意味着可以忽视AI未来在生产中的应用。

这种方式的一个重要好处是，部分工作可以同步进行。例如，可以鼓励数据工程师及早同IT人员展开讨论，以制定数据路线图。到AI生命周期的MVP阶段，大部分数据工程管道都会做好接入生产基础设施的准备。另一种可能的模式是与数据可访问性、数据工程和各种迭代建模相关的交错式任务，类似于在数据密集型项目中提出过的那一类任务。在这种模式下，各项活动可以同步推进，同时又容许一定程度的滞后，以便在必要时加以调整。即便在付出上述所有努力后，AI项目仍未突破概念验证阶段或MVP阶段，但组织层面数据可访问性的提高必定会在将来的AI项目中发挥作用。

数据是企业的一项关键资产，这种观点已被企业领导者广泛接受，同时，他们也普遍期望使用这些数据的AI系统能为企业带来新的竞争优势。但决定成败的往往是实施中的细节。所有利益相关者对数据质量的维度缺乏全面了解，AI项目同运营脱节，自行其是，这些都可能会削弱AI项目的效果或使其彻底失败。那些从AI中获益最多的企业明白，为了让AI走出研发阶段，将其集成到运营当中，就不仅要看重数据作为输出项的价值，还要看重数据作为输入项的价值，并对数据可访问性给予应有的重视。