人工智能和大数据存在的隐患

2019-09-10 07:22王雄

计算机与网络 2019年23期

关键词：因果关系冰淇淋鲨鱼

王雄

从数据稀缺到现在有大量的数据，近年来，可用的数据量呈指数级增长，大数据变得无处不在。这是由于数据记录设备数量的巨大增长，以及这些设备之间通过物联网连接。似乎每个人都有收集、分析大数据的力量。

尽管AI目前非常擅长在大型数据中查找模式和关系，但它仍然不是很智能。计算数字可以有效地识别并发现数据中的细微模式，但不能直接告诉我们这些关系中哪些实际上有意义。

相关性和因果关系

相关性并不意味着因果关系。“然而，人类的大脑天生就会寻找规律，当我们看到曲线倾斜在一起，数据中出现明显的规律时，我们的大脑就会自动给出规律。”

然而，从统计数据来看，我们仍然无法实现这一飞跃。《虚假相关性》一书的作者Tyler Vigen在自己的网站上对此进行了调侃，还有很多例子，比如，展示冰淇淋是如何明显地导致许多坏事的，从森林大火到鲨鱼袭击和脊髓灰质炎爆发。

看看这些情节，人们可能会争辩说，我们很可能早就应该禁止冰淇淋了。而且，实际上，在1940年代的小儿麻痹症例子中，公共卫生专家建议人们停止吃冰淇淋作为“反政治饮食”的一部分。幸运的是，他们最终意识到小儿麻痹症暴发与冰淇淋消费之间的相关性是“完全是由于小儿麻痹症的爆发在夏季最为普遍”。

在统计中，虚假关系或虚假相关性是一种数学关系，其中2个或多个事件或变量相关联，但由于某种偶然的或某些第3个未见因素的存在而因果相关（称为“常见响应”变量”“混杂因素”或“潜伏变量”）。这样的“潜伏变量”的例子可以是冰淇淋销量与鲨鱼袭击之间的相关性（虽然冰淇淋销量的增长不会导致鲨鱼袭击人们）。但是，这2个数字之间有一个共同的环节，即温度。较高的温度导致更多的人购买冰淇淋以及更多的人去游泳。因此，这个“潜变量”确实是表观相关性的原因。幸运的是，我们已经学会将一种因果关系与另一种因果关系分开。而且，在炎热的夏日，我们仍然可以享受冰淇淋，而不必担心小儿麻痹症爆发和鲨鱼袭击。

相关性的力量和局限性

有了足够的数据，将会发现计算能力和统计算法的模式。但并不是所有的模式都有意义，因为虚假模式的数量很容易超过有意义的模式。将大数据与算法结合起来，如果能正确地用于解决问题，将是一个非常有用的工具。然而，没有科学家会认为你可以通过单独处理数据来解决这个问题，无论统计分析是多么强大，应该始终基于对要解决的问题的基本理解来进行分析。

数据科学是科学的终结吗

2008年6月，《连线》杂志前主编C. Anderson写了一篇颇具煽动性的文章，题为《理论的终结：数据洪流使科学方法过时》。“相关性取代因果关系，即使没有连贯的模型和统一的理论，科学也能进步。”

这种方法的强度和通用性依赖于数据量，也就是说数据越多，基于计算发现的相关性的方法就越强大和有效。我们可以简单地把数字输入计算机，让统计算法自动发现有趣的模式和见解。

但是，这种简化的分析方法也存在一些陷阱，可以通过John Poppelaars在博客上找到的示例很好地说明：

假设我们要为某些变量创建一个预测模型。例如公司的股价、在线广告的点击率或下周的天气。接下来，我们收集所有可以使用的数据，并将其放入统计过程中，以找到的最佳预测模型。常见的过程是首先使用所有变量对模型进行估计，筛选出不重要的变量，然后使用所选的变量子集重新估算模型，然后重复此过程，直到找到重要的模型为止。

但是，Anderson提出的分析方法存在一些严重的缺陷。我选择了一个实例，从0到1的均匀分布中抽取100个样本，为

创建了一组数据点，所以它是随机噪声。接下来，通过从0～1之间的均匀分布中抽取100个样本，创建了一组50个解释变量（）。因此，所有50个解释变量也是随机噪声。使用所有的（）变量来预测，估计一个线性回归模型。因为没有任何相关的东西（所有的均布和自变量），所以期望2（0），但实际上不是，结果是0.5，对于随机噪声的回归来说还不错。幸运的是，这个模型并不重要。逐步剔除不显著的变量，重新估计模型。重复这个过程，直到找到一个重要的模型。经过几个步骤后，发现一个显著性模型，调整后的平方为0.4，7个变量的显著性水平至少为99 %。再次，我们是在回归随机噪声，它绝对没有关系，但我们仍然找到有7个重要参数的显著模型。如果我们只是将数据输入统计算法来寻找模式，就会出现这种情况。

数据集越大，噪声越强

最近的研究证明，随着数据集的增长，它们必定包含任意相关性。这些相关性根据数据的大小而出现，这表明，许多相关性都是虚假的。不幸的是，很多信息往往表面看显得很少。

这是处理多维数据的应用程序中的主要问题。举例来说，假设您从一家工厂的数千个传感器中收集传感器数据，然后挖掘这些数据以获取模式优化性能。在这种情况下，很容易被数据的表象所迷惑，而不是真正的运营绩效指标。无论从财务上还是在工厂的安全运行方面，这都可能是一个坏消息。

添加数据和添加信息

作為数据科学家，我们可能经常会说，改善人工智能模型的优秀解决方案是“添加更多数据”。然而，仅“添加更多数据”就能提高模型性能吗？不是这样的。应该关注的是“添加更多的信息”。“添加数据”和“添加信息”之间的区别是至关重要的，添加更多的数据并不等于添加更多的信息。相反，盲目地添加越来越多的数据，有可能添加包含错误信息的数据，这些错误信息会相应地降低模型的性能。根据数据的大量访问以及处理数据的计算能力，考虑这一点变得越来越重要。

那么，上述挑战是否应该阻止您采用以数据为依据的决策？不，数据驱动的决策将继续存在。随着获得更多有关如何很好利用数据和信息以提高绩效的知识，这些将变得越来越有价值。

但是要意识到，想使方案成功，不仅需要硬件和大量数据，大数据和计算能力也是重要的组成部分，而且，应该了解连接数据的基本机制。数据不能说明一切，是人类给数字赋予了含义，数据的数量、种类是无法更改的。