深度学习的认识论意蕴

2023-01-02 08:34
哈尔滨学院学报 2022年12期
关键词:解释性认识论机器

汪 娅

(上海交通大学 科学史与科学文化研究院,上海 200240)

自图灵奖获得者辛顿教授在2006年提出“深度学习”这一概念以来,该领域研究进入快速发展阶段。尤其是2016年由“深蓝”(Deepmind)开发的AlphaGo,以人类史上从未出现过的棋局策略打败人类职业选手李世石之后,深度学习引起了各学科领域的广泛关注和讨论。AlphaGo在围棋领域取得的成功得益于其使用了深度学习这一机器模型,其可利用这一模型在已发生的事件中广泛地搜索信息建立起独特的抽象,并通过填充和探索空间的可能行动来预测未发生事件的游戏轨迹。其中,从已有经验数据中获取抽象知识是AlphaGo取得成功的主要原因。然而,这一过程明显缺乏透明度,是一个“黑盒问题”,具有典型的不可解释性特征。不仅仅是在游戏领域,在医疗、工业等关键领域往往需要对深度学习的输出结果做出解释,以确保输出结果的安全可靠性以及便于及时改进和优化机器性能,提高机器通用性,并取得用户的信任。由于深度学习是基于脑神经模拟,与人类认识一样均具有不透明性的特点,本文将从哲学的角度出发来进行研究。

一、深度学习

深度学习与人工智能等相关概念的关系如图1所示。

图1 深度学习与人工智能等相关概念的关系

机器学习主要指的是对大量数据的自动化处理,目的是检测模式和规律,以便为预测和决策提供信息,[1]是人工智能的核心。人工神经元网络(Artificial Neural Network,ANN)是对生物神经网络的一种模拟和近似,是由大量神经元通过相互连接而构成的自适应非线性动态网络系统,[2]是机器学习的一种数学模式,而深度学习是人工神经网络的一个子类型,是目前实现人工智能大爆炸式发展的核心推动力。

深度学习是机器学习的一个分支,它使用算法对数据中的高级抽象进行建模。这些方法基于人工神经网络拓扑结构,可以扩展到更大的数据集。[3]深度学习“是包含多级非线性变换的层级机器学习方法”。[2]深度学习通过组合低层特征形成更加抽象的高层表示、属性类别或特征,给出数据的分层特征表示。[4]深度学习“善于从原始输入数据中挖掘越来越抽象的特征表示,而这些表示具有良好的泛化能力”。[2]阿尔诺·舒巴赫从哲学的视角来理解深度学习,认为其功能的实现是通过学习获得的而非基于规则计算,因此无法获得深度学习网络如何处理输入的可理解或可形式化的知识,而需要具有人类信任的判断特征,将深度学习概念化为“一种它可以‘不依赖解释和说明’的判断机器”。[5]笔者根据深度学习的功能和特点将其定义为:是一种可以在数据中通过自我训练,不断提取特征,进而归纳形成抽象的智能机器模型。

目前深度学习主要分为三大类:卷积神经网络、反馈深度网络以及双向深度网络。[4]其中卷积神经网络主要采取一种自底向上的经验学习训练方法,而反馈深度网络主要采取一种自顶向下的与卷积神经网络逆思路的先验学习方法,双向深度网络则是前两种训练方法的结合。卷积神经网络通常由输入层、若干个交替设置的卷积层和池化层、全连接层以及输出层组成。其中深度学习的特征提取能力主要来自于卷积层和池化层,相对应视皮层的简单细胞和复杂细胞的感受野机制。而学习的关键在于调整适应数据的网络链路中的权值,使数据能够在特定的网络结构中经过相应地适应算法得到较好的训练效果。但由于训练规则不被事先预定,其输出也不知如何获得,因而具有不可解释性。

引起深度学习不透明性问题的原因是多方面的。曼努埃尔·卡拉班塔斯对“意图隐藏”“技术文盲”“认知错配”[6]三种形式的不透明性进行认识论分析,指出“认知错配”是最令人担忧的。事实正是如此,这里涉及是人为还是技术本身的问题。由于“认知错配”的根本原因来自于机器本身的技术复杂性,因此最容易失控;并且通常来说,深度学习的网络结构越是复杂,就表现得越是智能,与之相应地也更加难以理解和解释。因此在解决“黑盒问题”时,又面临着如何解决深度学习的不透明性与其智能性之间的矛盾的问题。目前许多学者已经提出一些深度学习不透明性的解决方法,抛开人为原因,一般分为分解类、折衷类和数学类。但由于算法的特殊性,如:极大似然估计算法,决定了其难以转化为可理解的规则。

由于深度学习主要是模仿人类学习,其对数据的处理模式主要是模仿人脑对信息的处理模式,因此,从人类认识论角度对深度学习的学习过程进行分析,是理解深度学习的认识论问题的一种有效路径。

二、传统认识论:一种认识论补充

深度学习作为一种人工神经网络,是基于对生物脑神经的模拟,可从传统认识论角度出发对其进行理解。

经验主义者洛克主张,复杂观念是简单观念的组合,旨在从特殊经验中归纳出一般知识;而贝克莱和休谟考虑到知识的有限性,避开对知识的过度概括,旨在寻找具有代表性的范例来认识相关事物。假设我们要认识苹果,按照洛克的观点,那么我们应该如何确保所获取的经验信息是关于苹果而不是香蕉,这就需要在认识的过程中只考虑苹果的相关属性信息。而按照贝克莱和休谟的观点,我们既然无法获取抽象概念,那么如何确定在认识苹果的时候认识到的是具有代表性的红苹果而不是白苹果呢?这就要考虑到能够展现出一定细节的适当范例。上一部分文中已经提到,深度学习的特征提取能力主要来自于卷积层和池化层,相对应视皮层的简单细胞和复杂细胞的感受野机制;其中卷积层用于获取事物的低层次特征,如位置、边缘及方向等特征,而池化层则用于二次进行特征提取,以确保空间不变性。为提升学习效率,深度学习在这个过程中会不可避免地丢弃无用信息,而保留最具代表性的特征来进行传递,输出抽象概念。也就是说在深度学习过程之中要实现一种双向转化,使输出的结果能够包容具体数据的明显个性特征,也能够返回到具有代表性的范例,以起到双向约束和促进的作用。

而理性主义者笛卡尔和莱布尼兹主张通过演绎和推理来获取知识。“康德拒绝只有两种知识(先天的和后天的)的理论。他把先天知识与综合知识相结合,他说我们有了第三种知识,先天综合知识(synthetic a prior knowledge)——即可能开始于经验但不从经验产生,然而是直接被知的知识。”[7](P20)对于传统的经典算法,为了实现一种通用机制,通常进行预先定义以期实现对事物的类比表征,实质上是一种计算主义或功能主义。这种方法的缺点是无法从数据中真正学习到什么,而主要依赖于相关规则计算。然而尽管深度学习的学习方法能够自主地从数据中提取规则,但是也无法摆脱其中隐含的一些演绎或推理形式,如其中的一些算法、一些先验概率估计,此时更需要一种经验主义和理性主义的调和形式,这更符合康德的一种综合的认识论形式。针对于一些需要优化的问题,深度学习的不透明性通常以实验的方式证明其是否得到改善,而缺乏一种数学逻辑的验证与解释。

但基于马克思主义认识论的实践观来看,人的认识由收集丰富的感性材料逐步整理归纳上升到理性认识,从而抓住事情的本质,并不断循环,以形成对世界规律的更全面的认识。这种认识论从唯物主义的角度确定了认识的主体是处于一定社会文化中的人,同时拥有着理性思维和非理性思维。这种理论似乎更像是对机器思维的一种批判,有助于理解人类思维与机器思维的显著差异。尽管人工神经网络是对生物脑神经的模拟,但是,形成对事物的认识并非是大脑神经的孤军奋斗,更需要以一个能够容纳身体、环境等因素的系统性的观点来对其进行理解。因此,这预示了对传统认识论的分析是认识深度学习的必要不充分条件,为此仍需要对深度学习进一步具体分析。

三、机器认识论

作为对传统认识论的补充,需要进一步加深对身为机器本身的深度学习的认识。既然深度学习的学习过程是一个“黑盒问题”,那么它是基于什么原理提出的呢?人工神经网络是基于模仿生物脑的神经结构,人工神经网络中的神经元之间的激活传递是基于模仿生物脑中神经元之间的电信号传输。而为什么深度学习能够在一个盖然性中获得一个泛化能力较强的知识?即为什么深度学习的训练过程是在一个不可预测的环境中完成,但是却能够产生相对满足人们预期的成果?人类认识也同样具有与深度学习相同的不可解释性特征吗?

基于此类问题,以下将对深度学习的认识主体、认识客体、认识工具进行分析。对于深度学习来说其认识主体就是其本身,认识客体则为深度学习的输出结果,而认识工具则是深度学习整个训练过程中所参与的训练要素。

深度学习的认识主体属于非生物物质实体,那么它具有单独的与物质世界进行互动以及认识世界的能力吗?假设有充足的实践和精力将深度学习的网络架构还原成人的大脑神经,能否通过相同的数据内容预测出深度学习的输出结果?事实上,目前人工神经网络还在低水平的对视觉皮层的神经系统模拟上表现得比较出色,而人类大脑是更为复杂的千丝万缕的神经元间的动态互动,人工神经元还难以实现,即使有这种可能性。根据具身认知理论,人类思维的运作是关乎大脑神经、身体、以及外部环境的交互性认知结果。因此,通过这种方式来理解深度学习的不可解释性不够充分,也不足以厘清人类认识的不可解释性。那么仅仅在低层次水平上对其进行详尽地说明呢?即以一种详细的数学方法是否可以解决其不透明性问题?这需要对深度学习的认识过程做进一步分析。

深度学习的训练过程大体包括:输入层、隐藏层、输出层。深度学习之所以能够做到形成抽象,主要是由于多层隐藏层能够不断地对数据对象进行特征提取,并通过适应算法非线性映射进行特征传递。而针对于深度学习的不可解释性的关键原因在于为适应数据而进行的权值调整。由于算法在运算的整个过程中是不变的,而神经元之间的链接权值却需要根据数据进行调整以满足预期效果。然而由于其中隐藏层的数量不可知,要计算的矩阵算法十分庞大复杂,并且其中的计算步骤并不具有功能性解释,因此,即使有以数学方式实现其过程的可能性,似乎也并不具有理想中的现实意义。那么,我们应该怎样看待深度学习的认识结果?

深度学习的认识结果即输出结果,所谓的不可解释性,就是缺乏对深度学习的输出结果的合理解释。依据曼努埃尔·卡拉班塔斯的观点,人工神经网络与人类认知不同,人类带有一定的认知偏见,而机器着重于从启发性规则中探索整个空间的计算可能的解决方案。[6]我们不要求人类的行为决策具有可解释性,但要求机器决策过程是可解释的,这是合理的。马萌、王平等认为,关于深层神经网络存在一组矛盾,即可解释性与准确性之间的矛盾。[8]准确性要求使用复杂的混淆矩阵,而可解释性要求降低训练模型复杂度。那如何在保证深度学习训练过程的有效性情况下来认识深度学习?阿尔诺·舒巴赫认为,基于规则的计算的解释并不等于功能性上的解释,打开“黑盒”不会也不能立刻产生理解深度学习工作原理所需要的透明度。[5]因此,需要提供一种证明形式来提供额外的信息,来证明深度学习的输出是正确的。专家可以由他的经验或权威来证明,深度学习可以由加工的经验和历史提供判断,这要求我们将深度学习看作一个判断机器而不是计算机器。此外,卡梅隆·巴克纳指出,我们可能会试图在未来通过为黑盒子填充正确的细节来消除这种理想化,但是如果我们的解释只涉及整个主体的感知相似性和分类判断,那么这样做可能会使模型的实现复杂化而没有解释的回报。[9]总的来说,包含支持或不支持对深度学习进行解释的两个派别。笔者认为,解释不等于理解,深度学习的认识论在某种程度上提供理解比解释更有意义,而理解也不必将其训练过程转化为可形式化的具体细节。

与此同时,若是对解释性过于追求是否会导致解决主义的倾向呢?技术解决主义可看作理性主义在科学技术上所表现的一种极端的观点,旨在通过计算对人类实践进行表征,以达到预期的功能实现。而实验证明,技术解决主义容易忽略人的心理和社会影响。为此,约翰·加德纳和纳瑞尔·沃伦认为,对于技术干预需要采取一种护理制度来应对受试者的心理和社会影响问题,[10]这为科技的合理应用需要人类的参与提供了一种有意义的说明。而深度学习本身并不会走向技术解决主义,反而给技术解决主义者带来难题。深度学习的“黑盒问题”不符合技术解决主义所认为的人类实践可以测量的问题。在很大程度上,我们是社会的一份子,社会状况本身就难以解释,有众多复杂因素相互交错,难以做到定义明确,计算精确。因此,从深度学习相较于传统机器学习方式的变化中能够体现出,在与人类合作实践的过程中深度学习的作用发生了变化,但其仍不能独立地认识世界。

四、未来展望

基于深度学习的特点,本文对深度学习的未来发展提出两点展望:一是深度学习可能会试图改变对大数据的依赖,而转向关注小数据;二是深度学习的发展是为接近智能而非替代智能。第一点指向了深度学习目前的局限性,第二点指出了人机融合发展的趋势和可能性。

深度学习近些年之所以能够取得突飞猛进的发展,不仅得益于相关的硬件和软件性能的提高,更是得益于信息时代背景下爆炸式的数据涌现。深度学习的训练效果十分依赖于可使用的海量训练集,而事实上,由于出于隐私保护或资本利益的追逐,许多关键可使用数据受到人为限制,进而一定程度上影响了深度学习的训练效果。而这种限制,部分是出于合理的需要,因此这种对大数据的依赖体现出深度学习的局限性。此外,在一些自然语言处理领域,深度学习往往表现得不够出色。在一些需要隐私保护的少量数据中,深度学习需要人的合作来加快机器的学习曲线,并及时处理一些有潜在恶意的情况。[11]因而深度学习推出一种“零—小”样本学习方法,“与小样本学习和零样本学习类似,‘零—小’样本学习借助于通用的类别特征描述,在少量支持样本条件下实现对新类别或概念的识别。”[12]“零—小”样本学习方法能融合多方知识,进行归纳,识别新概念,是一种提升深度学习智能程度的行之有效的方法。一方面,这种学习方法为解决深度学习对大量数据过度依赖问题提供了一个可能的出路;另一方面,也为机器知识与人类认知的结合指明一定的研究方向。

深度学习表现出来的成功或许并不意味着其为替代人类思维而生。尽管深度学习目前与人类思维均具有不可解释性,但引起两者的原因并不相同。人类主要是由于神经元突触引起,而深度学习既有人为原因又有机器本身复杂性的原因。况且根据林恩·鲁德尔·贝克的观点,人类思维所表现的自我意识需要有一个存在的个体作为前提条件,并且这个个体需要拥有第一人称视角,能够进行包含体现自己价值观、信仰等的自我叙述。[13]而这些条件同时存在对于深度学习来说几乎是不可能的,这引起了一个应该怎样看待深度学习的问题。

深度学习认识对象并非事物本身,而是符号化的大量数据。这些数据来自人类经验,具有物理性质,本身已经具备逻辑性,是深度学习认识对象的载体。深度学习将数据转化为机器语言,使数据能够输入到机器模型之中,并通过机器模型进行处理,进行归纳分析,输出结果。因此,深度学习在获得知识的过程中难以脱离人的认识,是对人类认识的再处理。根据延展认知理论,外部载体在功能性的实现上可以成为人类认知的一部分,深度学习对人类认知的参与能够有效地节约人类大量计算成本和提升从数据中进行规律总结的效率。因此,深度学习应成为人类与科技合作的基础,而不是替代人类认知。

五、结语

深度学习具有非凡的概念化抽象能力,与此同时具有典型的不可解释性特征。由于深度学习网络是基于生物脑神经的模拟,本文从传统认识论角度认识深度学习这种抽象能力。对于认识的获得方式,经验主义者、理性主义者以及实践主义者均有不同的观点。事实上,以这些观点来认识深度学习不应该以一种非此即彼的立场,而更应以一种调和的方式实现相关认识方法的结合。因为深度学习既需要大量的经验数据进行训练,又依赖于先验算法来实现机器的训练效果。考虑到深度学习与人类认识并不完全相同,因此从传统认识论角度来分析深度学习,只能是对于深度学习的一种认识论补充,仍需要对深度学习进行具体的分析。通过对深度学习的主体、过程、结果三个关键要素进行分析,发现对深度学习的理解比对其进行解释更有意义,且深度学习目前尚无法独立地认识世界。笔者认为,为追求实现智能的最初目标以及争取突破性的进展,深度学习将会更加关注小数据的应用和训练方法以及人机融合的发展趋势,实现合作共赢。

猜你喜欢
解释性认识论机器
机器狗
机器狗
马克思意识形态批判阐释的认识论困境及其终结
论行政自由裁量的“解释性控权”
基于信息技术哲学的当代认识论研究
从《关于费尔巴哈的提纲》看马克思认识论的变革
“主旋律”:一种当代中国电影观念的认识论
未来机器城
英汉互译中的认知隐喻翻译探究
一种基于词语计算的模糊分类系统的设计方法