基于因果发现的智慧图书馆儿童分级阅读智能荐书研究

2023-02-24 00:46吴鑫宇
广西教育学院学报 2023年4期
关键词:书籍分级变量

吴鑫宇

(广西工商职业技术学院,广西 南宁 530008)

分级阅读的理念由西方的学者提出,经过不断研究后,成为指导阅读出版和阅读教育的重要工具。受发育规律影响,在儿童成长的不同阶段,儿童的认知能力、语言水平与阅读能力都不尽相同,其心理发育具有明显的年龄特征,阅读层次也存在明显的差异性。一些医学生不愿意成为儿科医生,其原因很大一部分在于儿童无法准确地表达自己的感受,无法直观地解释自己的想法,最终导致问诊困难,难以对症下药。同理,在面对家长与馆员的提问时,儿童也难以表达出某本书自己能不能看懂,是不是真的适合自己。馆员也常常对此感到困惑,无法给出标准答案,因此在平时的工作中,馆员大多是凭自己的经验为儿童选择阅读的文本。如此行为不利于儿童的阅读与成长,因此,进行儿童分级阅读的研究势在必行。

一、研究背景

(一)大数据

目前,学界对大数据的研究已经十分成熟,各行各业都开始应用大数据技术为其服务,然而大数据的定义却一直没有一个统一标准。大数据是一种数据量巨大,数据类别繁多,无法在短时间内通过常规工具来捕捉、管理与处理的特殊的数据集,也是一种需要强洞察力、强决策力、高流程优化能力的处理模式来处理的海量、高增长率与多样化的新型信息资产[1]。大数据的特点主要是数据海量,数据类型繁多,处理速度快与价值密度低[2]。目前,大数据已经广泛应用在各个领域各个学科,诸如因果发现等许多技术都需要大数据进行支撑,因此,将大数据引入儿童分级研究相当有必要。

(二)因果发现技术

近年来,因果发现算法在人工智能、机器学习等领域得到越来越多研究者的关注,并在神经科学、经济学、基因组学等领域得到了广泛的应用[3]。其通过观察一项事物,观测其变量或是对其中某些变量进行干预,从而发现其中的因果关系,获得结论。传统的机器学习方法仅对已观察到的数据进行数据整理与因果推断,仅仅找出了变量间的相互关系,得到的结果也只是已观察过情况的总结。当一个未观察过的情况出现时,该方法便无法准确得出结论。而因果发现技术则可以在已观测数据与少量甚至未干预过的数据中发现其变量之间的因果关系,推测出未观测过的情况,推断出其结果变量的情况。这种学习方法有着很强的泛化能力,能够游刃有余地应对真实世界中各种复杂的场景,在各个学科中有广泛的应用前景。该技术在外国已经有较为成熟的研究,但在国内并未得到应有的重视。

目前,因果发现技术已经在生物信息学、神经科学与遗传学等领域得到广泛应用。例如,通过建立基因库与病人的案例,研究人员可以通过因果发现来找到基因中存在某些突变的患者在服用蒽环类药物时会导致蒽环类药物心脏毒性[4]。还有研究者使用该技术通过观测患者大脑区域间的变化来研究患者脑部疾病的影响与恢复情况的关系,通过观察癌症患者体内的体细胞基因改变与差异表达来发现导致肿瘤产生的基因之间特定的因果关系[5]等。

(三)儿童分级阅读

“阅读分级”指的是读者可以根据自身的阅读能力而选择不同难度等级的读物。阅读分级在欧美国家被广泛接受,成为一种行之有效的阅读教学和阅读出版的指导工具,并在中国香港、台湾地区也得到普遍认可。欧美分级阅读已经产生了一系列意义深远的阅读分级标准,如A—Z 分级法、Lexile 分级系统等[6]。分级阅读作为课堂阅读教学和课外阅读延伸,对儿童阅读起到极大推动作用。儿童处在生理与心理快速发育的重要阶段,阅读动机与阅读性质不尽相同,不同年龄、性别间知识结构亦存在差别,甚至不同家庭和地区的儿童阅读水平也有明显差异[7]。因此,将分级阅读引入儿童阅读是非常有必要的。

目前,我国已经对儿童的分级阅读有了较为成熟的分类体系,根据儿童不同时期的心理特点设立了不同的推荐阅读书目,其评价标准有身体与动作发展,认知与智力发展,语言发展,情绪、人格与社会发展等。如接力出版社发布的《中国儿童分级阅读参考书目》和《儿童心智发展与分级阅读建议》将儿童分级阅读年龄的分层主要为:0~4 岁,4~6 岁,7~8 岁,9~10 岁,11~12 岁[8]。0~4 岁的儿童注意力短暂,但可以认知基本物体与概念,因此推荐阅读《小酷和小玛的认知绘本》《婴儿游戏绘本》。其语言发展特征主要为喜欢运用声音玩游戏、开始学习基本的词汇与语法,建立语言基础,因此推荐阅读《噼里啪啦系列丛书》《我爸爸》等。可以看出,不同年龄的儿童阅读能力是存在差异的,分级阅读向儿童阅读提供了循序渐进的上升台阶,为家长与馆员指导儿童阅读提供了有效标准[9]。

二、儿童分级阅读智能荐书目标下的因果发现结构模型

(一)数据的采集与整理

大数据能对人类的科学研究范式产生翻天覆地的影响,图书馆并不缺乏大数据,并且图书馆也应重视大数据的收集工作,并为之所用[10]。数据的采集与整理是该模型的最初阶段。数据采集指图书馆通过各种形式收集读者的各种资料,作为大数据对后面的分析工作做前期铺垫并经过关联和聚合后,采用统一的结构来存储此类数据,采集渠道可以通过读者读书证、会员卡、读者图书馆网站账号信息、问卷调查等进行收集,整理成各种所需数据录入数据库,以供进一步数据分析。图书馆应向读者承诺所收集到的个人隐私完全保密,绝不对外公开。图书馆可根据算法分析所需的条件向读者获取各种必须分析的信息,包括读者的姓名、年龄、借书记录、爱好、性别、所处地区等。

读者的姓名可以作为收集数据的小数据集头标,起到区分不同数据的作用。读者年龄是儿童分级阅读的关键数据,用以区分不同年龄段的读者。借书记录则是通过读者的阅读习惯与喜好,向读者提供更加精准的书籍推荐服务。

读者的爱好、性别、所处地区则是图书馆用以更加精准地进行读者画像的方式。不同性别、不同地区的读者其阅读意愿是有所不同的[11]。由于地区之间存在经济、地理条件等差异,不同地区的人有可能会导致各个区域的分析产生差异化的结果[12]。例如我国东北、新疆、内蒙古等地区的人大多直爽豪迈,受地区的社会背景影响,很有可能导致其喜欢阅读的书籍有所不同,因此读者所处的地区也可以作为分析的标准之一。

数据整理指的是图书馆对收集来的数据进行汇总后清洗,将其中多余的假数据、空数据去除,并把有效数据筛选出来[13],保证数据的可靠性,之后进行整理,按照事先所预设的标准,将各项数据,分别分成一个个节点,并经过关联和聚合后采用统一的结构来存储此类数据。

在进行图书推荐时,馆员常常与少儿的父母沟通,以了解少儿的偏向书籍与兴趣爱好,以准确快速地为他们查找与推荐相关方面的书籍,增强少儿快乐阅读的体验[14]。但值得注意的是,由于儿童在书籍的选择上缺乏主动性,儿童阅读书籍的选择一般都受到家长与馆员严重的干扰。因此,在数据的收集阶段,馆员必须提醒前来图书馆借书的家长充分尊重儿童的阅读意愿,必要时,馆员可以通过引导式的提问向儿童读者进行询问,推测出儿童最有可能想要阅读的书籍,并进行推荐。

(二)数据分析

数据分析是因果发现工作中最核心的部分,指的是挖掘数据之间隐藏的联系。图书馆数据库能够采集到大量的信息,而这些信息是未经加工过、杂乱无章的信息,因此便需要进行数据分析。目的不同,数据分析使用的技术也会存在差别,目前数据分析常用的技术有云计算、传感技术等。

1.已采集到数据的数据特点

(1)无向性:所获取的数据形成的节点并无固定方向,其父属性可以变成子属性,子属性也可以成为父属性,且一对成父子属性的节点可以互为父子属性,即互为因果关系。即在该模型中,研究人员可以通过读者的年龄、借书记录等各种信息推算出读者最有可能需要借阅的图书,以达到智能荐书的目的,也可以通过某书籍被某个年龄的儿童借阅次数较多,从而推断出该书籍适合某个年龄段的读者阅读,以达到促进分级阅读的目的。

(2)无时序性:所获取的数据不受时间顺序的影响,即数据的获取时间不影响因果联系的发生。即读者在某个时间段借了某本书,并不会对该读者现在想要借某本书产生结果上的影响。因此所收集的数据存在时间上的差异并不会对程序运算的结果产生影响。

(3)节点相互独立:指某个节点的产生并不会对其他节点造成影响,也不会对其他单个父-子的因果联系造成影响。例如,读者姓名的不同并不会对其年龄与借书记录产生任何影响,也不会对程序运算的结果产生影响。因此,不同数据集中的节点是相互独立的,不会对其他平行链条上的父-子节点产生任何影响。

2.采集数据对贝叶斯网络的影响

贝叶斯网络(Bayesian Networks)用以表示变量集合的连接概率分布,其由一个有向无环图和条件概率组成。它提供了一种自然的表示因果信息的方法,贝叶斯网络本身各结点是独立计算的,并没有输入和输出的概念,所以贝叶斯网络的学习可以自上而下进行推理,也可以从下级结点反过来推理上级结点[15],与采集数据的特点一致。在这个因果贝叶斯网络中的各个变量是网络中的一个个节点,节点间线段相连,并存在条件概率值。该线段表示变量关联,概率表示关联性的大小。

以下是贝叶斯网络的数学定义。如表示一个在一个有向无环图中,设G=(X,A),X 为节点集合,A 为节点直接依赖关系,aij 表示Xi 与Xj 之间的有向连接,Xi←Xj;Θ 是网络参数贝叶斯网络所表示的所有节点的联合概率就可以表示为各节点条件概率的乘积。

其中当i 取(1,2,…,n)时,π(Xi)表示Xi 的父节点集。网络结构G 确定后,节点间的相关关系也随之确定。此后,结合网络参数Θ,贝叶斯网络就可以准确地推理出节点X 的联合概率分布。并且,如果节点间存在条件独立的性质,贝叶斯网络的计算效率将比其他计算联合概率的方法高得多[16]。

根据本模型收集数据的特点可知,最终建立的模型为无向图,只含无向边的图称为无向图。无向边一般表示对称关系,比如随机变量间的相关关系。如在无向图g=(V,E)中,X、Y、Z是V 的三个互不相交的子集,X、Y 不是空集,若从X 到Y 的每条路径都经过Z 中的点,则称X和Y 被Z 分离,记为X⊥Y|Z,并且称Z 是X 和Y的分离集。因此从{me}到{an}的每条路径都经过集合{al},因此{me}⊥{an}|{al}。DAG 是指只含有向边且不含有向环的图,其中的有向边一般表示时序或者因果等非对称关系,可用来推断因果关系。因为DAG 模型蕴涵的信息丰富,近几年来颇受关注,尤其是在人工智能领域[17]。

由于不同数据的特性存在差异性,其因果发现的方法也应存在不同。其可以分为基于时序与非时序的观察数据的因果关系发现方法两种。据上文所述,本项研究的对象同样是具有非时序性的。基于非时序观察数据的因果关系发现如下:给定p维变量集V={v1,v2,…,vp}上的m组非时序观察数据X={x1,x2,…,xm},发现变量{v1,v2,…,vp} 间的因果关系[18][19]。目前,非时序观察数据的因果关系也是领域内的研究热点,具有更广的适用范围。

3.“大P大数据”与“大N大数据”

随着技术的进步,为了对大数据进行形象化的研究,“大N 大数据”和“大P 大数据”的概念被提了出来。如设大数据为一矩阵,N 为观测个数,P 为变量个数,便可细分出以上两种大数据。当观测目标数量大于变量时,此数据类型被称为“大N大数据”。该类数据能提升推断精度,但观测个数的多少会对结果产生很大的影响。当个数过大或过小时,其得出的推算结果往往会偏离。因此,仅仅使用“大N 大数据”技术是难以展开因果推断的。而“大P 大数据”的P 指的是某个指定的研究对象中所有的信息,P 即对象本身。在大P 数据集中,单个个体的所有信息都能包含在内,例如用户的家庭背景、社会背景、个人行为偏好等。因此,相较于其他数据集,“大P 大数据”可增加更多变量,提供更多信息,推理更加有效。实验中尽管变量的具体有可能少于观测个数,但却已经包含了指定观测对象的全部信息,使得实验进行的推断更加全面与准确[20]。

值得注意的是,当利用“大P 大数据”进行因果推断时,其中的变量必须不低于外生可能性的所有变量,即对结果可能产生影响的除了处理后变量的所有变量,这是利用“大P 大数据”进行因果推断有效的前提。因此使用“大P 大数据”时,需要研究对象相关的理论进行细致的研究,以设置科学的变量,保证使得变量的范围能够包涵单个研究对象足量的信息[21]。

(三)数据解释及可视化

在大数据时代,传统的分析方法往往难以处理庞大且复杂的数据关系,因此需要利用可视化技术来辅助研究。图形化的数据相较于抽象的文字是更加具体与形象的,复杂的多维数据关系与深层的原因与现象都能够直观、简化地呈现出来,减少了科研人员的工作量,并且在数据结果的理解上,能使科研人员与用户更直观地阅读与接受。

四、因果发现模型在智慧图书馆儿童分级阅读智能荐书的应用

1.通过因果推断的儿童阅读智能书籍推荐

某项研究中的各个属性之间通常有一定的因果关系。如太阳的周期活动很可能导致了某地的洪水泛滥,因此研究人员可以采用图模型的形式对这种属性之间因果关系进行表达。图模型可以包括两部分内容,即定性描述与定量描述两种。定性描述指的是描述属性之间相互关系的结构,而定量描述指的是描述该属性与其父亲属性的相关程度的参数。当图中各属性的连线是有向弧并且结构中没有环时,该图模型称为DAG(directed acyclic graph),有时也称为因果模型(causal models)。因果模型不仅能表现出不同属性之间的因果联系,还是进行概率推理的有效工具[22]。可以看出,通过因果发现算法图书馆能够计算出某本书适合某位儿童读者的概率,图书馆员可以根据运算出来的概率结果,向读者推荐有可能最适合该读者的书籍,以达到智能荐书的效果,更好地服务读者。该算法通过大数据及节点间的因果联系进行顺推,根据读者提供的不同信息,如性别、年龄、偏好等,结合其历史借阅情况,推断出不同年龄段不同偏好的儿童最有可能借阅的图书,便可以进行书籍的智能推荐。

如该读者是第一次使用图书馆,所需信息较少,即前文所述的“大N 大数据”,难以进行准确的因果推断,则根据其仅有的条件进行大数据推断,即如仅有信息“性别(男)”,则对整个男性儿童读者进行统计,向其推荐整个男性儿童读者借阅率最高的书籍。

2.大数据在智慧图书馆儿童分级阅读的因果发现

同心理过程相比,人工智能算法是具有更高规范性的。对于所有因果发现算法,机器学习研究者都在演绎推断的严格意义上证明了它们在正确的输入下能够输出正确的结果[23]。因此,通过因果发现这类人工智能算法来对儿童阅读书籍进行分级更规范,更准确。儿童分级阅读智能荐书模型是基于大数据及节点间的因果联系进行逆推,在保证儿童借书选择最大程度的主动性上,对不同年龄儿童最受欢迎的图书情况进行分析,在其中还可以加上各图书作者、书商对图书的评价情况与专家对各图书的评价等作为标准,以增加分级因果推断的准确性,综合推断出不同年龄段的儿童所适合阅读的书籍,以达到儿童书籍分级的目的,促进我国儿童分级阅读事业的发展。

四、结论

因果发现是一种准确有效的人工智能概率算法。图书馆可以运用该算法建立智慧图书馆儿童分级阅读智能荐书模型,将图书馆日常工作中所收集的读者数据作为大数据输入模型,通过概率运算,可以得出儿童读者最有可能想要阅读的书籍是哪本、哪本书适合该读者的概率最大。并且,通过大数据计算,还可以对儿童图书的分级进行计算,分析出各个年龄段儿童所适合阅读的书籍,促进我国儿童分级阅读事业的发展。

猜你喜欢
书籍分级变量
鲁迅与“书籍代购”
抓住不变量解题
也谈分离变量
AOS在书籍编写的应用
书籍
分级诊疗路难行?
分级诊疗的“分”与“整”
书籍是如何改变我们的
分级诊疗的强、引、合
“水到渠成”的分级诊疗