基于知识图谱的新闻推荐系统研究

2021-12-27 08:53杨敬慧
科学与信息化 2021年18期
关键词:网络新闻新闻标题图谱

杨敬慧

新华通讯社 北京 100803

引言

随着互联网的发展,人们的新闻阅读习惯已逐渐从纸质媒体转变为在线新闻网站。而网络新闻平台一个较为显著缺点是新闻的数量之大让用户难以承受。为了减轻信息过载影响,帮助用户针对自己的阅读兴趣,提出个性化的建议则显得尤为重要。

考虑到在新闻推荐的特点和受到知识图谱广泛成功应用的启发,本文提出了一种新的针对新闻内容推荐的框架,即深层知识knowledge-aware网络(DKN)。DKN是一个基于内容的模型对于点击率(CTR)的预测,这需要一个候选新闻和一个用户的点击历史记录作为输入和输出用户点击新闻的概率。DKN 模型主要分成三部分:知识抽取(Knowledge Distillation)、知识感知卷积神经网络(KCNN:Knowledge-aware CNN)、用于抽取用户兴趣的注意力网络(Attention Network:Attention-based User Interest Extraction)。下面对这三部分进行详细的介绍。

1 知识抽取

知识抽取模块的输入是一些用户点击的新闻标题。首先将标题拆成一组词,然后将标题中的词与知识库的实体进行链接,那么再接着找出距离链接实体一跳之内的所有邻接实体,并将这些邻接实体称之为上下文实体。这样,根据新闻标题可以得到三部分的信息,分别是词,链接实体,以及上下文实体。由此分别得到了词、链接实体、上下文实体的向量表示[1]。

2 知识感知卷积神经网络 KCNN

KCNN是传统CNN的扩展,它允许灵活地将知识图谱中的符号知识整合到句子表示学习中,利用KCNN,我们得到了每一条新闻的知识感知表示向量。为了获得用户对当前候选新闻的动态表示,我们使用关注模块将候选新闻自动匹配到每一条点击的新闻,并用不同的权重聚合用户的历史。最后利用深度神经网络(DNN)对用户的嵌入和候选新闻的嵌入进行预测[2]。

3 注意力网络

由于用户对新闻主题的兴趣可能多种多样,并且在考虑用户i是否会点击候选新闻 时,用户i的历史点击新闻可能会对候选新闻 产生不同的影响。为了表征用户的不同兴趣,文中使用注意力网络来建模用户点击的新闻对候选新闻的不同影响,输入:给定用户i的点击历史新闻标题分别为{t1i,t2i,…,tNi};该用户的点击新闻则可以假设为e(t1i),e(t2i),…,e(tNi)。step1:将输入的嵌入进行串联,然后将使用深度神经网络 H 计算归一化的影响权重:

step2:得到影响权重s之后,将用户i点击的历史新闻标题嵌入乘上影响权重,即可得到当前用户的嵌入e(i)。

输出:在给定用户i嵌入e(i)和候选新闻 嵌入e(tj),在经过深度神经网络可以得到预测用户i点击新闻的概率[3]。

4 实践

我们的数据集来自进博会专题新闻库的数据。每条数据主要包含时间戳、用户id、新闻url、新闻标题和点击计数(0表示未点击,1表示点击)。我们收集了大量随机抽样数据集作为测试集。此外,我们在进博会专题库知识图谱中搜索数据集中出现的所有实体以及它们一跳内的实体,并提取其中所有置信度大于0.8的边。

基本的统计和分布给出了新闻数据集的知识图谱特点如下:

第一,我们将一条新闻的生命周期定义为期限从出版日期至最后一次收到日期点击。我们观察到90%的新闻都是在两分钟内被点击的,这证明了网络新闻的时间敏感性极高并被频率更高的新基因所取代。

第二,对于用户而言,被点击的新闻的分布数量规律为:80%的用户点击的新闻不超过5条。充分说明了新闻推荐中的数据稀疏性场景。

第三,数量的分布分别是新闻标题中的词(没有终止词)和实体。每个标题的平均字数是8,实体是3.9,表明在新闻中几乎平均每两个词中都会出现一个实体。高密度出现的实体也经验性证明了KCNN的设计。

第四,发生时间分布一个实体在新闻数据集中的分布和编号提取出的知识图中某个实体的上下文实体。充分说明了网络新闻中实体的出现模式是稀疏的,且存在较长时间尾部(80%的实体出现次数不超过10次),但实体在知识图中一般具有丰富的上下文:每个实体的上下文实体的平均数量为44。因此,上下文实体可以极大地丰富新闻推荐中单个实体的表示形式[4]。

5 结束语

本文提出了一种利用知识图谱表示的深度知识网络DKN。DKN在新闻推荐业务场景中面临三大挑战:

第一,与基于ID的col-laborative过滤方法不同,DKN是一种基于内容的深度点击率预测模型,适合于高时间敏感的新闻。

第二,为了充分利用新闻内容中的知识实体和常识,设计了DKN中的KCNN模块,从新闻的语义层次和知识层次表示两个方面进行联合学习。多通道、多个词和实体的对齐使KCNN能够结合来自异构源的信息,并保持每个单词的不同嵌入的对应关系。

第三,为了模拟用户不同历史兴趣对当前候选新闻的不同影响,DKN使用注意模块动态计算用户的聚合历史表现。

我们在专题库数据集上进行了广泛的实验。结果表明,DKN与强基线相比具有显著的优越性,以及知识实体嵌入和注意模块的使用效果。笔者认为,DKN 的特点是融合了知识图谱与深度学习,从语义层面和知识两个层面对新闻进行表示,而且实体和单词的对齐机制融合了异构的信息源,能更好地捕捉新闻之间的隐含关系。利用知识提升深度神经网络的效果将可能是一个值得研究的方向。

猜你喜欢
网络新闻新闻标题图谱
基于图对比注意力网络的知识图谱补全
加强网络新闻的监督与管理
网络新闻语篇中的主位与主位推进模式特征研究
绘一张成长图谱
网络新闻在公共管理中的作用及影响
新时期如何做好网络新闻的编辑工作
谈新闻标题的现实性
网络新闻标题与报纸新闻标题的对比
图表
无意间击中幽默的新闻标题