基于数据挖掘的海量信息多媒体过滤技术研究与应用

2019-10-23 03:20孙小杰

微型电脑应用 2019年10期

孙小杰

(陕西铁路工程职业技术学院信息化建设与管理中心, 渭南 714000)

0 引言

近年来，随着网络技术飞速发展，大数据环境下海量多媒体信息过滤技术已成为网络技术一个研究热点。海量多媒体信息过滤系统通常被设计成便于快速检索多媒体信息以满足不同人群的短期需求。他们通过直接或间接从用户获取信息来实现个性化的目标。在多媒体信息过滤系统中，这些大数据信息需求被表示为用户的兴趣概况，并可根据用户的反馈进行修改。信息检索系统通常在相对静态的多媒体信息集上运行，而信息过滤系统通常关心从不断变化的多媒体信息流中识别相关多媒体信息。

本文针对海量多媒体信息过滤的基本问题进行了分析并通过实验进行了验证。在信息过滤系统需求的调查中，确定了相关功能并对其进行了抽象表达。在此之后，对所得系统的性能进行了严格的实验分析，以验证主要功能对整个过滤过程的影响。信息过滤系统的主要目标是执行从多媒体信息空间到用户相关性值空间的映射。反过来，这种映射可以分解为多级过程，分类、筛选和配置文件管理的子问题。用户对系统操作的干预必须最小化，也就是说，系统应尽可能依靠自动化技术来获取有关多媒体信息和用户的信息；当面对文件或用户信息需求的变化时，系统必须快速调整，而且性能几乎没有退化。

1 多层次信息过滤

本文提出一个通用的过滤模型。作为一种降低复杂性的方法，该模型的体系结构包含多层次的功能分解，并通过模块化提升通用性。它几乎可适用于任何涉及表示、分类和档案管理的基本任务。学习的思想是过滤过程的核心。学习技术具有高度的适应性，同时可最大限度的减少用户干预。我们应用学习技术来获取有关多媒体信息和用户的信息。为了支持适应多媒体信息流中的更改，使用无监督的集群发现方法。强化学习算法因其低开销的特性被用于获取用户兴趣概况。我们将所有功能集成到一个完整的工作系统中，在真实世界的过滤应用程序中进行涉及人类用户的研究，并系统地分析各种用户和系统相关参数对过滤性能的影响。

1.1 过滤模型

如图1所示。

图1 过滤过程模型

有3个重要且独立的实体构成过滤环境。分别是多媒体信息采集，过滤器和用户。文件可能存在于各个模块，并可能由用户通过不同的渠道接收。在过滤之前存储这些多媒体信息的任务由多媒体信息采集和管理(DAM)的组件处理。多媒体信息采集和管理是过滤器的独立组件，其实际设计可能因环境而异。例如，多媒体信息采集和管理的核心就是可以从指定站点检索多媒体信息的Web爬虫实用程序，维护索引文件的守护进程，甚至是复杂的DBMS。无论多媒体信息采集和管理(DAM)的构造是什么，当被调用时，它都会产生流入过滤器的多媒体信息流。为了避免不必要的概念分析，1)陈述管理子模块将被用于仅为那些对用户感兴趣的域选择概念；2)分类器模块为每个多媒体信息标识其对应的多媒体信息类或组。3)档案管理模块利用由子模块生成的分类方案作为离线过程。过滤器中类的空间必须小于输入多媒体信息空间。

档案管理员模块具有维护准确的兴趣档案和应用档案以评估档案相关性的双重作用。简档表示构成关于过滤器所使用的多媒体信息类别的用户偏好的信息，这种偏好信息可以以各种方式获得。从机器学习文献中可以看出，最好的自动轮廓获取方法依赖于用户的相关反馈。无论最终选择何种方法，用户应始终可以选择直接输入或修改其配置文件中的值，以确保过滤器的透明度。这里值得注意的是，由于严格强调类空间，可能会出现语义相关的多媒体信息分配给不同的类。但是，由于配置文件学习总是通过一组类来进行，所以对整个多媒体信息排名影响甚微。学习配置文件后，系统对语义相关的类进行大致相同的处理，以便进行排序。

在对过滤器进行建模时，还找出了调整过滤器的方法，以便定制和改进过滤器的性能。配置文件管理器经常进行调整。适用于配置文件管理器模块的一种重要调整类型是当用户的兴趣因某些外部环境而变化时，避免配置文件降级。由于这种情况可能会对过滤器的性能产生直接影响，因此最好自动处理。这需要对用户的反馈进行持续监控，并尽可能快地预测变化。我们将此调整操作显示为配置文件管理器模块的子模块。分类方案的结构，大小和内容也会对过滤器的行为产生重大影响。这种方案通常使用培训文件集(一个庞大而具有代表性的文件集)生成。

1.2 神经网络决策模型

决策系统中神经网络决策模型有两个作用，第一是对海量多媒体信息数据进行学习，第二是依据学习到的结果，再输入数据时候，能够得出正确的判断。如图2所示。

图2 三层前向神经网络结构

为三层前向神经网络结构，该神经网络模型是在对决策系统进行建模后，解决大数据环境下海量多媒体信息过滤技术方法问题。

以一个简单的神经网络结构为例：

Step1：神经网络从左到右对应的Layer为L1，L2，L3，记Li中从上往下数的第j个神经元为uij。

Step2：记Li对应的神经元个数为ni(例如:n1=3、n2=5、n3=2)。激活函数、偏置分别为φi、b(i)(注意b(3)其实不会被用到)。

(1)

Step4：记Li对应的输入、输出为u(i)，v(i)。

Step5：记模型的输入、输出集为X、Y样本数为N，损失函数为L：一般我们会要求L是一个二元对称函数，亦即对于L的输入控件中的任意两个向量(矩阵)p，q都有式(2)。

L(p,q)=L(q,p)

(2)

那么上述神经网络的前向传导算法的所有步骤即为(运算符“×”代表矩阵乘法,采用Step2的数据)：

u(1)=X、v(1)=φ1(u(1))，注意u(1)，v(1)都是N×3矩阵；

u(2)=v(1)×w(1)+b(1)、v(2)=φ2(u(2))

注意w(1)是3×5的矩阵，所以u(2)，v(2)都是N×5维矩阵；

u(3)=v(2)×w(2)+b(2)、v(3)=φ3(u(3))

注意w(2)是5×2的矩阵，所以u(3)，v(3)都是N×2维矩阵。

建立神经网络决策模型首先要对大数据环境下海量多媒体信息分类，基于道路复杂不可预测的特点，有效利用神经网络权值参数，对神经网络做出随时的调整，满足人们能获取有用的多媒体信息。

1.3 贝叶斯定理

贝叶斯定理是一个学习定理，贝叶斯定理基础是基于条件概率分布和边缘概率分布。

P(B2)P(A/B2)+…+P(Bn)P(A/Bn)

(3)

贝叶斯公式:设试验S的样本空间为E，A为S的事件，B1，B2，…，Bn为E的一个划分，且P(Ai)>0，P(Bi)>0(i=1，2，…，n)，则有式(4)。

(4)

然而，多媒体信息流的内容可能随时间充分变化，以要求重新生成分类方案。这种类型的调整不太必要，可以由分类器的子模块进行(使用最后n个多媒体信息作为新的训练集)。最后，叙词表的结构和内容可能直接影响多媒体信息表示，从而影响其余的过滤过程。当某领域发生重大变化(通常发生得非常缓慢)时，需要调整操作来更新同义词库以适应这种变化。我们将这些操作显示为代表模块的子模块。

2 过滤实现

作为模型实用性研究的一种方式，我们实现了一个名为可执行过滤模型的过滤系统，它包含了上一节描述的主要组件。我们现在详细描述这些组件。我们从可执行过滤模型的过滤部分开始，主要关注3个组成模块。

2.1 矢量空间模型的多媒体信息表示

过滤器的第一个组件需要将多媒体信息转换为可以高效解析的结构，而不会丢失关键内容。选择矢量空间模型进行多媒体信息表示，因为它经过了广泛的测试，并且通用性足以满足过滤环境的其他计算要求。过滤器核心是从代表特定领域的权威来源挑选的一组技术术语或概念。同义词管理子模块也用于修剪常用的功能词，以及几个词规范化任务。

使用具有充分代表性的文献集合作为基础，离线生成包含词库中所有词语的总频率的表格。一个单独的和有代表性的多媒体信息库在过滤中效果显著，因为传入的多媒体信息流有时只能包含几个多媒体信息。系统运行于在线过滤器应用程序模式下，将生成另一个表格，其中包含新到达多媒体信息中找到的所有唯一术语的频率。然后，根据两个表中的值，使用以下等式为每个多媒体信息中的术语导出适当的权重如式(5)。

Wik=Tik×log(N/nk)

(5)

其中Tik是多媒体信息i中Tk项的出现次数;Ik=log(N/nk)是多媒体信息库中Tk项的逆多媒体信息频率;N是多媒体信息库中多媒体信息的总数;而nk是包含给定项Tk的基数中的多媒体信息数量。

2.2 文件分类模块

分类模块主要由两个处理阶段组成：无监督集群学习阶段和矢量分类阶段。在学习阶段，初始集群假设[C1,…,Ck]由多媒体信息向量[S1,…,Sk]的代表性样本生成。然后每个集群Ci由其质心Zi表示。在分类阶段，输入多媒体信息矢量Vi使用从阶段1学习的质心分类到特定类别Ci中。群集质心的学习以离线批量模式完成，而分类在多媒体信息到达时连续执行。

一种简单的启发式无监督聚类算法，称为Maximin-Distance算法，目前用于确定多媒体信息向量空间上的质心。在该算法中，质心是以迭代方式生成的。在每个阶段，数据集中的一个点(多媒体信息)被选中，与现有质心的距离最大。任何多媒体信息与现有质心的距离又是其在所有质心上的距离的最小值。只有当它与现有质心的距离是先前最大距离的可观分数时，才会将选定点作为新质心添加。用于此分数的阈值确定聚类的粒度和数量。在联机操作期间，分类模块仅将输入多媒体信息矢量Vi分类为属于其质心与多媒体信息矢量具有最小距离的类别。然后将对应于每个向量的结果分类信息传递给用户简档学习模块。

用于计算两个多媒体信息向量之间距离的度量是余弦相似度度量。给定两个非空多媒体信息向量X=[x1,…,xt]T和Y=[y1,…,yt]T，这样的相似性度量表示它们之间角度的余弦，可描述为式(6)。

(6)

然后将距离计算为1减去相似度。当一个或两个向量相同时为零(意味着相应的多媒体信息不能用给定的同义词库表示)，不需要进行距离计算，因为所有这些向量按照惯例被分配到一个称为“others”的特殊类。

2.3 用户档案学习模块

用户简档学习模块的功能是确定用户对不同类别的信息Ci(i=1，…，k)的偏好并且基于它们的类别以及对类别的估计用户偏好来优先化导入文件。为了完成此任务，学习代理根据相关性反馈来维护和更新用户的简化模型。令di表示类Ci的潜在(未知)预期用户偏好。学习代理维护并更新维数等于类数的两个向量。第一个是估计的相关概率向量，其中元素di(i=1，…，n)是di的估计。第二个是动作概率向量pi，使得pi表示类别Ci被过滤器选择为最相关类别的概率。在学习过程中，根据用户相关性反馈，p和d向量都会不断更新。

学习代理在每次迭代中对输入多媒体信息进行排序，首先对p向量进行采样以选择要在顶部呈现的类。其余的类根据相应的d值进行排序。p向量的元素都被初始化为1/k的值，其中k是类的数量。因此，在开始时，所有类都有可能被排在最前面，因此可以接收用户的注意力和相关性反馈。这使得以d矢量的形式充分准确地学习用户模型。随着学习的进展，p向量中的一个元素(对应于最相关的类)接近1的值，而其余元素趋于零。同时，d向量的元素接近d。因此，在足够长的学习时间之后，多媒体信息的排名根据用户对于相应类的关联严格执行。

学习算法(即，用于更新p(k)和d(k)的算法)简要描述如下。在任何时刻，di(k)(i=1，…，n)是用户对属于类别i的多媒体信息给出的相关性值的移动平均值。将d向量的当前最大元素表示为具有索引l，则创建维度n的单位向量E(k)，其维度n的第1个元素是1，并且其所有其他元素都是0。然后pi(k)(i=1，…，n)被更新为式(7)。

(7)

其中0

有两点值得强调。首先，收敛后的d向量表示用户兴趣的简化模型。在实践中，用户总是可以选择为每个类指定其兴趣。在这种情况下，d向量的元素以用户提供的值进行初始化，并且学习过程可以仅被看作是扩大用户提供的简档。其次，通过一组C类进行的配置文件学习可以将语义相关多媒体信息分配给不同类的效果最小化。假设用户感兴趣的多媒体信息被分配到两个不同的类。在一段时间内(在了解配置文件之后)，语义相关的类将被大致同等地处理以用于排名目的。因此，用户将在顶部一起看到相关多媒体信息。在这里，从用户的角度来看，多媒体信息来自两个不同的类别并不重要。

3 总结

海量多媒体信息过滤技术在面对海量数据时会出现处理效率低、资源浪费大、运行成本高等缺点。本文利用数据挖掘技术，提高了多媒体信息过滤平台的性价比，面对海量信息也能发挥其良好的处理能力，进一步提高了处理海量数据的性能。信息过滤，即根据特定用户的兴趣对传入多媒体信息进行排序和展示，是一种面向用户的服务，其重要性只有在越来越多的用户开始利用通过电子媒体提供的大量信息资源时才会显着增加。为了提供有效的面向用户的过滤服务，必须处理与多媒体信息的表示和分类相关的不确定性以及用户的兴趣。

在本文中，讨论了信息过滤系统的一般模型，该模型描述了各个子系统所需的广泛功能。该模型允许在给定的上下文中使用任何首选的方法来实现功能。该系统的一个特殊实现称为可执行过滤器模型，用于过滤多媒体信息。可执行过滤器模型的当前工作版本涉及了应用和集成几种众所周知的用于多媒体信息表示，聚类，用户配置文件学习以及检测用户兴趣变化的技术。已经提出了涉及真实用户和模拟用户的研究来说明可执行过滤器模型的性能等完善的标准进行测量，以及各种设计参数对性能的影响。整体模型的一般模块化特性允许将来在必要时无缝集成这些功能。能够得到比较全面的知识库，不仅提高了海量多媒体信息过滤阶段的可靠性，还使实验性能评价指标有了很大的提升。