社区问答系统中基于当前兴趣的问题推荐研究

2019-10-21 08:16赵永标张其林谷琼
现代信息科技 2019年11期

赵永标 张其林 谷琼

摘  要:社区问答系统作为一种新兴的知识分享平台,在帮助用户获取有用信息方面取得了相当大的成功。将用户提出的问题推荐给感兴趣的回答者依然是社区问答平台面临的一个问题。针对兴趣度,已提出了多个表示模型,但这些模型没有考虑兴趣的时间维度。本文提出用TOT主题模型建立备选回答者兴趣的动态变化模型,找出备选回答者的当前兴趣,然后进行问题推荐。实验表明本文提出的方法是有效的。

关键词:社区问答系统;问题推荐;兴趣度;Topics Over Time主题模型

Abstract:Community question answering (CQA) has succeeded significantly in accessing useful information as a popular knowledge sharing platform. Recommending usersquestions to interested respondents is still a problem facing the community QA platform. For interest degree,several representation models have been proposed,but these models do not consider the time dimension of interest. In this paper,a TOT topic model is proposed to establish a dynamic change model of the interest of candidate respondents,find out the current interest of candidate respondents,and then recommend questions. Experiments show that the proposed method is effective.

Keywords:community question answering;question recommendation;interest estimation;TOT topic model

0  引  言

作为一种新兴的知识分享平台,社区问答系统(Commu-nity Question Answering,以下简称CQA)以问题和答案的形式供用户交流信息、共享知识[1-3]。典型的CQA有Yahoo!Answers、Stack Exchange系列网站、百度知道和知乎等。CQA开放、交互的社会化属性吸引了越来越多的用户参与其中。仅在2012年,Yahoo!Answers平均每小时产生7000个问题和21000个答案[4]。

虽然CQA在帮助用户获取有用信息方面取得了相当大的成功,但也存在不少亟待解决的问题。其中一个重要的问题就是如何让用户提出的问题得到快速有效的解答。一项研究表明,用户提出的问题中有超过80%的问题不能在48小时内得到满意的回答[5,6]。另外,由于新产生的问题数量庞大,有能力回答问题的用户又很难找到自己感兴趣且擅长领域的问题来进行解答。

对于上述问题,一个有效的解决方法就是将新问题推荐给合适的回答者,使之能获得快速高质量的回答,即所谓的“问题推荐”(Question Routing)[7,8]。合适的回答者需要满足以下三个条件:

(1)对新问题感兴趣,用兴趣度(Interest)衡量;

(2)对新问题能提供高质量的回答,用权威度(Autho-rity)衡量;

(3)能及时地回答新问题,用在线可能性(Availability)衡量。

问题推荐的关键在于为这三个参数建立合适的表示模型。对于这三个参数,不少学者提出了自己的模型。

对于兴趣度,最基本的模型是QLLM模型[9],其基本思想是将新问题看作查询,将潜在回答者的资料(比如潜在回答者的历史回答问题集合)看作文档,通过语言模型计算新问题的生成概率。文献[10]提出了LDALM模型,该模型融合了词语和主题两个层次的问题生成概率。文献[11]提出了TCS-LM模型,该模型在计算问题的生成概率时引入了问题的类别信息。文献[12]提出了CBLM模型,该模型引入问答系统的结构信息,以问题及其答案为基本单元来计算问题的生成概率,文献[10]为了解决QLLM、TCS-LM和CBLM中存在的词不匹配问题提出了ITR模型。

對于权威度,最准确的度量方法需要依据潜在回答者的答案质量,但是目前精确评判答案的质量相当困难,一般采用间接方法估算权威度。最常用的方法是基于链接分析的方法,如PageRank和HITS及其衍生方法,这些方法将回答行为看作一个链接。另外,还有采用机器学习的方法间接评判答案的质量,例如,文献[13]采用逻辑回归的方法计算某个答案为一个“好”答案的概率,在回归中使用的特征包括答案的长度、问题与答案的长度比和问题的答案总数等。

对于在线可能性,这方面开展的研究工作相对较少。文献[13]把在线可能性度量问题看作一个时间序列趋势预测问题,具体过程是根据潜在回答者在某个时刻之前的历史回答行为采用自动回归的方法预测潜在回答者在该时刻之后一段时间内有回答行为的可能性。文献[10]提出了一个相对简单的计算方法,该方法仅考虑潜在回答者最近的一次回答行为。

如前所述,针对兴趣度已提出了多个表示模型,实验证明这些模型也取得了不错的效果。但这些模型都存在一个共同的问题,就是没有考虑用户兴趣的时间维度。用户的兴趣是动态变化的。经验表明,用户更愿意回答当前兴趣范围内的问题。本文提出用TOT主题模型[14]建立备选回答者兴趣的动态变化模型,找出备选回答者的当前兴趣,然后进行问题推荐。实验表明本文提出的方法是有效的。

4  结  论

针对目前已提出的兴趣度模型没有考虑兴趣的时间维度,且经验表明人们一定程度上倾向于回答与当前兴趣相关的问题,本文提出了基于当前兴趣的问题推荐模型,利用TOT主题模型挖掘用户的当前兴趣,然后进行问题推荐。实验结果表明,挖掘用户的当前兴趣有助于问题的推荐。本文下一步的研究方向是将基于当前兴趣的问题推荐模型与其他基于兴趣度的问题推荐模型进行融合。本文采用的数据集规模略显不足,可能会导致TOT的训练不够充分,对挖掘用户当前兴趣的准确性有一定影响,下一步将在更大规模的数据集上进行测试。另外,时间步长的选取也需要进一步的优化。

参考文献:

[1] 曹艳蓉.基于中文社区的智能问答系统的设计与研究 [D].南京:南京邮电大学,2018.

[2] 张力.社区问答系统中答案排序和问题检索算法研究与应用 [D].合肥:中国科学技术大学,2018

[3] 刘晓鸣.社区问答系统中的专家发现方法研究 [D].大连:大连理工大学,2013.

[4] 刘渊杰.社区问答系统最佳回答机制的研究 [D].上海:上海交通大学,2010.

[5] 路遥.用户交互式问答系统中问题推荐机制的研究 [D].合肥:中国科学技术大学,2012.

[6] 林鸿飞,王健,熊大平,等.基于类别参与度的社区问答专家发现方法 [J].计算机工程与设计,2014,35(1):333-338.

[7] 戴秋敏.互动问答平台专家发现及问题推荐机制的研究 [D].上海:华东师范大学,2014.

[8] 马泽锋.基于机器学习的问答推荐系统问题推荐模型研究 [D].广州:中山大学,2013.

[9] Zhou G,Liu K,Zhao J. Joint Relevance and Answer Quality Learning for Question Routing in Community QA [C]. Hawaii:International Conference on Information and Knowledge Management,2012:1492-1496.

[10] 刘明荣.协作式问答系统关键技术研究 [D].北京:中国科学院研究生院,2010.

[11] Li B,King I,Lyu M R. Question routing in community question answering:Putting category in its place [C]. Glasgow:Proceedings of the 20th ACM Conference on Information and Knowledge Management,2011:2041-2044

[12] Zhou Y,Cong G,Cui B,et al. Routing Questions to the Right Users in Online Communities [C]. Data Engineering,2009. ICDE '09. IEEE 25th International Conference on. S.l.:s.n.,2009:700-711.

[13] Li B,King I. Routing questions to appropriate answerers in Community Question Answering services [C]. Toronto:Proceedings of the 19th ACM international conference on Information and knowledge management,2010:1585-1588.

[14] Wang X,McCallum A.Topics over Time:A Non-Markov Continuous-Time Model of Topical Trends [C]. Philadelphia:Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining,2006:44-54.

作者簡介:赵永标(1980-),男,汉族,湖北洪湖人,讲师,硕士,研究方向:自然语言处理方面的教学与研究。