基于实体属性抽取的植物问答系统的研究

2020-02-16 14:45魏恒,纪芳,李儒梦
教育教学论坛 2020年1期

魏恒,纪芳,李儒梦

摘要:随着互联网的不断发展,信息抽取技术也在不断革新与进步,将植物描述信息结构化,对于植物分类学和植物标本的采集鉴定等进一步的深入研究具有重要意义。文章结合实体属性抽取技术,构建了植物信息知识库,从而实现了一个新型的植物问答系统,使用户能直接得到准确具体的答案。

关键词:实体属性抽取;植物知识库;问答系统

中图分类号:G642.0     文献标志码:A     文章编号:1674-9324(2020)01-0070-02

一、引言

互联网的不断发展,推动了信息抽取技术的不断革新与进步。实体属性抽取作为信息抽取的重要组成部分,其主要任务是抽取不同类型实体的独有属性特征。在非结构属性抽取中,目的是给定实体,从非结构化文本中抽取(实体、属性、属性值)三元组[1]。尽管实体属性抽取在国内外成为一些领域的研究热点[2],但针对植物领域的研究仍然较少。并且由于植物专业术语的特殊性,其边界难以确定,导致其他领域的属性集与技术不可完全移植。此外,植物信息检索目前只能通过传统的搜索引擎(如百度)或相关网站(如《中国植物志》官网)完成,用户只能得到相关网页链接或大段非结构化的文本描述,需要耗费大量的精力去筛选有用信息,不能直接得到准确具体的答案。针对这些情况,本文在植物领域结合实体属性抽取技术,构建了较全的植物信息知识库,从而实现了植物问答系统。

二、基于实体属性抽取的植物知识库构建

本文将基于实体属性抽取的植物知识库构建分解为三项任务:数据获取与预处理、分词与标注、属性与关系抽取并构建知识库。

1.数据获取与预处理。《中国植物志》全书80卷,126册,5000多万字,记载了我国3万多种植物,是目前世界上最庞大、种类最丰富的一部巨著。其中,种子植物数量约占总植物的80%。本文选其作为原始数据进行研究。使用爬虫从电子版网站(http://frps.eflora.cn)上获取种子植物的相关数据。由于这些植物网页的结构可能有所不同,因而需要网页清洗,进行规范化处理。网页是标记语言构建的半结构化文本。将网页解析成DOM樹,去除无关的HTML标签元素,提取植物的有效信息。进行规范化处理,将植物的描述文本分为科学名称、形态特征、地理分布、经济用途等文本块。

2.分词与标注。本文基于种子植物的相关专业知识,确定了种子植物的基础性状及其属性取值的范围,构建了植物属性特征词典,进一步提高了植物实体属性信息抽取的准确性。考虑到中文的特性,尤其许多植物的专有名词难以被计算机区分,为节省时间成本,对于植物信息描述,本文使用中文分词软件Jieba进行分词处理和词性标注预处理。由于植物专业术语的特殊性,为保证准确率,在分词前会将上述自主构建的植物属性特征词典导入该软件。此外,对于可能出现的嵌套词等计算机无法识别的部分则进行手工处理。通过分析与标注,得到预处理的语料。

3.属性与关系抽取并构建知识库。本文采用基于规则的方法进行实体属性与关系的抽取。并且使用RDF模型表示被识别和抽取的信息。RDF表达式的基本结构是三元组,每个三元组由一个主体、一个谓词和一个客体组成。首先,定义属性规则集,包括通用规则和专用规则,进行植物属性抽取。通用规则,即针对具有共性的描述形式定义的提取规则。在《中国植物志》中,种子植物的信息描述大部分具有规律性和一致性。如:植物描述一般都是从生长习性、根、茎、叶、花、果实描述到物候学特征,对于较复杂的器官结构,则依其构成进一步展开;描述文本的句子通常以表示植物结构的名词词组(先导词)开头;一些属性具有内部特征,如颜色的标志为“色”,形状的标志为“状”“形”等;标点符号起一定作用,如“、”表示某一属性的属性值并列,“;”表示叶片与叶柄的分离,“。”表示根与叶的分离等。专用规则,即针对不同植物具有特性的描述形式定义的规则。譬如,在有些植物描述花的语句中出现“植物结构”+“数量”的形式,抽取时需合理设定语序。基于通用规则和专用规则,定义属性规则集,用正则匹配的方式抽取出植物的属性,包括生长类型、颜色、形状、形态、质地、毛被、花期、果期、长度、宽度、高度、胸径等。在表示植物属性的RDF模型中,三元组的主体是实体,谓词是属性,客体是属性值,譬如“油杉”“高度”“30m”。其次,定义关系规则集,进行植物关系抽取。由于数据的限制,本文从中只抽取到了3种关系:地域关系、异名关系、变种关系。地域关系可表示为一个植物实体与多个地域的关系,也可表示为多个植物实体与一个地域的关系。异名关系和变种关系也是如此。在表示植物关系的RDF模型中,三元组的主体是实体,谓词是关系,客体是实体,譬如“油杉”“产于”“浙江南部、福建、广东、广西南部”。最后,通过数据库实现RDF模型的实际存储就完成了植物知识库的构建。

三、植物问答系统的实现

植物问答系统的实现包括三个部分:用户输入、调用问答模块、答案输出。其中,问答模块的构建是核心。本文基于自主构建的结构化植物知识库,并且参照相关问答系统[3],确定本系统的问答模块分为四个部分,包括问题分类、问题分析、三元组语义槽提取、答案生成。

1.问题分类。对于用户输入的问题,确定是属性问题还是关系问题。譬如,问题“油杉有多高?”是属性问题,问题“油杉产自哪里?”是关系问题。

2.问题分析。对问题进行分析,确定句子中的实体、属性或关系。譬如,问题“油杉有多高?”中的实体是“油杉”,属性是“高度”;问题“油杉产自哪里?”中的实体是“油杉”,关系是“地域”。

3.三元组语义槽提取。从问题分析的结果中提取语义信息,用三元组表示。譬如,从问题“油杉有多高”中提取出三元组(“油杉”“高度”“?”),从问题“油杉产自哪里”中提取出三元组(“油杉”“产于”“?”)(“?”表示未知)。

4.答案生成。根據问题分类和提取到的三元组,在知识库的属性部分和关系部分中选择查询,填充三元组中的未知部分,生成答案。譬如,问题“油杉有多高?”查询填充后的三元组为“油杉”“高度”“30m”,答案为“30m”;问题“油杉产自哪里?”查询填充后的三元组为“油杉”“产于”“浙江南部、福建、广东、广西南部”,答案为“浙江南部、福建、广东、广西南部”。

将构建的问答模块结合Web应用,即可实现植物问答系统。

四、结语

本文实现了一个基于实体属性抽取的植物问答系统,对于植物分类学和植物标本的采集鉴定等进一步地深入研究具有重要意义。笔者希望有更多的有志之士能够投身这个课题的研究之中,并指出笔者在文中的不足之处,同时为这一课题的研究做出自己应有的一份贡献。

参考文献:

[1]曾道建,来斯惟,张元哲,刘康,赵军.面向非结构化文本的开放式实体属性抽取[J].江西师范大学学报(自然科学版),2013,(03):279-283,305.

[2]丁君军,郑彦宁,化柏林.国内外属性抽取研究综述[J].情报科学,2011,(05):793-796.

[3]杜泽宇,杨燕,贺樑.基于中文知识图谱的电商领域问答系统[J].计算机应用与软件,2017,(05):159-165.

Research on Plant Question Answering System Based on Entity Attribute Extraction

WEI Heng,JI Fang,LI Ru-meng

(School of Information Science & Technology,Beijing Forestry University,Beijing 100083,China)

Abstract:With the continuous development of the Internet,information extraction technology is also in constant innovation and progress,the plant description information structured,for plant taxonomy and plant specimen collection and identification of further in-depth research is of great significance.In this paper,a knowledge base of plant information is constructed by combining entity attribute extraction technology,so as to realize a new plant question answering system and enable users to get accurate and specific answers directly.

Key words:entity attribute extraction;plant knowledge base;question answering system