浅谈web信息抽取

2010-08-15 00:49李斌

大众科技 2010年4期

关键词：评测结构化网页

李斌

（中国医科大学附属第一医院，辽宁沈阳110001）

浅谈web信息抽取

李斌

（中国医科大学附属第一医院，辽宁沈阳110001）

文章阐述了web信息抽取的定义、抽取过程、Web信息抽取方法的分类，并指明了web信息抽取的应用领域和发展方向。

web信息抽取；自然语言；包装器；web查询；抽取对象

随着Internet的迅猛发展，Web已经成为一个巨大的信息源。曾几何时，人们开始习惯于使用网络搜索引擎来查找自己所需要的有用信息，但随着Web信息数量的快速增长，各网络搜索引擎所能覆盖的范围比例却逐渐减小，因此如何从Web中抽取出所需要的信息，就成为了互联网信息搜索研究领域中一个重要的研究课题。

（一）什么是web信息抽取

Web信息抽取是指从Web页面所包含的无结构、半结构或者结构化的信息中识别用户感兴趣的数据，并将其转化为结构和语义更为清晰的格式的Web页面信息抽取的过程[1]。

（二）Web信息抽取技术涉及的内容

因特网提供了一个巨大的信息源。这种信息源往往是半结构化的，并且中间夹杂着结构化和自由文本。网上的信息还是动态的，包含超链接，都以不同的形式出现。

1.Web信息抽取的内容一般可以分为几个方面：

命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。

信息抽取的方法主要可以分为以下两类：一类是基于层次结构的信息抽取归纳方法，另一类是基于概念模型的多记录信息抽取方法。

Web信息抽取工作主要包装器(Wrapper)来完成[1]。包装器是一种软件过程，这个过程使用已经定义好的信息抽取规则，将网络中Web页面的信息数据抽取出来，转换为用特定的格式描述的信息。一个包装器一般针对某一种数据源中的一类页面。包装器运用规则执行程序对实际要抽取的数据源进行抽取。

2.抽取过程一般包括以下几个步骤[2]：

（1）将Web网页进行预处理。预处理的目的是将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正，为下一步标记信息做准备。

（2）用一组信息模式描述所需要抽取的信息。通常可以针对某一领域的信息特征预定义好一系列的信息模式，存放在模式库中供用户选用。

（3）对文本进行合理的词法、句法及语义分析，通常包括识别特定的名词短语和动词短语。

（4）使用模式匹配方法识别指定的信息模式的各个部分。

（5）进行上下文分析和推理，确定信息的最终形式。

（6）将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。

（三）Web信息抽取方法的分类

把所有网页都归入半结构化文本是不恰当的。若能通过识别分隔符或信息点顺序等固定的格式信息正确抽取出来，那么该网页是结构化的。半结构化的网页则可能包含缺失的属性，或一个属性有多个值，或一个属性有多个变体等例外的情况。若需要用语言学知识才能正确抽取属性，则该网页是非结构化的。

网页的结构化程度总是取决于用户想要抽取的属性是什么。通常机器产生的网页是非常结构化的，手工编写的则结构化程度差些，当然有很多例外。

按照Web信息抽取对象的结构化程度，大体上可以分为三种类型：结构化文本；自由文本；半结构化文本。

1.根据Web信息抽取对象划分，可以分为三种类型：

（1）从自由格式的文本中抽取出所需要的信息内容。自由文本的抽取技术可分为三类：基于自然语言处理（NPL）的方式；基于规则的方式；基于统计学习的方式。

（2）从半结构化的文本中，抽取出所需要的信息内容。

2.根据自动化程度可以分为

人工方式的信息抽取、半自动方式的信息抽取和全自动方式的信息抽取三大类。

3.根据现有Web信息抽取系统和模型实现原理的不同，分为以下几类:

（1）基于归纳学习的信息抽取[2]。通过对若干个待抽取实例网页进行结构特征学习，归纳出抽取规则，然后使用抽取规则自动分析待抽取信息在网页中的结构特征并实现信息抽取。采用这种原理的典型的系统有STALKER，SOHTMEALY，WIEN。

（2）基于HMM(Hidden Markov Model)的信息抽取[3][4]。是最近几年应用最广泛的抽取知识表达模型。它是一种随机的有限状态自动机，由于HMM有成熟的学习算法和坚实的统计基础，所以在信息抽取中是一种成功的模型。

（3）基于特征模式匹配的信息抽取[2]。通过大量学习实例，归纳学习出待抽取信息的语法结构模式，并根据这些模式从待抽取网页中抽取出相匹配的信息，适用于复杂结构信息的抽取。

（4）基于网页结构特征分析的信息抽取[2]。将Web文档转换成反映HTML文件层次结构的解析树，通过自动或半自动的方式产生抽取规则。采用该类技术的典型系统有LIXTO等。

（5）基于Ontology的Web信息抽取。本体的构建是这类抽取的基础与核心，如何构造出良好的面向应用领域的Ontology对提高信息抽取的精确度有直接的影响。该方法主要是利用对数据本身的描述信息实现抽取，对网页结构依赖较少。由Brigham Yong University信息抽取小组开发的信息抽取工具中采用了这种方式，另外QUIXOTE也采用了这种方式。

（6）基于自然语言处理（Natural Language Processing，NLP）。这类信息抽取主要适用于源文档中包含大量文本的情况（特别针对于合乎文法的文本），在一定程度上借鉴了自然语言处理技术，利用子句结构、短语和子句间的关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的典型的系统有RAPIER，SRV，WNISK。

（7）基于Web查询的信息抽取。将Web信息抽取转化为使用标准的Web查询语言对Web文档的查询，具有通用性。采用该类技术的典型的系统有：Web-OQL以及自主开发的原型系统PQAgent。

查看数据流(图7)发现，在发动机熄灭前，燃油修正值达到-40%以上；高速时燃油修正值在±5%之间，属于正常。由于之前已确认进气流量数据正常，因此可以基本判定发动机在低速时有额外的汽油蒸汽进入汽缸参与燃烧。接着，又对PCV阀进行检测，也未发现异常，其关闭和开启动作均正常。

（四）国内外Web信息抽取技术的研究和应用

上世纪80年代以来，国内外许多大学、公司和研究机构对信息抽取技术展开了有计划的、长期系统的研究与应用工作，取得了一些成果并有许多相关的应用。也使信息抽取研究蓬勃开展起来，这主要有两个因素对其发展有重要的影响：一是在线和离线文本数量的几何级增加，另一个是“消息理解研讨会”(MUC，Message Understanding Conference)从1987年开始到1998年共举行了七届会议对该领域的关注和推动。MUC由美国国防高级研究计划委员会(DARPA，the Defense Advanced Research Projects Agency)资助，其显著特点并不是会议本身，而在于对信息抽取系统的评测。近些年来，信息抽取技术的研究与应用更为活跃。

在研究方面，主要侧重于以下几方面：利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取(Wrapper)以及对时间信息的处理等等。

在应用方面，信息抽取应用的领域更加广泛，除自成系统以外，还往往与其他文档处理技术结合建立功能强大的信息服务系统。

至今，已经有不少以信息抽取技术产品为主的公司出现，比较著名的有Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。

目前，除了强烈的应用需求外，正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究所（NIST）组织的自动内容抽取（ACE, Automatic Content Extraction）评测会议。这项评测从1999年7月开始酝酿，2000年12月正式开始启动，从2000年到2007年已经举办过好几次评测。这项评测旨在开发自动内容抽取技术以支持对三种不同来源（普通文本、由自动语音识别ASR得到的文本、由光学字符识别OCR得到的文本）的语言文本的自动处理，研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容，即对新闻语料中实体、关系、事件的识别与描述。与MUC相比，目前的ACE评测不针对某个具体的领域或场景，采用基于漏报（标准答案中有而系统输出中没有）和误报（标准答案中没有而系统输出中有）为基础的一套评价体系，还对系统跨文档处理（Cross-document processing）能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。

国内对中文信息提取系统的研究起步较晚，还集中在命名实体识别方面，遵照MUC规范的完整的中文信息提取系统目前还处于探索阶段。Intel中国研究中心在ACL-2000上演示了他们开发的一个抽取中文命名实体以及实体间关系的系统。在MUC-6和MUC-7上，增加了中文系统的评测项目，国立台湾大学(National Taiwan University)和新加坡肯特岗数字实验室参加了MUC-7中文命名实体识别任务的评测，测试了中文命名实体(人名、地名、时间、事件等名词性短语)的识别，取得了与英文命名实体识别系统相近的性能。当然这只是对中文信息提取作了比较初步的工作，并不能真正进行中文信息提取。另外，北京大学计算语言所对中文信息提取也作了比较早的和比较系统的探讨，承担了两个有关中文信息提取项目的工作，即自然科学基金项目“中文信息提取技术研究”和IBM——北大创新研究院项目“中文信息提取系统的设计与开发”。其目标是研究中文信息提取中的一些基础性和关键性的问题，为开发实用的信息提取技术提供理论指导，并具体探讨信息提取系统设计的各个环节。

（五）研究的热点和趋势

从目前的研究和应用情况看，信息抽取系统的性能和可移植性仍然是制约web信息抽取技术广泛应用的两个主要瓶颈。信息抽取的准确率，对不同语言和不同类别的文本的适应性还有待提高，在自然语言处理中的核心问题仍未完全解决，而且与国外相比，我们在信息抽取系统的研究上仍存在很大的差距。

因此，以下问题将是今后Web信息抽取技术研究的热点问题：

1.如何提高Web信息抽取系统抽取范围的全面性。

2.如何简化学习过程，提高自动化程度。

3.如何提高系统对新网页的适应性，增强系统对Web信息抽取的适应性。

4.如何加强对已有抽取规则的归纳，提高系统的抽取效率和准确性。

5.Web上的信息和网页结构处于不断的更新和变化中，因此应如何感知Web信息和结构的更新变化。

6.目前的Web信息抽取工具一般都是通过学习之后可以对结构相似的一类网页进行抽取，因此应如何判断结构相似，如何提高系统的性能、可移植性的设计以及适应多语种的能力。

7.在中文Web信息抽取系统的研究方面，应如何借鉴国外比较成熟的系统构建技术，并结合汉语的特殊性，充分利用一些基础的汉语研究成果来构建高效、精确的中文Web信息抽取系统。

（六）结束语

Web信息抽取是目前最活跃的研究领域之一，特别是经过最近十几年的发展，Web信息抽取作为一种能帮助人们在海量信息中迅速找到所需信息的技术越来越受到重视。尽管目前该领域研究已经取得了一定的进展，但仍然存在一些问题有待解决。相信随着领域专家对Web信息抽取领域的研究的逐渐深入，难题逐渐被解决，越来越多的好技术应用到该领域，Web信息抽取技术必将得到更大的发展和更广泛的应用。

[1] 刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9.

[2] 柳佳刚,刘高嵩,贺令亚,陈山.基于Web 的信息抽取技术现状与发展[J].福建电脑,2007(7):48-49.

[3] Ping Zhong; Jinlin Chen; Cook T.;“Web Information Extraction Using Generalized Hidden Markov Model”, Hot Topics in Web Systems and Technologies, 2006. HOTWEB'06. 1st IEEE Workshop on 13-14 Nov.2006 Page(s):1-8

[4] Ping Zhong; Jinlin Chen;“A Generalized Hidden Markov Model Approach for Web Information Extraction”Web Intelligence, 2006. WI 2006. IEEE/WIC/ACM International Conference on18-22 Dec. 2006 Page(s):709-718.

TP393.02

1008-1151(2010)04-0048-02

2010-01-20

李斌（1980－），男，辽宁西丰人，中国医科大学附属第一医院（辽宁沈阳）信息中心助理工程师，研究方向为计算机网络交换路由技术、数据仓库等。