图形检索技术在知识产权领域的应用空间探索

2014-06-06 13:20陈昕
卷宗 2014年4期
关键词:应用分析知识产权

陈昕

摘 要:如今随着知识产权在社会经济生活中扮演着越来越重要的角色,无论是政府、企业、还是专门从事知识产权业务的事务所和律师事务所,都会越来越频繁地使用到信息检索技术来对相关的知识产权数据库进行检索。但由于目前该领域所应用的技术仅停留在基于文字和语义来检索,对于检索很多以图形图像为主要表征的知识产权信息而言效率不高,同时为了得到准确的检索结果也对检索人员的技术水平有较多依赖。

近年来,随着基于内容的图形检索技术发展日趋成熟,已经很大程度上实现了基于图像的内容对图像数据库进行检索的要求。本文旨在通过将知识产权检索领域的技术需求特点和图形检索技术的发展现状进行对比分析,进而探索图形检索技术在知识产权领域的应用空间、环境条件和愿景。

关键词:图形检索;知识产权;应用分析

知识产权信息的管理和应用在社会经济飞速发展的当今世界扮演着越来越重要的角色,并为各国政府、企业所愈发关注和重视。知识产权也逐步发展成为推动科技发展和经济增长的巨大动力。出于维护自身经济权利和降低运营风险的需要,越来越多的企业专门组建了知识产权团队,甚至斥资购买了专门的数据库系统查询账户,在对企业自有知识产权进行管理之外,利用相关的数据库系统对其关心的技术点进行检索排查,以达到降低知识产权侵权的风险,进一步指导产品和技术研发方向。同时也能更好地维护企业和技术人员的合法权益。

知识产权专业的数据库系统主要分为政府和商业两类,前者主要为公众利益免费对外开放,后者则以企业商户为服务对象,打造特殊需求的系统产品。不同于其他的数据库产品,知识产权数据库有其独特的属性:首先,收录信息全,知识产权系统必须收录针对某一或某些固定范围的全面数据,这是知识产权检索的前提和基础;其次,知识产权系统检索,特别是侵权排查检索,其检索属性为查重检索,即以发现相同或相似数据记录为目标;再次,即检索结果的严肃性,此类数据检索结果将直接对企业的研发工作乃至知识产权相关诉讼的结果产生影响。因此,针对服务于知识产权领域的数据库系统,无论从数据收集,更新频率,数据加工,检索方案和交互设计等方面,都提出了很高的要求。

目前的数据库产品,如汤森路透公司的Thomson Innovation和律商联讯公司的Total Patent等专利数据库,从检索使用的友好度上,对专利数据进行了不同程度的加工。如为了尽量避免由于用户关键词选择不当所导致漏检,对专利数据中出现的关键技术词汇,进行解释性改写,这样一来将会出现更多词语表达同一关键语义,大大提升了用户文本检索的准确程度。

尽管如此,文本检索仍然很大程度上依赖于检索人对于技术的理解和语言的表述能力。对于图形商标、产品外观设计以及较难描述的专利描述图的检索而言,则带来了很强的检索难度。特别是电子商务企业,由于商品种类繁杂,为了保证上架商品的法律安全,不得不花费很大精力变换不同关键字和检索策略,反复进行文本检索。例如当需要对一款丝网产品进行检索时,首先需要变换使用mesh, wire, fence等不同关键词进行文本检索,然后再针对海量的检索结果中的图形信息,比照原有的图形,逐一进行对比分析,但往往收效甚微。此时得以看出,传统的文本检索,已经无法满足这种新型的检索需求。如果能够将日趋成熟的图形检索技术加以应用,使用户可以直接输入图像,就可以在数据库系统中对满足相似度要求的图像的内容直接进行检索,相信检索效率和精度都将大幅度提升。

有关计算机图形检索技术,大致分成两类,基于文本的图形检索(Text-based Retrieval,简称CBR)和基于内容的图形检索(Content-based Retrieval,简称CBR)。其研究早在20世纪70年代就已经开始。在检索原理上,主要包括三方面:第一,对用户需求的分析和转化,形成可以检索索引数据库的提问;第二,收集和加工图像资源,提取图形特征,分析并进行标引,建立图像的索引数据库;第三,根据相似度的算法,计算用户的提问与索引数据库中记录的相似度,然后提取出满足取值范围的记录作为结果输出,再按照相似度以降序的方式列表输出显示。考虑到要保证检索的精度,许多系统结合相关反馈技术来收集用户对检索结果的反馈信息,这在CBIR中显得更为突出,因为CBIR实现的是逐步求精的图像检索过程,在同一次检索过程中需要不断地与用户进行交互。

基于内容的图像检索根据图像、图像的内容语义以及语境联系进行查找,以图像语义的特征为线索从图像数据库中检出具有相似特性的其它图像。因为图像的内容规模一般要大于纯文本信息,因此,基于内容的图像检索在检索的速度和效率上要求更高。目前已有很多应用于实践环境的基于内容的图像检索数据系统,如由IBM公司开发的最早商业化QBIC系统,以及由哥伦比亚大学研发的WebSeek系统、麻省理工学院研发的Photobook系统,以及Goodgle公司和Baidu公司推出的图形内容检索的产品等。

从技术层面,一个完整的图形检索过程大致包含以下三个步骤。首先,在检索中要做的就是要对图形的特征进行提取。可提取的特征可以包括颜色、纹理、平面空间对应关系、外形,或其他数据特征等。 图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)两类。视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状;后者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。其次就要对检索过程中算法所依据的相似性进行定义从图像中提取的特征可以组成一个向量,两个图像之间可以通过定义一个距离或者相似性的测量度来计算相似程度。最后,就要弥补语义鸿沟。在传统的基于文字的查询技术中,不会存在这个问题,因为查询关键字基本能够反映查询意图。但是在基于内容的图像查询中,就存在一个底层特征和上层理解之间的差异。主要原因是底层特征不能完全反映或者匹配查询意图。弥补这个鸿沟的技术手段主要有:相关反馈(relevance feedback):按照最初的查询条件,查询系统返回给用户查询结果,用户可以人为介入(或者自动)来选择几个最符合他查询意图的返回结果(正反馈),也可以选择最不符合他查询意图的几个返回结果(负反馈)。这些反馈信息被送入系统用来更新查询条件,重新进行查询。从而让随后的搜索更符合查询者的真实意图。

不难看出,虽然图形检索的发展,从技术上已经可以满足知识产权领域的应用需求。但是从原始数据收集的角度看,仍然有很长的路要走。具体说,就是各国政府和相关机构在核准商标、外观设计、专利等技术文件时,需要对目标项进行统一标准的图像留档。如此,才有可能广泛应用图形检索技术,更有效地在世界范围内推动科技和贸易的健康发展。

猜你喜欢
应用分析知识产权
Mesenchymal stromal cells as potential immunomodulatory players in severe acute respiratory distress syndrome induced by SARS-CoV-2 infection
重庆五大举措打造知识产权强市
关于知识产权损害赔偿的几点思考
试析翻译理论在翻译实践中的应用
绿色化学理念下的初中化学教学探究
新型传感器在汽车技术中的应用分析
知识产权为“互联网+”护航
知识产权