欧专局检索系统与我国现用检索系统的对比

2019-03-11 23:47刘佳秋李鹏
中国信息化 2019年2期
关键词:检索分类号文献

刘佳秋 李鹏

对文献分布的掌握程度决定了专利分析的精准程度,正确的文献数据是专利分析的前提,检索系统是获得文献数据的基础,因此检索系统是决定专利分析正确与否的关键因素之一。

在专利检索、数据分析方面,欧专局有着绝对的权威性,这离不开欧专局专业的检索系统。EPOQUE NET 4.5是欧专局近期主用的一个在线检索系统,可检索专利文献和非专利文献,笔者通过与欧专局的专项交流,学习和了解了一些EPOQUE NET 4.5系统的新功能,简单介绍如下,供检索人员参考。

一、COMBI(联合检索)

COMBI是同族和相关文献的联合检索。COMBI主要功能是查找参考文献,包括查找同族、引证和被引证文献等。其中查找同族,包括查找广义同族和精细查找狭义同族,同时可以根据需要将广义同族和狭义同族进行区分。对于引证和被引证文献,COMBI的追踪十分全面,给出的文献信息也较以往检索系统的结果更为完整,例如给出了文献的分类号和它们出现的频率,其中的分类号可以链接到+Cla分类模块用以查看分类含义。COMBI的作用主要体现在预检索功能上,用于在检索开始阶段或者检索过程中,追踪输入文献及其同族的引用文献、引用该输入文献或其同族的文献、申请人引用的文献、以及其他引用文献等,并提供这些文献的分类号以便审查员检索时使用。

COMBI不仅给出输入文献及其同族在EPODOC库和NPL库中的引用和被引用文献,还给出了申请人引用的文献以及在申请人引用里面引用了输入文献的文献以及输入文献及其同族之外的所有其他文献引用或被引用文献。

如图1所示,COMBI还可以将追踪到的文献进行拆分和排序。拆分(split)时,通过限定优先权日和申请日,将追踪到的文献区分成现有技术、中间文件和在后文件,还可以进一步利用其它条件(例如是否包含某一分类号)做拆分。

排序(rank)时,可以按照文献或者其族成员的公开日(publication date)、相关性(relevance(number of hits))或者文献在EP申请中被引用的频率(the frequency of a document as cited document in EP applications)来进行排序,以便将可能更重要的文献优先显示给用户。

二、X-Full(全文检索)

X-Full是全文检索模块,它支持同时在多个数据库中进行检索,并且可以在不同的分类号、不同的语言和不同的数据库之间进行并行检索,这种方式的优势在于大大减少了检索人员输入检索式的次数,由此提高检索效率。

如图2所示,X-Full界面纵向分成三栏,其中第一栏(最左面一栏)最左面各种检索条件之间的关系为“OR”运算;第二栏(中间一栏)检索人员可根据需要输入检索词,该输入支持三种语言:英语、法语和德语,各检索词之间的关系是“OR”运算,不同语言的检索词之间也是“OR”运算;第一栏的检索条件与第二栏的检索条件之间是“AND”运算关系,检索历史和检索命中数在第三栏显示。

X-Full分为常规检索和面检索两种方式。常规检索就是在上面的三栏中输入相应的检索信息,按照用户输入的指令进行检索;面检索是根据用户输入的各个概念组成检索要素自动进行检索要素之间的组合尝试,给出不同检索组合的结果。

也就是说,面检索(Facet search),是通过建立多个概念(Concept),即构建多个“块”,通过系统进对这些块的组合进行检索。例如,构建了3个块,那么系统就会给出,同时包含3个块的检索结果、只包含其中2个块的检索结果、只包含1个块的检索结果,由此减少人工输入,提高检索效率。

三、Figure link(附图链接)

在多数的现有附图浏览方式中,我们无法通过附图直接获得附图标记的含义,而是要通过阅读摘要或者全文获得这方面的信息,这大大增大了浏览和筛选文献的成本。在EPOQUE NET 4.5中,检索人员通过viewer进行附图浏览时即可同时获得附图标记的含义,即如图3所示,附图中可以同时显示附图标记所指代的部件名称,并且还可以在左边文本栏内,高亮显示出现该部件名称的位置(如图4红色高亮所示)。这有助于检索人员直接获得与该附图标记相关的段落文字內容,而省去了拖动和浏览全文寻找相关段落的时间,由此提高文件浏览和筛选速度。

四、算符 UG和OG

在欧专局提供给我国的SEA2013的检索系统中,审查员常用的“与”检索包括使用“and”的粗检索和利用同在算符“w ”和“d”进行的绝对精细检索,但没有关于在数据标引层面上的检索算符的介绍。EPOQUE NET 4.5中的算符UG……和OG……弥补了这方面的空白。算符UG……表示在指定n个条件的帧/窗口的数据库句子(数据库句子不同于自然语言的句子)中不考虑顺序的检索;OG……指在指定n个条件的帧/窗口的数据库句子(数据库句子不同于自然语言的句子)中考虑前后顺序的检索,也就是考虑term1、term2、term3……的出现顺序。

例如:

20UG semiconductor, junction, surface

表示把在20个帧/窗口的数据库句子中同时出现semiconductor, junction, surface这三个词(不管这三个词哪个词先出现,也不管它们的出现顺序)的文献检索出来。

可见,用UG和OG检索比用算符AND检索的结果更精准,噪声更少,检索出来的文献相关度也会相应高些,另外算符UG和OG比算符W/D、P/L的限制少,那么满足检索条件的检索的结果更多,由此可以减小漏检的几率。因此,利用UG和OG检索,是介于粗检和绝对精检之间的检索方式,有助于获得更真实的检索数据。

五、T-fly(在线文献翻译)

T-fly是指在线的多国语言之间的互译,用于弥补语言上的障碍。“T-fly”用于实现31种语言与英语之间的互译、以及28种语言(除中文、日文、韩文)与德语/法语之间的互译、还包括从Google、SIPO、JPO和KIPO外网提供的翻译软件获得译文。但是目前多数文献还不能自动翻译为中文,这一点有些遗憾。

通过使用EPOQUE NET 4.5可以发现,EPOQUE NET 4.5中的COMBI、X-FULL等功能的设计确实为检索人员提供了便捷的检索方式,期待有越来越多的人使用EPOQUE NET 4.5,也希望能出现越来越多的优秀检索系统共检索人员选择和使用,以利于更精准的做出专利分析和预警。

总之,EPOQUE NET 4.5采用的是通过互联网进行在线信息收集收取检索费用的方式,目前基于“使用中用户数量(the number of active users)”和“执行的数量(the number of transactions)”两个因素进行收费。“使用中用户数量”指的是,在一个年度里,访问检索系统的已注册用户数量。该项数据主要根据用户ID(user ID)来计算,系统不支持同一个用户ID同时在不同机器上登录。“执行的数量”包括“检索交互的数量(query interactions)”和“其他交互的数量(other interactions)” 。15个“其他交互”的费用等同于1个“检索交互”的费用。“检索交互的数量”通常是指检索式的数量。“其他交互的数量”通常指输入的命令,例如,显示数据库列表或者限制检索范围的命令。这些计费方式為我国检索系统计费标准的制定提供了很好的参考和借鉴。

猜你喜欢
检索分类号文献
Hostile takeovers in China and Japan
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
英国知识产权局商标数据库信息检索
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
A Study of Chinese College Athletes’ English Learning
The Role and Significant of Professional Ethics in Accounting and Auditing