PubMed和PQD在医学科技查新中的应用研究

2021-12-30 21:46金新建
内蒙古科技与经济 2021年23期
关键词:查新生物医学主题词

金新建

(安徽医科大学 图书馆,安徽 合肥 230032)

生物医学科技查新是指查新员通过分析查新委托人提供的查新点和科学技术要点,提炼检索词,构建检索策略(检索式),通过检索生物医学相关专业数据库,获取与课题相关的生物医学文献,阅读文献的摘要或全文,筛选出部分文献进行对比分析,并对课题的创新点进行国内外有无相关文献报道的判断。为生物医学相关课题立项、医学科技成果的鉴定、评估、验收、转化、奖励等提供客观依据[1],防止重复研究开发而造成国家人力、财力和物力的巨大浪费,且为生物医学科技人员进行研究开发提供可靠而丰富的生物医学相关信息。

PubMed和ProQuest Dialog(简称PQD)是生物医学科技查新中非常重要的两个数据库,但在各查新站实际操作中,有些查新站认为生物医学查新仅需要检索PubMed,更多的查新站在进行生物医学查新时,为了节省时间,只在PQD中进行检索,认为PQD中已经包含有Medline,不需要再单独进行PubMed检索。作为医学查新站专业查新员,笔者认为有必要对PubMed和PQD数据库及其在医学查新中的应用进行研究。

1 数据来源

PubMed和PQD数据库相同点是都是文摘型数据库,都包含生物医学专业非常重要的《美国生物医学文摘》(Medline)数据库。不同点是PubMed收录的是生物医学和生命科学的文献,而PQD是个包含生物医学、化学、农业等学科数据库的综合性检索平台,还包含有大量的专利数据。

PubMed是美国国家生物技术信息中心(NCBI)开发的基于WEB的生物医学信息检索系统,PubMed是一项免费资源,支持检索生物医学和生命科学文献,以改善全球和个人健康。数据主要来自生物医学和健康领域,以及如生命科学、行为科学、化学科学和生物工程等相关学科。PubMed医学文献检索服务系统数据来源主要有Medline、Pre-1966 citations、 In-process citations、“Ahead of Print” citations、Record Supplied by Publisher、PubMed Central(PMC)等等,可见PubMed数据库的收录范围要远大于Medline。PubMed数据库包含3 000万份生物医学文献的引文和摘要,不包括全文期刊文章,但部分文献可以从其他来源(如文献发表期刊网站或PubMed Central)获取到全文的链接。PubMed数据除了来自Medline数据库,还包含一些最新的在线出版(Online)文献和早于1966年的文献,也包括由出版商提供的非Medline收录范围的生物医学方面的文献和虽然是Medline收录范围内的文献但还没来得及进行主题词标引,Medline暂时未收录的文献。由此可见,不能简单地认为PubMed收录的文献一定是Medline收录的文献。

ProQuest Dialog是ProQuest公司旗下的国际联机检索系统。包含97个科技数据库和40个专利数据库,涉及电信与计算、工程与技术、航空航天与国防、化学、金融服务、能源与环境[2]、汽车、食品与农业、卫生保健、诊断与医疗器械、制药与生物医学等行业[3],其中生物医学相关的数据库有BIOSIS Previews、Embase、MEDLINE、New England Journal of Medicine、Global Health、 Nucleic Acids Abstracts等;药学方面的有BIOSIS、IMS系列、Adis系列等数据库,几乎包含了全球主要的生物医学与药学方面的数据库。ProQuest Dialog还包含SciSearch、Social SciSearch、Current Contents Search等全球重要的综合性数据库,以及31个国家的专利全文数据库和世界著名的Denwent World Patents Index、INPADOC等专利数据库。

2 检索语法

PubMed检索语法包括逻辑算符(AND、OR、NOT)、截词符(用*表示)、短语检索(用双引号“”表示)等。PubMed具有自动转换匹配功能,对于输入检索框中的检索词,PubMed将按照MeSH转换表(MeSh Translation Table)、期刊刊名转换表(Journal Translation Table)、短语表(Phrase List)、作者索引(Author Index)等顺序进行对照、匹配和转换,然后再进行检索。要检索某个单词开头的所有术语,可以在单词后加截词符“*”。如果检索包含截词符的短语,需要使用以下3种格式:①将短语用双引号引起来,如“breast feed*”;②使用字段限定检索,如breast feed*[tiab];③使用连字符,如breast-feed*。短语检索和截词功能会关闭PubMed的自动转换匹配功能,也不再进行MeSH词的扩检。

ProQuest Dialog 检索语法包括逻辑算符(AND、OR、NOT)、通配符和截词符(用?和*表示)、位置算符 P/n(PRE/n)和N/n(NEAR/n)、精确检索(用引号“”表示)。PQD对输入检索框中的单词自动进行单复数、英美拼写变体等形式的匹配。利用“”进行精确短语检索,如输入 “electric vehicle”,只能检索出 electric vehicle。在PQD中,常用的通配符为“?”,一个问号代表一个字符,如检索nurses或nursed ,检索词可用nurse?表示。截词字符“*”用来检索检索词的变体,比如复数形式、比较级、最高级、英美变体等形式,可用在检索词开头、结尾或中间,可代替0-10个字符,如检索*old 可找到:old、bold、 household等检索结果(这些词具有共同的词根old)。限定截词[*n]或$n,可替换多达指定字符数的字符,如检索old、bold或hold,可用$1old或[*1]old,表示old前面可出现0-1个字符数。PQD位置算符有N/n(near/n) 和P/n (pre/n)两种,n表示字符个数。其中P/n (pre/n)查找相邻位置的两个检索词(两检索词位置不可换)的文档,如:nursing P/0 education 两个单词中间一个空格或字符,nursing P/4 education 两个单词中间0-4个字符,两检索词前后位置不能互换;N/n(near/n)查找相邻位置的两个检索词(位置可互换)的文档,如nursing NEAR/0 education 两个单词中间一个空格或字符,两检索词前后位置可互换。

PubMed和PQD检索语法中都包含逻辑算符(AND、OR、NOT)、通用截词符(用*表示)、精确检索(用双引号“”表示)等常用检索语法。PubMed强大的检索词自动转换匹配功能,有利于查新时的查全;PQD的限定截词和位置算符等特定检索语法,有利于查新时的查准。

3 检索途径

PubMed提供多种检索途径,包括:基本检索、主题词检索、高级检索、限定检索、引文匹配检索等,支持逻辑运算检索和检索词自动转换匹配功能。基本检索:在检索框中输入任何具有实质意义的词,包含自由词、主题词、人名和期刊名等,系统会自动进行匹配检索,输入多个检索词时,系统会自动识别成词组进行检索,系统也会默认成单个单词,每个单词之间的空格默认为AND组配。如可以将Protein Disulfide Isomerase识别成一个词组,也会将其识别成Protein AND Disulfide AND Isomerase,如果出现数字等符号时,不易识别成词组,对PubMed不能识别的词组,需使用引号(半角状态下)标记词组,如"t-PA"。PubMed使用美国医学图书馆编制的医学专题词表(MeSH)对收录的文献进行主题标引,主题词检索是PubMed特有的检索途径,可选择规范化主题词、副主题词、查看词义注释、浏览树状结构表等。PubMed能自动地为输入的检索词寻找相应的MeSH词,查新员可以根据课题挑选合适的副主题词,选择全部副主题词和主题词扩检来扩大查新范围等。这种强大的检索功能非常有利于科技查新中文献的查全。PubMed检索界面很友好,检索途径和检索方式简单,非常容易掌握,医学院校文献检索课中都会讲授PubMed数据库,所以大多数的医学科技工作者都会熟练运用PubMed。医学查新站的查新员大多具有医学专业背景,且有些查新员本身就是医学文献检索课教师,能非常熟练的应用PubMed数据库进行科技查新。

PQD提供基本检索、高级检索和命令行检索(指令检索)。其中指令检索最为全面:可一次输入多个检索式同时检索;检索式可换行分步检索;检索集可以与检索集运算;检索集可以与检索词运算;检索集可以与检索式运算。这种指令检索非常方便地用于检索策略的调试和完善。PQD提供的检索途径和检索语法较为全面,非常适合科技查新工作要求的在查全的基础上查准,但由于PQD包含97个科技数据库和40个专利数据库,这么多的数据库要在一个统一平台进行检索,且PQD收费较高,所以对查新员的检索能力也有相当高的要求,特别是选择检索词和构建检索策略的能力方面,查新员要经过培训和长期查新实践后才能熟练掌握PQD。

PubMed和PQD都提供多种检索途径,PubMed的主题词检索优势在于其通过主题词字顺表和树形结构表对语法信息和语用信息的深度揭示,达到了人机对话中对语义信息的准确把握,获得了高效率的医学文献检索结果[8];适合专业检索人员的PQD指令检索虽然看起来烦琐和不易掌握,但作为查新员,一旦掌握,能很好地提高查新效率。

4 检索收费

PubMed免费提供题录和文摘,其中PubMed Center(PMC)部分能免费获取全文,且不受时间和IP地址的限制,只要有互联网就可以进行免费检索,查看、下载题录和摘要。

PQD一般是由查新机构购买的联机检索系统,有并发用户限制,由于PQD收费较高,一般查新机构采用的大多是包库,每年缴纳固定费用,用于免费检索、查看检索结果列表、预览题录和部分摘要内容。检索结果列表仅包含题名、出版年份和来源数据库等,如果不想产生额外费用,查新员可以通过题名或来源数据库信息再去相关数据库检索,获取摘要或全文信息,但如从其他数据库无法获取相关信息,通过PQD查看或下载引文、摘要、全文都是要额外收费的,PQD会根据数据库和查看下载的格式不同,提供不同的收费标准,且每次收费之前都会弹出价格预览,查新员可以根据需要进行取舍[3]。

5 对科技查新的影响(检索实例)

检索实例1 :ZSWIM3的*研究

检索时间:2020年9月27日

检索词:ZSWIM/Zinc finger SWIM/Zinc-finger SWIM

检索字段:在题名和摘要字段中检索

PubMed检索式:Zinc finger SWIM[Title/Abstract]OR Zinc-finger

SWIM[Title/Abstract] OR ZSWIM[Title/Abstract]

PQD检索式:ti,ab(Zinc p/1 finger p/0 SWIM OR ZSWIM)

检索结果:PubMed共检出11篇文献;PQD共检出19篇文献

对比两个数据库的检索结果,同样的检索词和检索式,都是限定在题名和摘要字段中进行检索,PubMed只检出11篇文献,PQD则检出19篇文献,对比两个数据库的检索结果发现,有10篇是重复的,PubMed中检出的11篇文献中,只有1篇2020年最新发表,出版状态为Epub的这篇文献在PQD中未检索到,ProQuest Dialog中有的,PubMed中未检出的,大多是另一重要的医学数据库《荷兰医学文摘》(Embase)收录的文献。经过阅读摘要或全文发现,PubMed中检出的那篇Online文献,与该查新课题非常相关,可见如果查新时仅仅检索PQD,就会漏检部分最新文献。

检索实例2:通过全外显子测序技术筛选特发性非梗阻性无精子症的致病基因

检索时间:2020年11月19日

检索词:Nonobstructive azoospermia/non-obstructive azoospermia/NOA/idiopathic azoospermia;idiopathic;gene;Whole exome sequencing/WES

PubMed检索式:(Nonobstructive azoospermia[Title/Abstract] OR non-obstructive azoospermia[Title/Abstract] OR NOA[Title/Abstract] OR idiopathic azoospermia)[Title/Abstract] AND idiopathic[Title/Abstract] AND gene[Title/Abstract] AND (whole exome sequencing[Title/Abstract] OR WES)[Title/Abstract]

PQD检索式:ti,ab((Nonobstructive p/0 azoospermia OR non p/1 obstructive p/0 azoospermia OR NOA OR idiopathic p/1 azoospermia) AND idiopathic AND gene$ AND (whole p/0 exome p/0 sequencing OR WES))

检索结果:PubMed检出文献 4篇,其中3篇与PQD重了,只有最新的1篇出版状态为“Online ahead of print”的在PQD中未检索到;PQD中检出11篇文献分别来自Embase(11篇)、Medline(5篇)、SCI(2篇)、Current Contents(2篇)、Northern Light Life Sciences Conference Abstracts(1篇)等数据库。由此可见,PQD在医学科技查新中的重要性。

6 总结与建议

教育部科技查新工作站查新报告撰写规范对查新工作的文献检索范围有明确要求:中外文数据库检索必查数据库均不少于10个,有些查新项目(如产品类查新)可进行互联网等其他方式的补充检索,网络数据库资源足够丰富的查新机构,可以基于自有的网络数据库开展查新。如果必查综合数据库(通用基本数据库)或专业数据库欠缺,须采用国际联机进行补充检索[2~7]。文献检索范围越大,查全率越高,查准率必然下降,所以需要根据查新课题选择合适的数据库进行检索。

PubMed检索方法很容易掌握,检索途径多,可免费进行检索,免费查看题录和摘要等信息,部分还可免费获取全文,但如果医学查新时仅仅使用PubMed检索,课题的检索范围会过于狭窄,无法保证查全率,如果医学查新时没有对如 Inspec、BIOSIS Previews、SCI、EMBASE等这些国际知名数据库进行检索,文献检索范围得不到保证,不符合教育部科技查新工作站查新报告撰写规范对查新工作的文献检索范围提出的数据库要求,无法保证查新质量。而PQD联机系统检索费用较为昂贵,尽管各医学查新站团购了PQD,但除检索不收费外,其他查看和下载还是需要额外付费。尽管现在PQD检索途径和检索式的编写已经得到很好的优化,但高昂的查看和下载费用在一定程度上限制了它在科技查新中的应用。另一方面,虽然在PQD和PubMed都收录了Medline数据库,但PQD除了Medline,还包括Embase、BP等相当多的医学和其他相关专业数据库;PubMed除了Medline还包括了相当部分最新文献和非Medline收录文献,这部分恰恰是PQD所缺乏的文献。

作为教育部科技查新工作站(医学),笔者经过长期实践,并且在深入研究PQD和PubMed的基础上,认为在医学科技查新工作中这两个数据库应同时进行检索,缺一不可,必要时还需要查询其他馆藏资源和网络数据库进行补充。PubMed如果限定字段检索,系统就会关闭自动转换匹配功能,查新员可以根据检出课题相关文献的数量选择是在全字段检索还是在限定字段中检索,笔者经过长期实践摸索,在进行PubMed检索时通常采用在所有字段中进行检索,在PQD中通常采用在题名和摘要中进行检索,这样互为补充的检索,既可查全,又很好地兼顾了节省费用和查准。为了节省PQD的检索费用,通常是先在PubMed中进行检索,通过查看主题词和摘要信息,选择规范的检索词,构建合适的检索式,再按照PQD的检索语法构建检索策略,检索到相关文献题名后再去馆内已有资源查看下载摘要等信息,根据课题的相关性选择对比文献,最终完成查新报告。

猜你喜欢
查新生物医学主题词
广西医科大学生物医学工程一流学科建设成效
蝾螈的皮肤受伤后可快速愈合
灵长类生物医学前沿探索中的伦理思考
高校图书馆科技查新现状分析
智能传感器的智慧战略,新技术创造新价值
生物医学大数据的现状与发展趋势研究
科技查新检索服务工作的优化问题探讨
科技查新工作问题发现及应对
取消公文主题词的真正原因是什么?
公文主题词消失的原因浅析