浅释专利分析平台大数据技术的应用

2021-06-07 22:45史洁蔷
成功营销 2021年2期
关键词:专利分析数据挖掘

摘要:企业拥有有效专利量日趋增长的今天,高效且有针对性的专利分析已备受关注。本文从智能语义检索;数据挖掘、预测性分析;以及多元可视化展示三个方面,分别以Patentics的语义检索、本应科技的技术监控系统和技术排名算法、东方灵盾的世界传统药物专利数据库、以及WIPS Global的词云检索等专利分析平台技术,浅释有效的专利分析技术在企业发展中的应用。

关键词:专利分析;语义检索;数据挖掘;专利分析可视化

截至2020年底,我国发明专利有效量为221.3万。国内拥有有效发明专利的企业共24.6万家,较上年增加3.3万家。其中,高新技术企业10.5万家,拥有有效发明专利92.2万件,占国内企业有效发明专利拥有量的近六成。专利信息作为世界上最大的技术信息源,企业承载着其中逾二分之一的专利信息量。可见,企业对专利信息能否做到有效分析和利用,是否能够满足企业技术创新过程中的情报需求,已是企业生存和发展至关重要的一步。

專利分析通常是指对专利文献进行数据挖掘、加工、统计处理,进而获取符合分析目标要求的有价值信息,主要应用包括专利导航、专利预警、专利布局、专利评估、技术规避、侵权分析等。对于企业来说,专利分析的价值充分体现在产品研发、企业战略、权利保护等等方面[1]。随着专利分析手段的日趋成熟和普及,专利分析已经越来越被认可与重视。

专利分析一般包括数据采集处理、专利分析、报告形成及展示。由于专利分析的源数据所包含的信息量巨大,第一步需要借助分析工具,以人工的方式,分别在数据采集阶段,完成技术分解、检索和数据加工;在检索过程中需要凭借分析人员的经验与检索能力,制定相应的检索策略、筛选检索要素、去除噪声等等。以上诸多步骤和人为的主观因素,无疑会导致专利分析的高成本和高门槛。由于专利分析的必要性和局限性,在未来,基于大数据技术、数据挖掘以及分析结果的拓展应用将是发展趋势[2]。

1智能语义检索

专利文献均采用自然语言撰写而成,而现今的计算机所采用的计算机语言,决定了传统的检索系统只能自动识别字符层级的信息,面对专利文献包含有大量同义词、近义词,特别是较为复杂的上下文关系时,计算机无法有效理解专利文献中的文字含义,在进行专利文献检索匹配时,获取的结果中通常掺杂有大量噪声,因此无法摆脱人工而实现计算机独立工作,仅仅是提供有限的辅助。而通过大数据的方法,能够为具有语义分析功能的计算机提供巨量的核心词汇、关键词库和语义模型,也能向语义分析模型提供更加全面准确的巨大数量级的训练样本,使计算机能够从语义层级理解输入的文本信息,从而,获得最适合最准确的检索结果。借助基于大数据的图形语义分析方法,还可能实现智能高效的图形化检索。

以索意互动信息技术有限公司的专利智能检索分析平台Patentics为例,Patentics具备的语义检索功能,是通过对每篇专利进行上万维度的描述,基于对语义模型进行千万数据量的训练,从而完成自动理解专利文本,并结合自动的词汇扩展和IPC分类核准,同时综合新颖性、侵权等信息,来实现智能语义检索功能的。利用语义检索,可以及时发现竞争对手和技术人才,也可以应用于检索、分类、分析、标引等各个环节,无疑可以提高工作效率。在Patentics平台中采用专利号进行检索,可以获得60%的X文件,X文件出现在结果中第一位的概率是9.76%,出现在第二十位的概率是29.55%,出现在前一百位的概率是45.34%[3]。

除此之外,Patentics将语义检索与大数据分析功能,以及互动图表和多视角的可视化显示相结合,可以满足不同检索需求,从而更大程度的减少对专利分析人员的依赖,提高检索准确度,提供更多角度的分析结果,降低分析成本。

2数据挖掘、预测性分析

大数据分析的核心在于数据挖掘算法,借助大数据分析工具,可以通过预测性分析,从大数据中得出规律性信息,进而发现有价值的内容,比如包括对手公司、机构、专利权人及其对手公司公开发表的著作、发起的标准、商业往来、金融运作等信息,将专利信息与其他相关信息相关联,多维、全面的预测目标对象的专利、技术及其行业发展方向,这样能够最大程度避免由于专利公开的滞后对专利分析结果造成的影响,从而将专利分析结果与产业结合的更加紧密。

以本应科技(Lontologie)为例,通过其拥有的技术监测系统可以实时监测全球重点产业和关键领域的最新动态,以使企业做出快速反应,抢占先机。该技术放弃了通过行业、专利、图书文献的分类、检索、统计等传统方法,而是利用科学技术知识图谱,对科技成果和信息进行多维分类,并重新整合科技成果和科技要素,同时,预判未来技术发展方向、机构研究动向、技术爆发点、关键变革技术等。可以做到实时跟踪世界主要国家和地区的科研项目资金流向、研发合同及预算、创新主体、战略高技术动向等,从而有可能及时提供全球颠覆性前沿技术等重要科技情报,以更好的支撑企业的战略布局。

该公司的另一技术是超高维时空下复杂技术网络排名算法,该算法通过构建自然科学和工程领域的技术实体之间的互动、派生和演进关系的时空网络,分析影响技术演进和创新的核心技术,按照影响程度进行排名确定专利价值。利用该技术可以进行企业创新能力评估,同时也可以赋予专利科学技术属性,为专利重新画像,计算专利在所属技术集群下的全球排名、技术承载年限、研发人员创新能力等,评价单件专利技术价值,为专利转让、许可、布局提供决策依据。这一技术与以往采用专利数量、引用、同族、法律状态等评价企业,以及利用IPC、CPC作为技术分类,由专家打分,或者以经济指标或专利撰写质量来评价专利价值的传统方法要更加及时、高效、客观。

再以东方灵盾(LindenPat)的世界传统药物专利数据库(WTMPD)为例,通过收录世界各国及国际组织70余万条专利信息,21万多条方剂信息,1万9千多条天然药物信息,5万多条天然药物化合物信息,建立了天然药物专利数据库。数据库中包含天然药物现代药理、成分信息,天然化合物来源信息。利用该数据库可对天然药物活性成分进行化学结构检索和药理分析,通过数据挖掘技术,开创高效率低成本的药物设计新途径,亦能促进中西医沟通。7FBBD517-A0D7-4B83-B2EC-A3472FF1EA5E

基于上述技术的两个药物研发的双路径:路径一,从药理信息出发,利用结构生物学推导出有效药效团,结果导入中药化学结构数据库,即可以由有效药效团推导出具有中药活性成分化学结构,进而从活性化学结构导出药效团组,由该药效团组获得与其相关的中药材,再进一步检索包含上述相关中药材的中药处方,最终可以导出新中药处方或者新药先导物。路径二,可以从中药处方的方剂信息出发,首先导出药效组,再从药效组获得先导化合物,通过多靶点虚拟筛选与生物筛选,获得天然产物化学修饰,形成制剂,进一步可以开展基于中药药效组学的新药研发。

3多元可视化展示

大数据的可視化不是单纯的数据罗列和展示,而是以特定的概览方式从数据中抽取信息,包括数据信息的各种变量和属性的集中展现,数据信息的不同维度和角度的整合与展示。结果可视化能够借助图表简单直观的展示复杂的专利分析结果,并针对不同的受众采取不同的展示方式,面对客户的不同需求给出多维度的不同视角,同时可以有效降低专利分析的使用门槛、扩大用户群体。

以WIPS Global(唯溥思全球数据库)全球专利检索和分析一体化系统的词云检索为例,词云检索可以针对某一企业或者某一领域希望快速了解的相关企业重点技术或重点发展方向,通过系统自动生成选定专利的重点关键字以不同大小比例进行显示,并形成云朵状词条,从而更快速、更直观的了解相关技术或企业的重点发展方向。可以看到每个申请人的关键词和常用关键词。并在关键词地图中直接操作,实现关键词的过滤、关键词的组合和对比分析。其中,关键词对比功能可以通过关键词及其颜色,确定竞争对手的密集研究领域和共同研究领域。

再以Patentics的分析结果可视化和思维导图为例,该平台具有56种可视化图表,每一类分析都具有适合展示的可视化图表。可以自由转换统计内容和坐标轴。点击图表中感兴趣的部分即可进一步获取更深信息。专利分析特色图表还加入技术生命周期图、质量图、树形图、专利名片等专利分析可视化特色图表。且其可视化图表的导出格式也较为多样,支持二维码、PPT、WORD、高清图片等多种形式,从而适合多种展示场景,其中,二维码分享功能,可以随时随地多人浏览和展示动态图表。各类分析还支持一键生成可视化思维导图,形成多种逻辑脉络图。

通过将分析结果可视化,利用多角度视图的不同侧重点,充分演绎专利分析结果,将片面数据立体化,从而充分扩展分析结果的内容承载力,可以最大限度发挥和利用专利分析成果。

4结语

纵观上述专利分析平台的大数据专利分析技术可以发现,精准全面的检索、具有深度的信息挖掘、流畅的操作体验、立体多维度的展示以及全生命周期的服务链条,是越来越多数据提供商和企业用户所青睐的技术高地。众家专利检索分析企业都在数据的广度与数据挖掘的深度上做功夫。数据的广度已不仅仅是数据源是否权威和更新周期是否够快,还包括通过对专利信息进行数据加工,使传统信息具备更高的可检索化,并利用日臻完善的语义检索功能,使得在原有数据的基础上,扩展数据的宽度,提高检索的命中率和准确率。在数据挖掘上,也不仅仅局限于资深检索员的检索报告。而是检索结果的深入分析与挖掘,数据之间的交互与链接,充分利用数据信息,实现价值评估、专利导航、专利布局、产品研发、产业雷达、预警与侵权等全方位、全生命周期的护持。使得专利分析产品愈加具备更低的成本、最快的途径、更全面准确的结果,从而具有更深远的市场吸引力。

参考文献

[1]谢秋梅.国内外几种常用专利分析工具比较[J].中国科技信息,2018(15):18-20.

[2]邓鹏.大数据时代专利分析服务的机遇与挑战[J].中国发明与专利,2014(02):29-31.

[3]张立丽,胡徐兵,刘凤.云存储平台的数据安全保护技术专利分析[J].科技展望,2016,26(23):268-270.

作者简介:史洁蔷(1981-),女,汉族,北京人,硕士,从事专利检索方向研究。7FBBD517-A0D7-4B83-B2EC-A3472FF1EA5E

猜你喜欢
专利分析数据挖掘
基于数据挖掘探讨慢性肾衰竭处方规律
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于专利计量的广东高水平大学科研竞争力评价研究
国际云制造关键技术专利分析及启示
专利分析在产业创新中的利用
稀土发光材料专利分析综述
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书