科研重复率信息整合平台的设计与实现

2020-03-10 20:12咸悦梁玮琪

科学与财富 2020年33期

咸悦梁玮琪

摘要：本文结合进行项目查重现有方法研究一种准确、高效的方式。总结了科技项目查重的一般过程，将其概括为文本预处理、特征提取、模型构建、相似度判别和专家审核。采用资源采集技术，文本数据库加工技术，文本数据库技术，数字资源版权保护技术，知识挖掘技术，自然语言处理技术、快速比对技术等，从多方面进行数据采集，通过文本预处理、特征提取以及模型构建及相似度判别，从而为查重网站信息整合平台做出有力的数据支撑，为查重体系提供必要的参考。

关键词：科研项目;文本挖掘;精准对比

引言：

我国近年来不断加大科研投入的规模和强度，科研项目的数量和经费规模均得到显著的提升，形成了多个层次的国家科技计划资助体系。然而，项目多头申报、重复立项已成为科研项目管理领域的突出问题之一，尤其是跨科技计划的重复立项问题。该问题不仅会造成国家科技资源的浪费，而且也会导致恶性的科研竞争环境，对科技创新发展的危害极大。因此，如何建立有效、可行的项目查重机制已经成为科技计划管理部门的重要任务之一。

教育一直是整个社会的热点问题和关键问题。但现在随着互联网的广泛应用“抄袭借鉴”形成了一种风气，教育部在《关于切实加强和改进高等学校学风建设的实施意见》中指出：“学风是大学精神的集中体现，是教书育人的本质要求，是高等学校的立校之本、发展之魂。” 诚信教育，是人类文化的重要组成部分，是弘扬人文精神的重要形式，在社会主义先进文化建设中发挥着不可替代的作用，要求我们大力弘扬爱国主义、集体主义、社会主义思想，以增强诚信意识为重点，加强社会公德、职业道德、家庭美德、个人品德建设。让高校学生认识到诚信的重要性，将有助于学生树立正确的学习目的和学习态度，并制定合理的学习计划，并通过他们的努力实现自己具体的奋斗目标。论文查重需要强大的技术作为支撑，包括资源采集技术，文本数据库加工技术，文本数据库技术，数字资源版权保护技术，知识挖掘技术，自然语言处理技术、快速比对技术等。因此，本文是针对于科研项目设计的查重整合平台。

1.概述

为推动科技创新发展和提高科技竞争力，科技项目查重已成为科技管理领域常见的词汇，科技项目查重一般是指从已有的项目数据中通过文本挖掘和综合判断，确认是否存在与待查项目的研究内容相同或高度相似的项目的过程。已有的项目数据包括通过正式立项的项目信息如项目名称、关键词、摘要和项目申报书等，也包括项目的关联信息如学术论文、科技报告和科技成果等。此外，项目承担人和承担单位等信息也能提供一定的线索。基于文本挖掘的方法能自动的计算项目的相似性，但其准确性较差，可用于快速排除大量的无关项目。项目的重复性判断是一个复杂的过程，需要专家的综合判断能力甄别出重复的项目，但需要耗费大量的人力。

结合上述方法进行项目查重才是一种准确、高效的方式。科技项目查重的一般过程，将其概括为文本预处理、特征提取、模型构建、相似度判别和专家审核。采用资源采集技术，文本数据库加工技术，文本数据库技术，数字资源版权保护技术，知识挖掘技术，自然语言处理技术、快速比对技术等。在海量的全文数据的基础上实现快速准确的检测，上述技术是基本的保证。另外，检测比对库里需要收录期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源，才可以支撑起一个论文查重检测系统。

2.平台搭建

本文所设计一款基于HTML的查重网站信息整合平台进行对外开放，主要针对于当代高校师生，随着互联网的普及与此同时随着网络成为新时代发展趋势。本着端正学风的宗旨，本项目提出查重网站信息整合平台要求学生要坚持“诚信立人”的原则，养成“严谨为学”的态度，促进学术的健康、良性发展保护个人知识产权。

1、科技项目查重信息整合平台的设计：

平台将从已有的科技项目大数据中通过文本挖掘和综合判断，确认是否存在与待查项目的研究内容相同或高度相似的项目，也包括项目的关联信息如学术论文、科技报告和科技成果等。此外，项目承担人和承担单位等信息也能提供一定的线索，因此科技项目查重的一般过程将其概括为文本预处理、特征提取、模型构建、相似度判别和模拟专家审核;

2、科技项目比对库：

科技项目查重信息整合平台要建立一套科技项目比对库，包含近年来已有的科研项目导入;

3、科技项目比对文档：

通常是网页在线格式或PDF格式，报告上会体现与已有的科研项目相似的比例、重复的内容、重复内容的来源等。

3.处理过程

论文查重系统看起来比较简单，其实需要强大的技术作为支撑，包括资源采集技术，文本数据库加工技术，文本数据库技术，数字资源版权保护技术，知识挖掘技术，自然语言处理技术、快速比对技术等。

1、预处理：

预处理是将科技项目的相关大数据信息处理为指定的规范格式，并对文本信息确定处理单元及进行分词或分句、去停用词等。

2、特征提取：

特征提取是從预处理后的数据中挖掘出能全面/部分描述项目内容且区别于其他项目的特征向量，一般由特征词和权重组成，采用基于词频或 TFIDF 值的方法计算其权重，并在大数据挖掘和文本分析领域应用基于 TextRank 和主题模型的方法。

3、模型构建：

模型构建是按照数据规划方式对特征向量进行整合，从而建立能准确、全面描述项目内容的模型。

4、相似度判别：

相似度判别是基于项目表示模型设计相似度判别函数，从已有项目的数据库中发现疑似项目的过程。

5、模拟专家审核：

重复对疑似项目进行二次数据综合分析和判断，确定待查项目是否为重复项目并提供相关证据的过程。

4.结论

综上所述，本文所提出的基于HTML的查重网站信息整合平台能够从多方面进行数据采集，通过文本预处理、特征提取以及模型构建及相似度判别，从而为查重网站信息整合平台做出有力的数据支撑，为查重体系提供必要的参考。

参考文献：

[1]李善青，邢晓昭，杜圣梅.科技项目查重方法研究综述[J].科技管理研究. 2018（06）

*基金项目：本文为吉林农业科技学院自然科学类科研项目，项目编号吉农院合字第[校20190693]号。

（吉林农业科技学院吉林 132000）