知识产权保护文本的爬虫与词云研究

2021-09-27 16:33陈一

电脑知识与技术 2021年19期

陈一

摘要：为研究国家对知识产权保护的重点关注领域，更好地发挥知识产权保护在创新和发展中的重要作用。运用Python对国家知识产权局官网2020年发布的关于知识产权保护文本进行爬虫，再运用jieba和wordcloud制作词云，分析国家对知识产权保护的侧重点。

关键词：知识产权保护;Python;爬虫;词云

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2021）19-0118-02

Research on Crawler and Wordcloud of Intellectual Property Protection Text

CHEN Yi

（School of Management and Economics，Kunming University of Science and Technology，Kunming 650000，China）

Abstract： In order to study the key areas of national attention on intellectual property protection， intellectual property protection can play an important role in innovation and development better. Python was used to crawl the text on intellectual property protection published on the official website of the State Intellectual Property Office in 2020， and jieba and wordcloud were used to make word clouds to analyze the state's emphasis on intellectual property protection.

Key words： intellectual property protection; Python; crawler; wordcloud

1引言

2020年我國科技领域多项关键技术受到实体清单限制，面对“卡脖子”问题，“科技创新是根，知识产权是魂。”知识产权保护在激励创新中发挥着重要作用，为应对复杂的国际格局和全球经济变革，国家高度重视知识产权保护。中共中央政治局于2020年11月30日就加强我国知识产权保护工作举行第二十五次集体学习。习近平总书记强调，知识产权保护工作关系国家治理体系和治理能力现代化，关系高质量发展，关系人民生活幸福，关系国家对外开放大局，关系国家安全。本文选择国家知识产权局官网（https：//www.cnipa.gov.cn/），运用python对2020年关于“知识产权保护”的文本进行爬虫，并清洗文本数据，然后通过爬取的文本制作词云，分析国家对知识产权保护的重点关注领域。

2相关技术介绍

Python是一种跨平台、开源、免费的解释型高级动态编程语言。[1] Python语言具有语法简洁、生态丰富、多语言集成的特点，近年来得到了迅猛发展和广泛运用。

爬虫，是一个可以自动提取互联网上特定页面内容的程序，通过向网站发起请求，获取资源后分析并提取有用数据。[2]爬虫的架构由爬虫调度端、爬虫核心模块和存储数据三个部分组成，爬虫调度端是程序的入口，主要负责爬虫程序的控制;爬虫核心模块包括 URL 管理器、网页下载器和网页解析器。[3]使用 Python 编写爬虫具有优势，Python易于配置的脚本特性，在处理字符时非常灵活，Python还有强大的爬虫模块和爬虫框架，能够便捷高效地下载网页。[4]

词云是对文本中出现频率较高的“关键词”进行可视化呈现，Python通过jieba库和 wordcloud库完成关键词的抽取和词云生成。[5] “结巴”分词是一个 Python 中文分词组件，可以对中文文本进行分词、词性标注、关键词抽取等功能，[6]文本分析适合采用精确模式分词。wordcloud 库是 python词云制作的第三方库。词云以词语为基本单位更加直观和艺术地展示文本，它可以将文本中词语出现的频率作为一个参数绘制词云，而词云的大小、颜色、形状等属性都可以设定。[7]生成词云需要配置对象参数、加载词云文本、输出保存词云文件三个步骤。[8]

3案例研究

国家知识产权局官网是中国发布知识产权信息的官方网站，从国家知识产权局官网获取的关于知识产权保护的信息具有权威性和可靠性。运用Python语言编写爬虫程序，从国家知识产权局官网（https：//www.cnipa.gov.cn/）上获取2020年关于知识产权保护的文本，爬虫的步骤分为四步：第一步，通过request库的get方法向目标站点服务器发出请求;第二步，获得请求响应的内容，返回Response对象;第三步，解析网页内容;第四步：处理解析出的网页内容，提取重要的信息，进行格式化输出并保存。输出结果利用pandas的duplicated（）方法检查重复的数据，使用drop_duplicates（）函数完成去重。通过Python爬虫获取2020年国家知识产权局官网发布的关于知识产权保护的文本信息如图1所示。

在爬取的2020年国家知识产权局官网发布的关于知识产权保护的文本信息的基础上，采用中文分词库 jieba 对知识产权保护文本的标题和内容进行行分词，并使用哈工大停用词表过滤，再通过 wordcloud 库用统计出来的高频词制作词云。2020年知识产权保护文本的词云如图2所示。

4结论

知识产权保护是国家应对发展和挑战的重要战略部署，通过对2020年国家知识产权局官网发布的关于知识产权保护的文本信息爬虫与词云化，可以分析出国家对于知识产权保护的侧重点。要提高知识产权保护工作法治化水平，强化知识产权全链条保护，深化知识产权保护工作体制机制改革，推进知识产权领域国际合作和竞争，积极发挥知识产权保护在促进改革与发展以及维护国家安全发面的重要作用。数据技术时代，要充分运用文本挖掘技术对政策进行研究，为科学执政提供有利参考。

参考文献：

[1] 方芳.基于Scrapy框架京东网站笔记本电脑评论数据爬取和分析[J].电脑知识与技术，2020，16（6）：7-9.

[2] 张艳，吴玉全.基于Python的网络数据爬虫程序设计[J].电脑编程技巧与维护，2020（4）：26-27.

[3] 吴永聪.浅谈Python爬虫技术的网页数据抓取与分析[J].计算机时代，2019（8）：94-96.

[4] 翟普.python网络爬虫爬取策略对比分析[J].电脑知识与技术，2020，16（1）：29-30，34.

[5] 严明，郑昌兴.Python环境下的文本分词与词云制作[J].现代计算机（专业版），2018（34）：86-89.

[6] 冯与诘.词云生成系统的构建[J].通讯世界，2019，26（3）：190-192.

[7] 裴丽丽.基于Python语言对电影影评数据爬虫与词云制作[J].信息记录材料，2020，21（5）：116-118.

[8] 徐博龙.应用Jieba和Wordcloud库的词云设计与优化[J].福建电脑，2019，35（6）：25-28.

【通联编辑：王力】