论大数据技术与在线生成文章的关系

2020-07-23 16:35李滕飞孙东王平
商情 2020年31期
关键词:大数据技术

李滕飞 孙东 王平

【摘要】随着计算机,互联网的日益普及,大数据技术的迅速发展,因特网用户量和信息量的快速增长。用户对于多渠道的广泛的信息的需求也是日益增长的,用户希望在各行各业中得到大数据技术的应用,通过大数据平台机器学习搜索实现文章在线生成,实现与社会实践相结合,了解社会大众人口的需求,为其定制合理的在线文章生成的软件。在线生成文章可实现各种文章的模拟,可以涉及到各个行业应用。通过Spark特征提取,只要输入标题或关键字就可以生成符合用户需求的文章。

【关键词】大数据技术  Spark数据库  在线生成文章

引言:Spark是我们项目决定选用的计算框架,因为其包括了在大数据技术中的各种各样的计算框架。比如我们的机器学习就是应用到了Spark Mllid,图计算应用到了Spark?GraphX。对于项目研究我们也是选用了Spark+Hadoop的组合,它是大数据领域最热门的组合之一,同时也是最有前景发展的组合,因此我们项目组决定采用spark基本框架实现在线生成文章APP的研究。(Spark主要用于大数据计算,Hadoop用于大数据的储存)。

一、项目实施的背景和目的

在项目之初我们进行了社会调研,走向大众,通过调查问卷和随机采访的形式了解大众对所研发的在线生成文章的APP的需求,分析调查问卷,以学生群体为例:几乎100%的学生承认写作是自己的弱项91.4%的学生同意或非常同意在线生成文章对他们提高写作会有所帮助。在这其中,有74.3%的学生同意或非常同意数字化该平台能帮助自己利用碎片化时间学习,为自己提供了有价值的资源和信息,而拥有一个文章平台可以有效调动了自己的写作积极性,降低了写作焦虑感。

通过大数据的数据库储存的各类文章,通过机器学习来进行关键词的整合分类以达到项目要求的创作的文章,通过大数据技术快速的特点和可变性,在满足数据质量的同时能够提供多渠道的大量的数据来进行应用和实践,通过低成本的大数据技术完成高品质文章的生成,同时开发者通过学习机器学习能够更多的去研究探讨计算机对于人类发展的便捷应用,通过这个项目使需要新文章新思路等需求人们获得便捷和多样的选择,更好的便民利民。

二、项目研究内容

开发并学习使用spark计算。Spark是属于基于内存计算,在提升数据处理的实时性的同时也确保了它的高容错性和高可伸缩性,而hadoop就像是一个大脑和一个口袋这两个元素构成的一个集合,其中大脑负责计算数据,而口袋则负责存储数据。spark就像是许多更聪明的大脑组成的集合可以计算存储在hadoop里面的数据,通过快速的计算来达到数据的实时应用,完成各种进程,满足不同需求的计算,进行输出。Spark兼容多种语言:例如Java、Scala、Python、R和SQL等。执行机器学习,构建数据的搜索框架。

三、项目的设计与实现

(一)架构设计

用户通过需求输入关键词后系统后台在云数据库中进行搜索分析和整理,最后整合排版多渠道数据后呈现在服务器终端的用户页面上。

架构设计图

(二)设计需求

研究需要性能较强的具备独立显卡和运行内存较高的计算机以及相关输入设备;需要应用到的软件开发环境,能夠支持多台计算机和路由器组成的局域网络,多台能够连接到互联网络用于资料查询的计算机以及其他各种相关技术资料的获取方式的硬件条件。

项目思路:

(1)创建基础数据库:数据可以存放在数据库中,这其中保存的是我们搜集的各种类型的文章素材。

(2)创建新表和序列:满足需求设计。

(3)创建索引和视图:方便查询搜索和辨识。

(4)实现数据筛选和记录:实现功能,满足用户需求。

四、结语

本项目利用Spark大数据技术领域最热门的组合,也是最有前景的组合,为项目走向社会大众,解决大众对生成文章的需求。

参考文献:

[1]〔英〕维克托·迈尔·舍恩伯格(Viktor Mayer-Sch nberger).大数据时代:生活、工作与思维的大变革.浙江人民出版社.

[2]周涛.为数据而生——大数据创新实践.北京联合出版公司.

基金项目:吉林建筑大学大学生创新创业训练项目,项目编号:201910191115。

猜你喜欢
大数据技术
善用“互联网+” 提升政府善治能力
大数据技术之一“数据标识”
基于大数据技术的O2O跨境电商客户信息研究
大数据技术在雾霾治理中的应用
浅谈大数据技术在互联网金融中的应用
大数据技术在电子商务中的应用
大数据技术对新闻业务的影响研究
大数据技术在电气工程中的应用探讨
大数据技术在商业银行中的应用分析