云端结合的书法大数据平台

2020-08-17 07:54杨颐李国清王健王海军翟翊辰黄卫星
浙江大学学报(理学版) 2020年4期
关键词:书法创作智能

杨颐 ,李国清 ,王健 ,2,王海军 ,翟翊辰 ,黄卫星 ,2*

(1.中国科学院自动化研究所,北京100190; 2.中科君胜(深圳)智能数据科技发展有限公司,广东深圳518000)

书法创作、书法教育和书法交流等已成为书法文化发展和普及过程中的重要需求。由于书法爱好者分布在不同的地域,传统孤岛式的书法创作、交流和教学方式已不适应现代社会信息联通共享的模式。随着互联网的发展和大数据技术的逐渐成熟,数字书法技术与互联网和大数据技术的结合愈加紧密。为了实现传统与现代书法创作的协同体验,打通书法爱好者之间的信息鸿沟,书法作品数字化创作、书法作品集协同共创和书法作品智能评估等已成为当前书法行业的重要需求。

本文提出了云端结合的书法大数据平台,将线下智能书法台终端、线上网站前端与云平台相结合,通过人工智能技术,提供资源共享、协同创作、经验交流和可视分析等智能化服务,实现了书法创作的传统模式与现代模式的有效结合。

下文安排如下:第1 节介绍相关研究成果;第2节介绍云端结合的书法协同体验;第3 节介绍书法大数据平台的功能、设计和技术;第4 节介绍平台所提供的智能服务;第5 节展示书法大数据平台的典型应用案例;第6 节对书法大数据平台进行实验和评估;第7 节为结论与展望。

1 相关研究

大数据平台是一种基于云计算和大数据技术[1-2]的软件平台系统,通常会集成分布式数据库、大规模并行处理、算法库等核心功能子系统,能够对快速产生的海量数据进行数据管理、计算、分析和展示。

文化大数据平台面向文化领域,通过大数据技术,为用户提供数据采集和管理、分布式计算和智能服务等技术。

汉字文化数字化平台[3-4]是基于云计算的汉字文化综合体验平台,对汉字文化数据进行存储、管理和分析,具有为用户提供交互式体验之功能。

数字图书馆是各国都非常重视的文化大数据平台,联机计算机图书馆中心(online computer library center,OCLC)(http://www.oclc.org)是世界著名的文献信息服务系统,用户可以检索文献、查找文献所在地以及享受借阅服务。中国高等教育文献保障系统(http://www.calis.edu.cn/)是受政府资助的全国教育文献大数据平台,平台信息共享,助力高等教育发展。

在公共文化领域,用于公共文化大数据平台构建的技术也有进展。如公共文化资源推荐技术[5-8]、公共文化知识图谱技术[9]等。

在线数字博物馆系统也属于文化大数据平台。谷歌推出在线艺术平台(google art project)(http://www.googleartproject.com/),与全球著名艺术馆合作,通过虚拟现实技术和高分辨率图像技术,展示艺术作品。百度与我国知名博物馆合作,推出了百度百科数字博物馆(http://baike.baidu.com/museum),利用虚拟现实等技术提供视频和音频讲解,使用户身临其境地欣赏。

智能书法台[10-11]是基于毛笔笔式的人机交互智能书法体验设备,能够对毛笔书法书写过程数字化,允许用户使用真实毛笔在大屏幕数字书法台上进行创作、临摹、学习、保存和分享,既保留了传统的书写方式,又加入了现代科技元素,弥补了传统书法的不足。智能书法台实时采集用户书写行为数据,并传输至书法大数据平台。

上述相关研究在文化资源数字化、数字资源共享、用户数字化体验等方面已经做出了显著贡献,但仍然存在一些有待解决的问题。首先,数字化资源虽然通过互联网得以共享,但因用户之间缺乏有效的沟通,从而限制了文化的交流;线上的虚拟体验和线下的实体体验都极大地提高了文化的数字化体验水平,然而,很少有将线上与线下打通的系统或平台,使得文化体验的多维度和整体性受限;数字化工程将著名的文化资源数字化,但很少关注普通用户创造的数字化文化资源,制约了文化的多样性发展。

针对上述问题,笔者研发了书法大数据平台,通过与智能书法台结合,形成线上线下的全维度用户体验模式,将用户的数字化作品作为资源进行管理,同时,可提供面向用户作品的线上交流途径。

2 云端结合的书法协同体验

书法大数据平台包括前端的书法体验网站和后端的云平台,如图1 所示。书法体验网站将智能书法台的创作、学习和分享等体验环节相结合,形成书法体验的线上线下模式,组织和引导用户间的协作,进行集体创作、社群交流和共同学习。云平台可为智能书法台和书法体验网站提供书法资源大数据和智能服务,包括书法字体识别、用户兴趣分析、精准推荐以及为文化研究者提供智能可视分析等服务。

图1 书法大数据平台框图Fig.1 The diagram of Chinese calligraphy big data platform

传统书法创作与交流的特点是独立创作、独享(或者小范围共享)作品,而信息时代注重协作与共享。协同体验,即将书法创作、学习和交流的传统方法与互联网思维相结合,实现创作协同化、学习高效化、交流全局化和作品共享化。书法大数据平台,通过充分挖掘书法大数据和用户行为大数据,进一步增强书法协同体验效果。协同体验包含:传统书法与科技方法的协同、线上与线下的协同以及个人用户与群体用户之间的协同。

传统书法与科技方法的协同,体现在用传统的毛笔书写形式在数字化、智能化的书法台上书写,既保留了传统的书写方式,又融合了由现代科技支持的高效资源利用和创作信息存储。

线上与线下的协同,体现在线下智能书法台和线上体验网站的O2O 模式,线下创作的作品可以保存在书法大数据平台,供书法体验网站使用。同时,后端云平台也为智能书法台提供海量书法资源和智能服务。

个人用户与群体用户之间的协同,主要体现在用户可以自由参与作品集的创作和编写,发挥用户集体智慧的优势,形成书法的协同创新模式。在此基础上,将单一的书法创作行为演化为群体参与的、具有群体智能的协同创作模式,形成书法创作服务的新业态。

总之,本文应用示范的目标是提供数字化书法创作、书法作品集协同创作、在线书法作品竞技等服务,将文化休闲与文化传播有机结合,从而增强书法的可玩性、趣味性与共享性。

3 书法大数据平台

3.1 平台总体架构

书法大数据平台总体架构如图2 所示。

3.1.1 数据生产层

书法资源数据主要由智能书法台和书法体验网站产生。智能书法台产生用户创作的书法作品和用户行为数据,如搜索和使用的资源数据等。书法体验网站产生用户参与创作的作品集、用户书法竞技数据、用户对作品的评价等行为数据,以及用户之间的社交数据。书法作品和书法资源等数据生成的速度虽然不快,但每项数据的容量都较大且格式不尽相同,有图片格式、视频格式、文本格式、音频格式等。用户行为数据的特点则与之不同,更多的是以日志形式传输和保存每条记录,由于生成速度快,同样可在短时间内产生海量数据。这2 种数据使得书法大数据具有海量、多源、异构等特点。目前书法大数据平台已有的图片格式书法字典资源、高清图片格式书帖资源、高清格式书法教学资源、高清名作图片、多媒体集字创作作品等,数据已达TB 级。每周产生的用户行为数据也在GB 级。因此,书法大数据平台的数据具有高复杂性和大容量等特点。

图2 书法大数据平台总体架构Fig.2 System architecture of Chinese calligraphy big data platform

3.1.2 数据采集与存储层

从智能书法台和书法体验网站采集相应数据,并保存在云平台的数据库中,包括用户数字书法资源数据、用户数字书法作品数据、用户行为数据和用户社交数据等。

3.1.3 数据处理层

将采集到的数据进行预处理,包括数据清洗、数据消重、数据对齐以及数据融合等。

3.1.4 数据计算层

数据计算层提供书法协同体验所必需的核心智能计算支撑。用模式识别法对书法资源和作品内容进行识别;通过分析用户行为数据,建立兴趣模型;用用户社交分析算法,分析用户对其他用户作品的评价和对书法比赛等的互动情况,挖掘隐性好友;将用户创作信息构建为知识图谱,以支撑检索和进行推荐。

3.1.5 智能服务层

基于数据计算层,为书法体验网站提供用户体验所需的关键功能服务:

· 书法作品集协同创作与竞技:书法作品集的内容结构管理和检索、作品发表时序结构管理和检索;书法竞技作品对比评估等;

· 书法创作的可视分析:通过数据可视化与机器学习相结合的方式,对书法活动进行多层次、多维度的数据分析,发现创作特点和趋势;

·书法资源与作品的共享:智能选取合适的书法资源和作品,进行展示和共享;

·书法资源与作品的评估:结合用户对书法作品的群体评价,进行综合计算和智能评估;

·书法资源与作品的多模态搜索:提供关键字搜索和以图搜图等高级搜索功能;

·书法资源与作品的个性化推荐:为用户推荐可能感兴趣的书法资源和其他用户的作品。

3.1.6 用户访问层

提供访问功能,包括注册、登录等权限控制以及通过的接口技术。

3.1.7 数据管理

书法大数据平台的数据管理,包括数据安全管理(如数据加密)、数据质量管理(如规范数据格式)、元数据管理、用户数据管理以及书法作品数据的版权保护(如数字水印)等。

3.1.8 平台管理

进行用户管理、访问管理、性能监控和安全管理。用户管理模块,主要管理用户数据,同时,为用户分配角色,根据用户的角色控制用户的访问权限。访问管理模块,结合基于角色的权限控制方法,定义分级访问权限,包括访客用户、一般用户、高级用户、管理员用户。性能监控模块,主要通过研发的可视化界面对平台性能和主要模块进行监控。由于每个模块都有各自的可视监控系统,将这些监控系统的监控页面集成到一个web 网站上,以便进行统一监控。集成的监控系统和工具有:Zabbix 对平台应用性能的监控工具、PHPMyAdmin 的MySQL 监控系统、Hadoop 和HBase 自带的图形监控系统、MongoDB Compass监控工具 、Ceph自带的图形监控工具,以及使用Ganglia 对平台的监控,实时查看虚拟机集群中的各项性能指标。安全管理模块,依靠Kerberos 技术和反向代理服务器技术实现安全管理。为保证平台虚拟主机之间对文件的安全访问,采用Kerberos+SSL 方案,实现机器级别的安全防护,未经认证的主机无法访问数据,从而有效防范伪装虚拟主机恶意破坏数据。反向代理服务器能起防火墙作用,如NginX 服务器可隐藏服务器IP 地址,从而实现对平台的保护。

3.2 平台技术堆栈

书法大数据平台技术框架如图3 所示。

3.2.1 基础层:管理数据库、计算框架和平台系统

数据库:管理结构化、半结构化和非结构化数据,以及索引数据和元数据。各类数据库系统的性能和特色各不相同,已有研究对其进行了科学评估[12-16],本文根据研究成果进行技术选型。结构化数据管理采用MySQL Cluster 分布式关系型数据库集群,主要负责存储系统的主数据,如用户数据及各模块中的关系数据;半/非结构化数据管理,HBase数据库和MongoDB 分布式数据库以及HDFS 分布式文件系统主要用来存储和管理日志数据;索引数据管理,用MySQL 存储非结构化数据的索引,如将视频和图片存放在Ceph 系统,地址存放在MySQL,以方便检索;元数据管理,存储各类数据的元数据信息,MySQL 主要负责有明确Schema 的元数据,MongoDB 负责 Schema 不确定或者无 Schema 的元数据,HDFS 系统主要用于大容量块文件的存储和管理,对于海量小文件,如视频资源、高清图片等数据,HDFS 的效率非常低,可用Ceph 文件系统管理海量高频访问的小文件。

计算框架:基于Tensorflow 的深度学习计算框架、基于Hadoop MapReduce 的海量数据批处理技术、基于Apache Spark 的内存计算框架和实时计算技术。

平台系统:对主要功能提供支撑,对平台提供管理,包括缓存系统、安全系统、负载均衡和日志系统管理。

图3 书法大数据平台技术框架Fig.3 The technical framework of Chinese calligraphy big data platform

3.2.2 服务支撑层:为体验层提供智能计算支撑和服务。

智能服务:整合创作知识图谱和智能算法库,构建智能方法并通过API 为书法体验网站用户提供智能服务。

书法创作知识图谱:通过分析用户的创作数据,挖掘用户与作品之间的关系,构建图谱。

算法库:基于计算框架,根据协同体验的需求构建算法库,主要用于书法字识别、自然语言处理、智能信息检索和时间序列分析等。

3.2.3 体验层:面向终端用户

终端用户包括线下的智能书法台和线上的书法体验网站。

3.3 数据流

书法大数据平台的数据流分为数据采集阶段数据流和书法协同体验阶段数据流。

3.3.1 数据采集阶段数据流

数据采集阶段数据流主要从智能书法台和书法体验网站流向书法大数据平台。智能书法台的数据输入模块通过RESTful HTTP 接口将书法作品和用户行为数据上传至书法大数据平台的临时数据库;临时数据库由MySQL 构建,用户作品图片以二进制对象的方式存入MySQL 数据表;用户行为数据则以日志文件形式存放在Linux 的文件系统中。同理,书法体验网站也通过RESTful HTTP 接口将采集到的用户创作数据存放在临时数据库。随后,平台的数据预处理层对临时数据库中的数据进行预处理:提取图片作品的元数据,将元数据存放在MySQL 或者MongoDB 数据库,将图片数据存放在Ceph 系统;读取并清洗日志文件中的信息,按照平台定义的用户行为数据格式进行格式转换,并将其存储于由HDFS 和HBase 组成的数据库中,完成数据采集。

3.3.2 书法协同体验阶段数据流

在数据应用阶段,也就是书法协同体验阶段,数据流主要从书法大数据平台后端支撑平台的数据库和计算系统流出。智能服务系统需要具有整合书法创作知识图谱和智能算法库的功能。书法创作知识图谱基于数据库中的用户作品元数据构建,将作品和元数据定义为节点,作品节点通过元数据节点连接,构成异构的书法创作知识图谱数据,采用RDF三元组数据结构描述图谱;智能算法库主要由提供智能算法函数的Apache Mahout 框架构成。在知识图谱数据上对智能算法库中的算法进行分析,最终形成智能服务,供书法体验网站的终端用户使用。

3.3.3 书法创作可视分析工作流

书法创作可视分析工作流如图4 所示,通过智能书法台将创作的作品图片和相关信息传输到服务器,经过请求、解析等预处理,将一部分数据保存到数据库中,用于分析用户的历史行为;将另一部分保存到缓存系统中,用于实时分析作品。对用户作品进行交互式可视分析:通过调整算法参数进行历史数据分析;通过调整实时数据的过滤参数进行多维度实时作品创作行为分析;通过调整可视化视图的视角进行多视角数据分析。其中的关键技术包括:

· 基于流数据处理的实时数据监控技术:使用流数据处理技术,实时采集智能书法台的书法数据,通过微服务接口传输至消息队列,并通过前端实时更新浏览器端数据。

· 基于语义缩放的多尺度时空数据可视化技术:面向时间维度和空间维度,使用多尺度可视化技术,进行多尺度分析,通过语义缩放技术,实现概观和细节的平滑切换。

· 基于书法字识别的高维数据可视分析技术:涉及用户书写行为数据、时间数据、位置数据、作品语义数据等高维异构大数据,提供高效的人机交互,实现易用、易懂和快速的可视分析。

3.4 数据源

书法大数据主要包括书法资源数据(存量数据)和用户的书法创作数据(增量数据)。书法资源数据包括超高分辨率字帖和碑帖图片、高清书法视频、书法百科等。书法创作数据则是用户在智能书法台和书法体验网站进行书法作品创作和作品集创作的数据,包括作品数据和用户创作过程中的行为数据。用户在智能书法台的创作数据通过网络传输至书法大数据平台,书法体验网站的用户创作数据则通过日志系统进行实时采集。

图4 可视分析工作流Fig 4 Workflow of visual analytics

3.5 数据安全

书法大数据平台用反向代理服务器作为防火墙。用SSL、HTTPS 和Kerberos 等技术保障数据传输安全;基于角色的访问控制,实现数据访问的安全控制。SSL(secure sockets layer)是一种网络传输安全协议,使用非对称的公钥加密算法,对传输数据进行加密,防止在网络传输过程中被篡改和窃取。HTTPS 协议即HTTP+SSL,可保证用户前端所发送数据的安全性。平台还部署了Kerberos 服务器,并且在每个节点和Kerberos 服务器之间都建有共享密钥,实现集群节点之间的安全访问。使用Kerberos+SSL 策略实现平台集群级别的数据安全传输。

由于安全性能测试较复杂,本文主要通过所用技术提供的安全理论来评估平台的安全性能。

4 智能服务

4.1 云端结合的数字书法创作与学习服务

智能书法台是线下终端,其中用到的字帖、碑帖等书法资源由书法大数据平台管理。智能书法台采集用户创作数据,通过互联网将作品等重要数据传输至书法大数据平台,平台通过分析这些数据,提供多种智能服务,如用户作品智能评价、书法资源语义检索、书法资源推荐等。

4.2 数字书法作品集协同创作服务

书法体验网站是书法大数据平台的线上前端,提供群体协同创作服务。用户在书法体验网站创建书法作品集创作组,如《李白诗集》书法创作组,并允许其他用户参与符合主题的数字书法作品的创作,形成作品集。创作组成员可以在智能书法台续写书法作品集并上传,以扩充作品集。线上网站结合线下设备,借助智能协同创作算法实现协同书法创作,多人多用户合作完成一部书法作品。

4.3 在线书法作品竞技及交流服务

书法体验网站提供在线书法作品竞技服务,允许用户对其他用户创作的书法作品发表评论,并展示自己创作的相同内容或相同风格的作品,供对比讨论。书法体验网站提供作品资源推荐服务,通过分析用户的创作和行为数据,为用户推荐竞技交流的作品。

4.4 数字书法创作的可视分析服务

书法大数据平台通过基于流计算模型的实时数据流分析技术,实时处理高维数据;使用基于地图的动态显示技术,实现对智能书法台等设备的实时监控和分析。用户可以通过基于交互式机器学习的可视分析技术,对时间序列数据和地理空间数据进行多层次、多尺度的聚合分析,根据海量历史数据进行多维度统计分析和趋势分析。使用基于目标检测的图像分割算法和基于深度学习的毛笔字手写识别算法,分析书法大数据平台的书写内容,识别数字书法作品内容,并统计分析书写热词。同时,通过对基于循环神经网络的用户活跃度,包括时间、地点和书写内容等数据进行分析,识别用户创作行为模式,分析用户活跃度,挖掘潜在用户。

5 应用案例

5.1 基于协同创作模式的数字书法作品集创作

首先,建立数字化共享书写模式,在社区、文化馆、图书馆、火车站、机场、博物馆、文化馆、高校、文化机构、文化展厅投放智能书法台,为数字书法创作提供便利。在书法集字和集书活动中,鼓励分布在不同地点的用户共同参与创作。例如,某一用户在书法体验网站发起《李白诗集》书法创作活动,参与用户可分别在不同的智能书法台进行创作,最后汇集到书法大数据平台,平台自动进行集书内容结构构建。活动结束后,数据进入分析系统,形成智能化的评分和评价,也可以在网站、移动APP 等终端进行人工评价,人工评价内容可反馈到分析模块,形成最终评分。完成众创作品《〈李白诗集〉书法创作》后,可以下载、打印甚至出版,也可用于制作文化创意小礼品等,如图5 所示。

该模式的优势和亮点在于,第1,融合大数据和人工智能支持的书法文化休闲与传播的全新模式。第2,与大数据技术紧密结合,为用户提供书法知识、书法作品和交流伙伴的个性化推荐服务。第3,基于大数据的智能评价体系,通过计算机视觉技术和美学计算方法,结合用户的评价和评估,研究综合评价指标和算法,实现对书法作品的智能量化评价,使书法作品可量化、可比对、可订制、可分享、可结集,使其成为一种经济、环保、便利的集文化旅游、休闲和社交于一体的新模式。

图5 群体书法集创作Fig.5 Crowd-based calligraphy collection

5.2 基于协同评估模式的共享学习和数字书法竞赛

在书法教学过程中,对参赛作品的点评是其中的一个重要环节。书法老师可以在书法体验网站创建课程组,邀请学员加入,学员可在智能书法台进行书写练习,并将作品上传至书法大数据平台,书法老师可在书法体验网站,对作品进行点评和指导,其他学员也可就作品进行交流讨论。如果书法老师或其他学员认为该作品存在不足,并希望亲自重写示教或交流比较,则可在智能书法台进行创作,将其发布在书法体验网站,并与原作品做比对。当众多学员分别书写书法作品并进行比较时,会形成书法作品比赛,书法老师可以对比赛进行点评和打分,学员也可以参与评分和讨论。

该模式的优势在于:第1,省去了一般性书法比赛烦琐的征稿、汇总、评选等环节,可以随时随地发起比赛,由系统自动处理,效率成倍提高,且不受时间、空间的限制,节省了大量的比赛成本。第2,作品比赛结果既可以提交给书法专家进行评价,也可以由书友投票评选。此外,书法体验网站具有的书法作品智能协同评估功能,可综合各方评价,对作品进行综合评价和排名,保证评选的公正性和合理性。第3,鉴于书法类竞赛的特殊性,在大数据的支持下,可以兼顾文化知识、诗词等相关方面的竞赛,使书法回归传统文化大道。第4,通过对书写动态过程的数据采集和轨迹分析,了解用户书写动作的基本状态,进而分析书写者兴趣、书法技能等,形成对个人综合修养、文化素质等多维评价结果。

5.3 数字书法创作行为的可视分析

文化研究者或社会研究者,通过书法大数据平台提供的可视分析功能,对数字书法创作行为进行多层次、多维度分析。

书法大数据平台的可视分析界面如图6 所示,中间部分是地图视图,展示了智能书法台的地理空间分布,其中,红色图标代表智能书法台所处的位置。研究者通过观察图标跳动情况,实时了解活动动态和活跃程度。在智能书法台前端向云平台发送的实时创作数据中,包括了智能书法台所在地的相关信息,如智能书法台的IP 地址、人工标注的智能书法台部署地点等。此外,书法创作可视分析还可提供多层次的统计分析和预测。通过统计分析作品的历史数据,可以发现书法创作活动的时间性信息和空间性信息,这些信息有助于分析社会文化活动规律。分析者可根据需求,通过交互,调整时间和地理空间参数,实现不同尺度的时空数据分析。图6左侧展示了年、月、日、小时等不同时间尺度信息,右侧则展示了省级、市级等不同空间尺度信息。除了进行统计分析外,平台还提供对未来一段时间用户创作活动趋势的预测。

图6 可视分析界面Fig.6 GUI of visual analytics

书法创作可视分析具有内容识别功能,用户创作的书法作品可以图片格式保存,通过笔者研发的书法字识别算法实现对图片中书法字的识别。

构建了基于VGG 神经网络模型的深度学习模型,使用TinyMind 第一届汉字书法识别挑战赛的数据进行训练,数据包含100 个常用汉字,每个汉字有400 张图片。经过模型优化,楷书和行书的识别率达到93%,隶书的识别率约为85%,但草书和篆书的识别率较低,低于50%。对楷书和行书的书法字内容识别基本达到了可用的程度。将被识别出的书法字保存在数据库中,可作为作品的元数据。

6 实 验

对书法大数据平台进行了实验和分析。实验重点聚焦于平台整体的有效性和扩展性。书法大数据平台是基于云计算架构的分布式系统,相比传统集中型架构系统,其优势更多体现在扩展性上。本实验拟验证:相对于传统的集中型架构系统,书法大数据平台能够在保证良好性能的前提下,提供更强的扩展能力。

6.1 书法大数据平台性能实验

本实验使用的指标是并发请求量、平均响应时间和平均吞吐量。并发请求量是指同一时刻向服务器发送请求的数量。响应时间是指从发出请求到返回结果所耗费的时间。平均响应时间是指在一定时间周期内批量请求响应时间的均值。平均吞吐量为每秒处理请求的数量。

6.1.1 实验设计

将书法大数据平台与传统架构系统分别部署在相同云环境的Linux 虚拟机上。基本配置如表1 所示。2 个实验系统的软件均采用默认配置,未进行特定优化。传统架构系统的虚拟机共4 台,分别部署了 Tomcat 服务器、MySQL 服务器、MongoDB 服务器、Linux 文件服务器。书法大数据平台包含1台NginX服务器 、2 台 Tomcat服务器、2台部署MySQL Cluster集群、1台 MongoDB 服务器、3 台部署 Hadoop和HBase系统、2台部署在 Linux 上 的Ceph 文件服务器。

6.1.2 实验工具及方法

使用Apache JMeter,通过多线程以线性增长的方式分别向2 个系统发送500 个请求,记录并统计吞吐量和平均响应时间。请求的类型包括主页访问、访问MySQL 数据库以及磁盘文件访问的http请求。

表1 实验环境Table 1 configuration

6.1.3 实验结果及分析

实验结果如表2、图7 和图8 所示。

由表2 可知,书法大数据平台的起始平均吞吐量略微低于传统架构系统,这是由分布式系统的消息通信特性所造成的。传统架构系统在并发请求量达到150 后,平均吞吐量增长减缓,并逐渐接近峰值;在并发请求量为300 时出现瓶颈。书法大数据平台在并发请求量为400 时达到峰值,之后平均吞吐量大幅下降。所以,书法大数据平台比传统架构系统有更好的吞吐能力,且每秒处理请求的能力是完全可以接受的。2 个系统的平均响应时间在并发请求量在300 以内时都是可以接受的。但传统架构系统在并发请求量高于300 时,平均响应时间明显增长,说明系统性能已到瓶颈,而书法大数据平台因采用分布式结构,当并发请求量高于400 时,平均响应时间才明显增长,系统性能开始下降。这与平均吞吐量实验结果一致。

图7 为2 个实验系统平均吞吐量的实验结果。总体来说,2 个系统的平均吞吐量变化趋势都是正常的,在请求发送初始阶段,并发请求量还未达到系统的吞吐饱和量,平均吞吐量呈增加趋势。随着并发请求量的增加,需要系统处理的量越来越大,逐渐达到饱和,此时,系统刚好能处理发来的全部请求,平均吞吐量达到顶峰。当并发请求量继续增加时,系统不足以处理发来的请求,出现瓶颈,平均吞吐量开始下降。

图8 为2 个试验系统平均响应时间的实验结果。总体来看,2 个系统平均响应时间都随并发请求量的增大而变长,但书法大数据平台的平均响应时间略长于传统架构系统,原因为书法大数据平台的分布式消息传递造成延时。

表2 实验结果Table 2 Experimental results

图7 平均吞吐量实验Fig.7 Experiment of average throughput

图8 平均响应时间实验Fig.8 Experiment of average response time

综上,书法大数据平台的系统性能在并发请求量不大时与传统架构系统的性能相差不大,随着并发请求量的增加,其性能优势渐显,同时,书法大数据平台的绝对处理能力符合Web 应用系统的性能要求。

6.2 书法大数据平台性能鲁棒性实验

从书法大数据平台的平均响应时间实验看,当并发请求量为400 时出现拐点,之后出现瓶颈,性能开始下降,同样的情况出现在平均吞吐量实验上。在出现瓶颈的情况下,对书法大数据平台进行水平扩展,分析其性能是否能够稳定在合理水平。实验拟证明书法大数据平台可以通过水平扩展增大并发处理能力,保证平台的鲁棒性。

6.2.1 实验设计

书法大数据平台由多种子系统构成,为了降低实验的复杂度,采用简单方式进行扩展性实验。共进行了4 组实验,每组实验平台都在前一实验的基础上进行水平扩展,记录并分析每组实验的平均吞吐量瓶颈。实验使用的虚拟机节点量如表3 所示。

表3 书法大数据平台扩展性实验配置Table 3 Setup of experiment of expansibility单位:台

6.2.2 实验结果及分析

实验结果如图9 所示。由图9 可知,随着书法大数据平台的扩展,平均吞吐量呈增长趋势,系统性能得到增强。因此,书法大数据平台能够通过水平扩展增强其并发处理能力。实验验证了书法大数据平台是有效的,也验证了此前的猜想。

综上,书法大数据平台的架构在性能上符合应用要求,并具有较好的水平扩展能力,可根据实际需要扩展和增强系统性能。

图9 书法大数据平台扩展性实验结果Fig.9 Experiment of expansibility of the platform

7 结论与展望

随着互联网、大数据和人工智能等技术的突破性进展,书法作为中国传统文化的瑰宝,亟须将传统方式与信息化和智能化技术相融合。

提出的书法大数据平台,通过云平台与线上线下的终端相结合,在共享、交流、创作和分析等方面,为用户提供智能化服务。运用大数据、机器学习、可视分析等智能化技术,实现了书法体验的传统与现代相结合、书法资源的线上与线下相结合、作品创作的个体与群体相结合,有助于发展和创新传统书法的创作、交流和学习的手段和途径,有效促进书法文化的发展,提高群众的书法文化素养。

本文提出的书法大数据平台,尚有一些亟待解决的问题。在平台扩展性方面,虽然实现了对已有节点请求处理的负载均衡,但在节点自动扩展方面仍未实现智能化,下一步需要通过机器学习优化自动弹性扩展策略,实现平台利用最大化。在平台安全性方面也存在不足,虽然平台使用了当前的前沿技术,但并未进行严格的安全测试,在安全漏洞定位和预防性安全控制方面,仍需进一步加强。由于平台集成了大量异构数据,这些数据存在语义关联,是很好的共享和分析资源,然而,由于其异构特点,目前还没有打通异构数据资源之间的关联性,下一步将聚焦异构数据集成,通过定义数据语义模型和接口,将异构数据进行集成。此外,在版权保护方面也存在不足,在资源共享过程中存在被盗版风险,未来将聚焦此问题,重点研究数字水印技术和区块链在用户协同创作中的应用,锁定用户版权。另外,为更好地分析书法作品的内容数据,需研究更加精准的书法字识别算法。

猜你喜欢
书法创作智能
书法
书法欣赏
书法
智能前沿
智能前沿
智能前沿
智能前沿
《一墙之隔》创作谈
书法欣赏
创作随笔