人工智能时代下智能审校的应用探析

2022-06-14 01:51龙启铭
传播与版权 2022年6期
关键词:人工智能

龙启铭

[摘要]在人工智能时代,智能应用发展得风生水起,各行各业尽现智能风采,出版业的各种智能出版审校软件也应运而生。文章探讨智能审校的释义,深度剖析智能审校的内涵及关键技术,多维度、全方位地研究智能审校软件的功能,分析其给出版业带来的机遇和挑战,以实践经验解析和认知智能审校软件,以期为智能审校发展提供思考。

[关键词]人工智能;审校;智能审校;智能审校软件

近年来,人工智能正在悄然地改变整个世界,赋能新时代。在出版界,如何把握和应用这一热门技术,使出版审校更有效地提高书稿的准确性,减少审校差错,让智能审校赋能出版,打造业内拳头作品?这是一个亟须学界思考与业内探索的重要课题。跳跃的文字是书稿的灵魂,是作者思想的体现,也凝聚审校人员的心血。在稿件加工过程中,通过各类数据库,智能审校系统能够解决审校人员的通用问题,提高审校工作效率和准确率,并借助云端对接,作者、编辑和审校人员三方可实现实时交互,高效沟通,从而加快出版进程。

一、智能审校释义

(一)人工智能(AI)释义

人工智能(Artificial Intelligence)的英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学[1]。

人工智能一词诞生于1956年,在由闵斯基、约翰·麦卡锡(John McCarthy)、克劳德·香农(Claude Shannon)等人主持的达特茅斯会议上,人们提出,“学习和智能的每个方面都能被精确地描述,使人们可以制造一台机器来模拟它,并将使用机器模拟人类认知能力的技术命名为人工智能”[2]。

尼尔斯·约翰.尼尔森(Nils John Nilsson)教授对人工智能的定义为:“人工智能是关于知识的学科—怎样表示知识以及怎样获得知识并使用知识的科学。”[3]

美国麻省理工学院的温斯顿(P.Winston)教授对人工智能的定义为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”[4]

上述定义说明,人工智能融入人类生活的方方面面,让人类从部分劳作中解脱出来。

(二)审校释义

“审校”顾名思义就是审查、校对并加以改正。“多出善本,不出错本”一直是出版人遵循的基本原则。中华文化博大精深,其依赖于不同专业领域的善本将信息保真,并一代又一代地传承下去,如医学领域的旷世之作《本草纲目》等,这些善本保存了璀璨的中华文明。在出版物的出版过程中,审校人员发挥着重要作用,其要对读者负责,要对作者作品负责,通过校异同、校是非来保障作品出版质量。“校异同”是将校样与原稿逐字逐句一一比对,剔除并改正录排方面的错漏;“校是非”是要改正校样中政治、语法、逻辑等方面的错漏。审校则主要包括纠正修改错字、漏字等文字差错和词语差错、语法差错、数字差错,以及不符合国家规范标准的标点符号差错、量和单位使用差错、版面格式差错等。审校人员还需要润色作品文字,优化作品结构,再次凝聚与升华作品内容。以上这些都是审校人员对作品进行的二次创作。实际上,对审校人员而言,其要严把出版作品质量关,精心雕琢字词句,悉心梳理作品逻辑表达和结构模式,不遗余力地进行校对,让作品成为善本,增强出版人再创作的自豪感和成就感。

二、智能审校的内涵与自然语言处理

随着人工智能技术介入各行各业,出版行业进入智能化的发展新阶段。作为业内人士,我们要理解和把握智能审校的内涵,从中发现出版行业发展的新起点,抓住智能审校的核心,结合审校实践和经验,熟练运用新技术,全面地认知智能审校,使审校工作更加高效、准确。

(一)智能审校的内涵

智能审校即“智能+审校”,也就是传统出版借助人工智能技术。实际上,人工智能涵盖计算机视觉、知识表示、自然语言处理、数据分析、专家系统、推荐系统、通用智能等多个研究方向,其核心是根据给定的输入做判断或预测。“给定的输入”即来自真实世界的数据。对审校而言,输入的数据源就是出版行业的各类标准规范,如《大辞海》《作者编辑常用标准及规范》《标点符号用法(GB/T 15834-2011)》《图书编辑校对实用手册》《通用规范汉字表(2013版)》等。智能审校要先整理这些真实的专业数据并形成审校专业数据库,再利用智能(算法+算力)训练审校系统,使其能灵活运用审校专业知识,利用既定的判定逻辑,完成只有专业审校人员才能完成的审校工作。首先,审校专业数据库既要内容丰富,又要知识覆盖面广。也就是说,智能审校要以大数据为基础,利用专业知识储备解决各种各样的审校专业问题。其次,“算法”是智能审校系统的灵魂。机器学习(或深度学习)已成为人工智能的一种服务支持,是人工智能的核心,也是使计算机具有智能的根本途径。其要学习样本数据的内在规律和表示层次,根據用户需求选用监督学习、无监督学习、半监督学习和强化学习等训练学习方法,使计算机具有学习、分析和思考的能力。机器学习所选用的某种算法一定是针对用户需求的最优算法。算法的优劣相当于人类智力水平的高低,决定着智能系统最终判定的准确性。智能审校面对的用户需求是对各类自然语言进行处理,而自然语言处理也是人工智能一个重要的研究方向,其是让计算机理解(或假装理解)人类的语言(如汉语、英语、法语等),并完成一系列与文字相关的任务,如审校任务。最后,需要强调的是,“算力”是智能系统的基石,决定智能系统的最终输出速度。如果没有算力,智能系统就会无法输出或输出不及时,导致前面所有的努力都功亏一篑。智能审校可借助成熟的“云”计算,提高审校速度。综上所述,智能审校的内涵就是“出版行业标准规范数据+能满足自然语言处理需求的机器学习(或深度学习)算法+基于云计算的算力。”如图1所示。

(二)智能审校关键技术分析:自然语言处理

不同国家有不同的自然语言,如中国人说汉语、外国人说各种不同的外语,如英语、法语、日语和韩语等。人们学习语言,形成自身的逻辑思维和认知。自然语言是人类所特有的复杂的认知心理活动,用于表达自身的喜怒哀乐、见识和见解,它是人类思维的明证,也是沟通与交流的载体与桥梁。

语言不是孤立的,是错综复杂的,有时还是模棱两可的。在学习任何语言时,每个人都必先学习该语言的语法与语义,然后要理解复杂的语境与语用。以汉语为例,一个“我”就有多种表达:吾、鄙人、敝人、小女子、在下等,这就是语言的多义性。此外,很多时候自然语言还存在歧义现象及模糊性,不同的人对同一句话的理解也可能是不同的。因此,自然语言处理的研究是复杂且高深的,像马斯克要研发推广的“脑机接口芯片”一样,自然语言处理面对的挑战是人类精密且神秘复杂的大脑,要模拟人类的思维和模式,形成准确的判定。在人工智能的重要研究方向,自然语言处理被誉为“人工智能皇冠上的明珠”,是人工智能研究的巅峰与制高点。

自然语言处理是以自然语言为输入,运用内部的语言模型和智能算法,模拟人类的智能,对自然语言进行理解、分析和生成,并返回预测结果。其要通过机器学习或深度学习获得语言知识,以真实语料库实现真实文本的处理,即完成对字、词、句、段落、篇章的输入、理解、分析、识别、生成与输出。自然语言处理包括自然語言理解和自然语言生成,自然语言理解侧重于以自然语言为输入,在处理后输出机器可读的语义表示;而自然语言生成则是将机器可读的语义表示生成自然语言文本。

自然语言理解通常分为三个层次:词法分析、句法分析、语义分析。词法分析是自然语言处理的基石,主要包括分词、词性标注、命名实体识别、新词发现等。句法分析要自动推导句子的句法结构,主要包括短语结构分析、依存句法分析和成分句法分析等。语义分析指分析文字的含义,也就是词语、句子、段落的意义,包括词义消歧、框架语义分析、词汇、句子、段落等。智能审校针对的是自然语言生成机器可读的语义,侧重于自然语言理解层面,则图2未展开自然语言生成分支表述。审校的对象是自然语言所形成的文字,因此,在本质上,智能审校只是自然语言处理的一种基于文本处理的智能应用。语义分析是智能审校的核心,智能审校只有在语义分析的基础上才能实现智能识别。图2详细列示基于自然语言理解的自然语言处理的主要任务。

可见,自然语言处理最能体现人工智能研究人员的水平。智能审校就是借用这一技术来完成出版过程的审校工作,助力出版业进入智能新时代。由此,理解自然语言处理就是理解智能审校,掌握自然语言处理的优势与劣势,就是掌握智能审校的优势与劣势,两者相辅相成,相得益彰。

三、智能审校软件

随着智能技术的不断演进和更新,出版产业正在经历转型和升级,进入智能出版新时代。在各种智能审校软件不断推出的当下,出版人不仅要保持对智能技术的敏锐性,还要了解并能运用智能审校软件的各种功能,借助新技术、新方法和新平台,提高出版审校工作效率,提升出版质量。

(一)智能审校软件系统的通用功能

智能审校软件是一种辅助工具,服务于出版,其能够节省审校的人力、物力,减少人工分析、处理书稿的差错,辅助审校人员高质高效地完成作品的出版。而智能软件的基石是智库。智库是强大且丰富的各类知识库,包括通用智库、专用智库及各类自定义智库等。智能审校软件能够形成属于自己的专业智库。例如,黑马校对软件[5]具有10000亿文字的高质量语料,包含800万条错误规则库、8000万条大规模专业库和79个专业词库,涉及自定义用户库、错误库、重点词监控库、敏感库、建议库、领导人职务库和排序库等词库。智库要根据用户需求和标准不断更新和完善,是一个日积月累、日臻完善的过程。智能审校软件需要智库和智能算法来训练语言模型,形成其“智能”,最终完成预期的审校输出。智能审校软件的智库越完美,其算法和算力越优化,就越能产生最佳的审校智能,更快速地检查和修改稿件的各类错误,助力审校人员高质量地完成书稿的审校工作。

智能审校软件的通用功能一般包括字词符号检查、逻辑体例检查、格式检查、知识类检查、敏感内容检查、政要信息检查、内容相似性检查、上下文重复性检查等(如图3所示)。若智能审校软件不同,其特色也会有所不同,即不同智能审校软件具有自己的特色模块,但本质都是辅助审校工作,降低成本,增加产出。

(二)智能审校软件给出版业带来的机遇与挑战

当前,智能审校软件能够快速准确地协助审校人员处理稿件,得到了业界的认可,如方正智能辅助审校系统处理单篇10万字左右的稿件平均用时不超过2分钟。同时,智能审校软件在提高审校的精确率方面也表现出色,如凤凰智能校对系统的敏感词精确率可达到98%,其错别字精确率可达到92%,这些都是人工处理所无法企及的。智能

审校软件还擅长校对常见的录入错误、错别字和非规范词条、政治类内容、口号/语录的规范、敏感类内容等。只要具有专业智库,遵循准确有效的规则,智能审校软件就能毫无遗漏地找到并纠正这类稿件审校错误。此外,智能审校软件还能处理与语法相关的单字、重复字词等错误。与智能审校软件相比,审校人员在处理书稿,尤其大型书稿时,查找某类常见错误会更费时、费力,审校效率低,如将某种标点符号从半角全部转成全角,人工审校就易出现遗漏情况。智能审校则能将审校人员从密集重复性的劳动中解脱出来,通过机器仿效完成这些重复性任务,实现出版行业从人员密集型到智能密集型的转变,加快作品出版的速度。

但智能审校系统能否完全替代审校人员?虽然AlphaGo的出现标志着强人工智能时代的来临,甚至人类有可能进入超人工智能时代,但是在出版审校实际工作中,审校人员除了解决稿件常见的字词、体例等方面的问题,还要审校和润色内容,保证书稿知识的严谨性和正确性,使出版作品成为善本。在这方面,目前的智能审校软件还不能自行完成。

四、结语

在人工智能时代,人工智能使人类从通用的事务中解脱出来,但人工智能并不会取代人类的创造力。对出版人而言,我们要积极拥抱和利用智能技术,使用智能审校系统,融合技能与专业知识,引领智能出版的未来发展。

[参考文献]

[1]“科普中国”科学百科词条编写与应用工作项目.人工智能[EB/OL].[2022-03-14].https://baike.baidu.com/item/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/9180?fromtitle=AI&fromid=25417.

[2]Crevier,D.AI:The Tumultuous History of the Search for Artificial Intelligence[M].New York:Basic Books,1993.

[3]Nils J.Nilsson.人工智能Artificial Intelligence: A New Synthesis[M].郑扣根,庄越挺,译.北京:机械工业出版社,2003.

[4]P.H.Winston.Artificial intelligence[M].Addison-Wesley,Reading,MA,2nd ed,1984.

[5] 黑马校对官网[EB/OL].[2022-03-14].https://www.bjhm.com.cn.

猜你喜欢
人工智能
人工智能6月大事件
我校新增“人工智能”本科专业
人工智能AI
人工智能之父
2019:人工智能
人工智能
人工智能与就业
数读人工智能
人工智能时代,就业何去何从
下一幕,人工智能!