Archer Jockers:用机器算法解密畅销小说基因

2019-04-19 08:39陈铭徐丽芳
出版参考 2019年3期
关键词:文本挖掘机器学习畅销书

陈铭 徐丽芳

摘 要:图书咨询公司Archer Jockers致力于使用人工智能破解图书畅销的一般模式,帮助不同领域的小说家改进他们的书稿,以数据驱动的角度重新理解、优化自己的小说创作。此外,Archer Jockers还朝着为出版商、经纪人和其他书籍业务相关机构和个人提供定制服务的方向努力,包括挑选书籍、撰写图书简介、书籍分析和畅销书趋势分析等,期望运用算法找到最佳的小说畅销方案。

关键词:Archer Jockers 畅销书 文本挖掘 机器学习

畅销书的概念最早起源于美国,《大不列颠百科全书》对“畅销书”(Bestseller)的定义是:在某个时期内受到大众欢迎,销量在同类书中位列前茅的图书,可作为反映大众文学趣味和评价标准的一种指标。作为市场产物,一本畅销书虽然不一定能成为经典,但出色的销量证明了它们相当契合某个时期内大众的欣赏趣味、心理需求和价值观念等。这也表明,一个作家要写出一本畅销书必须具备洞察人性和把控故事节奏的能力,在撰写时知道如何创造紧凑的情节和故事的高潮。畅销书应该是什么样的?这个答案也许在作家心中,也可能在出版社编辑和文学经纪人的运作里,但都要经过读者的检验。有些书评人和编辑认为一些书得以大卖是巧合和运气,毕竟暗藏于畅销书中的独特信号总是让人无法捉摸。

那么,畅销书是否有“规律”可循?来自斯坦福大学和苹果公司iBooks的自然语言处理专家茱蒂·阿切尔(Jodie Archer)和马修·乔克思(Matthew Jockers)自2010年共同组成团队,运用人工智能技术研究小说,花5年时间分析了近三十年的5000本畅销小说,用机器分类算法得到畅销书最一般的构成要素,定量和定性相结合探究畅销书的基本原理。Matthew认为:“关于畅销书的分析,计算机能看到人們无法直接看到的信息,还能找到畅销书最常见和可预测的特征。”2016年,Jodie和Matthew在文学经纪人的推动下将他们的发现总结成《畅销书密码》(The Bestseller Code)一书。该书被翻译成8种语言出版发行,两位研究者也因此成名。随后,二人于2017年一同创立图书咨询公司阿切尔·乔克思(Archer Jockers)继续他们的畅销书研究,致力于帮助不同领域的小说作家改进他们的书稿,以数据驱动的角度重新理解自己的小说创作。此外,Archer Jockers还朝着为出版商、经纪人和其他书籍业务商提供定制化服务的方向努力,期望通过算法找到最佳的图书畅销方案。

一、技术路线:用算法程序“揉碎”和读取语言数据

Archer Jockers主要通过算法运行作家书稿,依靠自主研发的计算机程序Bestsellerometer开展业务工作。这是基于计算机科学和文学两个不同领域的理论开发的运算程序,其核心是两位创始人在研究“畅销书密码”时开发的算法。机器擅长海量阅读和数据分析,可以大规模处理文本模式和细节;而人类更倾向于阅读故事情节而不会注意到文字的量化特征。Bestsellerometer则可以将小说文本中的语言数据“揉碎”后进行分析和读取,并输出有用的数据点帮助作家理解其作品的文风、主题、角色和情节等主要元素。例如,小说中平均句子长度是偏短还是偏长?叙述和人物对话的篇幅分别是多少?从情感角度出发得到的故事情节线起伏是否贴近畅销书的叙述节奏?经过Jodie和Matthew在研究畅销书过程中长达四年的训练,Bestsellerometer阅读了近万本品质不同的小说,已经可以通过计算判断一个作品是否将会畅销。例如,J.K.罗琳的作品在Bestsellerometer的算法模型中得出的畅销可能性为95%,美国超级畅销书作家詹姆斯·帕特森作品的畅销可能性为99.9%。

为了让Bestsellerometer的预测更为精确,二人进行了大量工作,主要包括三个部分:第一,文本挖掘(Text Mining)。发现和提取小说的文本特征,借助计算机程序从书面文字中挖掘信息。这一步骤属于自然语言处理(Natural Language Processing,NLP)领域的研究主题,涉及分词、识别句子、词性标注和依存句法等多个基本任务。但每一项“基本”任务对机器而言并不意味着“容易”,一旦真正深入研究小说语言和语法的工作方式,情况都会变得相当复杂。即使是教机器识别每个单词开头和结尾的分词任务,也会出现很多难以解决的情况,例如cant和shouldnt这类带着标点符号的词就不能依靠单词之间的空格来识别为两个不同的词。NLP技术人员通过编写程序将基于规则的“解析”转向基于统计推断的算法,利用词典和统计推断算法教会机器在海量阅读时消除歧义和处理边缘情况,包括命名实体识别(Named Entity Recognition,NER)等方法(注:NER是Bestsellerometer在自然语言处理过程中进行文本挖掘的一种语言处理方法,目的是识别语料中人名、地名、组织机构名等命名实体,判断小说是否畅销与小说人物以及地缘政治背景的选择等要素是否相关)。第二,机器学习(Machine Learning)。筛选文本挖掘抓取到的文本特征,总结出与“畅销元素”强相关的代表特征。借助机器学习和分类实验,Jodie和Matthew将最初得出的28000个文本特征进行筛选,只留下10%,其中故事发生地和年份等文本特征被认为与“畅销与否”无关。而剩下的文本特征,例如亲密关系主题等被确定为判断畅销书的依据。第三,机器归类。利用前两个步骤得出的畅销书判据对“未知”小说文本进行归类,放入由近3000个特征构成的维度空间内,判断它是否能够畅销。Bestsellerometer采用的归类算法有三种:K近邻(K Nearest Neighbors,KNN)算法,会自动搜寻每本书在空间内和它最接近的5本书,由这5本书的畅销性质推测这本书是否具备畅销书潜质。支持向量机(Support Vector Machines,SVM)算法,假设畅销书量表只需要“very”这个词的使用率和“人物亲密关系”2个文本特征作为维度(注:Jodie和Matthew通过研究发现,在畅销书中,“very”这个词的使用率不高,而且作家会重点落墨于人物之间的亲密关系;反之则可能为冷门书)。 SVM算法先将每本书的位置在特征空间中标注出来;再通过统计推断出畅销书集合和冷门书集合之间的分界线;最后计算机根据小说文本的位置判断它是否畅销。最近收缩形心(Nearest Shrunken Centroids,NSC)算法则是先计算畅销书和冷门书的数学重心,并通过参数缩小重心之间的距离,通过比较每本书与2个重心的距离判断它是否能够畅销。三种算法的平均预测精确度达到80%。

二、产品形态:多角度分析文本报告

作为一家图书咨询公司,Archer Jockers致力于使用Bestsellerometer算法程序为作家提供文本分析服务,从小说的文风、主题、人物和情节等维度生成精细数据,并提供1份包含建议和反馈图表的详细书稿分析报告。分析报告涵盖小说主题分析、情节和情感分析、角色设置、人物性格和句子结构等多个板块;书稿中的语言数据会与从数千本书挖掘到的类似数据进行比较,然后由Bestsellerometer给每个板块评定一组代表星级的分数。就小说主题而言,大多数畅销书只有3-4个最显眼的主题,描写重要主题的篇幅大致占据小说篇幅的30%。而新作家往往会在小说中引入太多主题导致情节变得难以控制,使故事走向“难以结束”和“迅速结束”两个极端。小说主题比重对Bestsellerometer的算法有重大影响:畅销书主题需要存在潜在的剧烈冲突,同时还不能太脱离现实生活。一般而言,特别离奇和过于缓和的主题都不太会畅销,例如摇滚和园艺等。Archer Jockers使用不同的主题模型展示小说的主题焦点与主题的整体分布情况,并与畅销书主题作相应的比较。例如图中展示的是作家亚历珊德拉·范丽卡(Alexandra Velika)的小说《纽约脱衣舞小姐》(Big Apple Strippers,简称“BAS”)与畅销书以及市面上其他图书中占比前十的主题分布比例(T-1是指书中占比第一的主题篇幅,T-2是指书中占比前2名的主题篇幅总和,以此类推)。由于BAS前3-4个主题的总比没达到30%,而且其前10个主题中每一个的占比不仅大大落后于畅销书,甚至也落后于其他一般正式出版的图书,因此Archer Jockers建议其针对主题焦点添加更为丰富的内容,删除一些与重要主题无关的故事描写。

除了小说主题,情节线的起伏和节奏也是Archer Jockers小说文本分析服务的关键。故事情节的高峰和低谷越密集,小说人物和读者的情绪起伏越频繁,越容易引人入胜。在剧本和小说中,最简化的故事曲线为三幕式架构:触发、冲突和解决。利用三幕式架构分析小说可以快速看出情节的基本轮廓,但还不够微观详细。为此,Bestsellerometer在分析小说时会追踪情绪词语,并将各种故事情节归纳成七大曲线,从而可以直观地看出人物情绪是如何随情节推进而产生变化的。如图4所示的BAS情节线,图表中间的水平线代表毫无波动的情绪,水平线以上的部分表示人物处于积极情绪中,例如开心、兴奋、暧昧和雀跃等,水平线以下的部分则表明人物进入消极情绪中。向上的斜坡标志着读者将跟随故事情节的推动获得越来越积极的情感体验,往下的曲线波动则表明事态朝着消极的方向发展。垂直的虚线表明BAS的叙事节奏。它们在故事时间轴上的分布间隔越均匀,读者的阅读体验就越趋于平衡。整体而言,由于小说的大部分情节在水平线以下,这可能导致该书在市场上表现不佳,因此作者应设置更多积极的情节转折点,避免情节线长时间位于消极情绪中。另外,每一部小说都有自己特定的叙事焦点。叙事焦点的变化推动了情节的发展,从而影响读者的阅读节奏。Bestsellerometer的统计结果表明,情节线的振幅和频率与小说畅销与否高度相关,高低对称且韵律协调的情节线更容易吸引读者,例如现象级畅销书《达·芬奇密码》全书的情节线分布上属于整体均匀对称、韵律感强的“W”线型。

三、发展方向:从作家市场转向出版业畅销书业务

目前,Archer Jockers主要聚焦于作家市场,为小说家的书稿提供基于算法的个性化反馈,并给作家一些出版社编辑不能提供的修订建议。它的服务包括个性化书稿分析、小说系列分析以及VIP服务。个性化书稿分析需要作家支付200美元服务费用,作家会在一周内收到Archer Jockers的报告。小说系列分析是帮助作家在写系列小说时,判断是否应该继续下一本的写作,它会为作家提供整个小说系列的情节走向和主题连续性等方面的反馈报告。根据小说系列的具体册数(5册以内),服务费用大致在340-750美元之间。VIP服务主要针对一些需要一对一专业指导的作家,由原先出版社编辑出身的Jodie提供专业指导。Jodie会依据书稿分析报告与作家一起探讨所有数据点对他们小说的意义,帮助作家打开思路。此外,Jodie还会给作家提供关于出版方面的业务指导等。该项服务费用在165美元以上。随着Archer Jockers业务的逐步开展,已经有多名作家对他们的服务表示认可;而且有越来越多的作家开始尝试这项具有“算法智慧”的图书咨询服务。

此外,Archer Jockers还朝着为出版商、文学经纪人和其他畅销书相关业务机构提供定制服务的方向努力,包括挑选书籍、撰写图书简介、书籍分析和畅销书趋势分析等。Jodie和Matthew认为出版业内的畅销书销量存在一个可预测的模式。美国东北大学的Albert-László Barabási团队也对此表示支持。后者通过对“纽约时报畅销书排行榜”进行数据研究,提出了一个畅销书动力学机制。Albert-László Barabási团队在调查中发现,在虚构类小说市场中,女性作家的作品每年销量更高,所占比例较男性作家更重。而Archer Jockers发现,从语言风格的量化结果出发,女性作家掌握凭借简洁行文打动人心的写作技巧,文风更接近市面上畅销书的文风特征。如今,图书出版业的竞争相当激烈。每年仅是在美国印刷出版的新书就超过20万种,而位列《纽约时报》畅销书单的只有不到500本图书。Jodie和Matthew認为,将大数据算法和人工智能应用于图书出版业能准确地预测小说作品的畅销品质以及当前市场动态,有望帮助出版商打造现象级畅销书。如今,Archer Jockers不仅帮助出版商或经纪人将小说作品与市场上的畅销书进行比较并判断其发行潜力,还能提供其他方面的决策支持。例如,在出版商把某作家的书稿发给Archer Jockers后,后者会通过机器阅读该作家的作品,判断其是否具备畅销书作家的潜质,帮助出版商决定是否雇用这个作家。

四、结语

随着大数据和人工智能的应用渗透到出版的各个环节,已经有多家公司像Archer Jockers一样将机器算法用于畅销书运作中。例如,有的公司依靠大数据挖掘出大量用户搜索的非虚构题材,然后雇人按照数据分析所得的大纲快速创作,借助数据挖掘获得的先机获得利润。如今,虽然许多出版商开始认可大数据和机器算法等先进技术对行业运作的推动作用,但仍存在质疑的声音。部分业界人士认为,机器算法可能有助于出版商盈利,但如果将销量视为衡量小说的文学标准,会毁了小说本身。换言之,纯粹迎合读者的小说作品更像是机器进行文字切割和加工后的工业产品,将小说世界变成没有多种可能性和“美感”的科学领域,限制了读者的阅读体验。毫无疑问,出版业属于文化产业,文学作品需要百花齐放而不是标准化生产;机器算法等人工智能并不能取代作者所能给予读者的文学智慧。在这科技无处不在的世界里,未来的分析算法该如何运作才能做到不对小说创作产生影响,这是每个像Archer Jockers这样的图书咨询服务提供商都要思考的问题。

参考文献:

[1]Encyclopedia Britannica Online, Bestseller[EB/OL].[2018-12-22].https://academic.eb.com/.

[2]Jodie Archer,Matthew L.Jockers.The Bestseller Code: Anatomy of the Blockbuster Novel[M].London:St Martins Press,2016.

[3]方卿,徐丽芳,许洁,等.出版价值引导研究[M]. 北京:商务印书馆,2018.

[4]Burcu Yucesoy et al.Success in Books: A Big Data Approach to Bestseller[J].EPJ Data Science,2018(7):7.

[5]搜狐.他們揉碎了5000本书籍的数据,曝光了畅销书的成功套路[EB/OL].[2018-12-22].http://www.sohu.com/a/229292059_100039183.

[6]Jianbo Gao, Matthew L. Jockers et al. A multiscale theory for the dynamical evoluti-on of sentiment in novels[C].2016 International Conference on Behavioral, Economic and Socio-cultural Computing (BESC). Durham:2016.

[7]澎湃.如何制造现象级畅销书[EB/OL].[2018-12-22].https://www.thepaper.cn/newsDetail_forward_1536608.

[8]The Atlantic. Can Big Data Find the Next “Harry Potter”[EB/OL].[2018-12-22].https://www.theatlantic.com/technology/archive/2016/09/bestseller-ometer/499256/.

[9]陆利坤,游新冬.大数据技术在出版行业中的应用研究[J].出版科学,2017,25(06):89-96.

(作者单位系武汉大学信息管理学院,武汉大学数字出版研究所)

猜你喜欢
文本挖掘机器学习畅销书
24小时完成的畅销书
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
慧眼识璞玉,妙手炼浑金
畅销书架
畅销书架
畅销书为何畅销