AIGC 时代有声书行业的机遇与挑战

2024-01-25 06:31■文/程
张江科技评论 2023年6期
关键词:音色语音内容

■文/程 辉

在生成式人工智能时代,有声书行业的生产流程将重塑,生产力会有突破性提高。

随着人工智能(Artificial Intelligence,AI)技术的不断发展,聊天生成式预训练模型(Chat Generative Pre-trained Transformers,ChatGPT)横空出世,我们迎来了生成式人工智能(Artificial Intelligence Generated Content,AIGC)时代。

AI 正加速渗透各行各业,以塑造产业新范式,一场新的生产力与创造力革命蓄势待发。AI 语音技术是AIGC 领域的重要分支之一,随着AI 技术的发展,其角色功能、产品服务和行业生态等都发生了巨大的变化。

AIGC 影响各行各业

2022 年,ChatGPT 凭借其在语义理解、文本创作、代码编写、逻辑推理、知识问答等方面的卓越表现,以及自然语言对话的低门槛交互方式,迅速蹿红网络,收获了大批用户。ChatGPT-4 引起了人们对AIGC 的广泛关注。第50 次《中国互联网络发展状况统计报告》显示,截至2022 年6 月,中国互联网普及率已高达74.4%。在网民规模不断提升、网络接入环境日渐多元、AI 技术助推行业数字化转型升级的宏观环境下,作为新型内容生产方式的AIGC 技术,为行业转型的落地提供了想象空间。

AIGC 是一种基于人工智能技术的自动化内容生成系统,可以使用机器学习和自然语言处理(Natural Language Processing,NLP)等技术,学习和分析海量数据,让计算机模拟人类的创造力和判断力,自动生成符合人类需求的各种文本、图像、音频和视频等多媒体内容。

AIGC 兴起主要源于自然语言处理和扩散模型(Diffusion Model)的发展与开源。20世纪50年代,计算机科学家就开始尝试使用计算机生成语言模型。随着机器学习和深度学习等技术的不断突破,AIGC 技术得到了快速的发展。

AIGC 是一次新技术革命,具有极强的普适性,可以改造和升级人类生产、生活的方方面面。它的发展分为3 个时期:酝酿萌芽阶段(20 世纪50年代至90 年代中期)、稳步推进阶段(20 世纪90 年代中期至21 世纪第二个十年中期),以及迅猛发展阶段(21 世纪第二个十年中期至今)。

在酝酿萌芽阶段,AIGC 处于实验室探索中。在稳步推进阶段,随着算法的不断优化,AIGC 逐步出现在各式各样的应用场景和商业模式中,在图像、音乐、视频等领域得到了广泛应用。在迅猛发展阶段,AIGC 开始与其他技术深度融合,如自然语言处理、计算机视觉、机器学习等,融合后,AIGC 更加全面,可以实现更复杂、更高级的内容生成和创作等。

艾瑞咨询2023 年发布的《AIGC 系列报告——中国AIGC 产业全景报告》指出,内容生成与理解是大模型的核心能力,AIGC 的产业价值主要体现在以此为核心的“变革内容生产方式”与“变革人机交互方式”两方面。大模型对内容理解和内容生成的双向能力使AIGC 既能以极低门槛实现多模态内容生成,也可脱离内容生产核心场景泛化为一种人机对话的媒介。基于此种理解,AIGC 将实现内容创作权的下放,借助针对各垂直领域衍生的大量AI 生产工具,实现全行业内容生产效率的飞升。

AIGC 会引发内容行业巨变。2023 年9 月21 日,爱奇艺创始人、首席执行官龚宇在“2023 爱奇艺iJOY 悦享会”上分享了他对行业的最新思考。在他看来,AI 在影视内容策划、开发、制作以及宣发等方面将有重要的应用空间。其实,不仅在影视行业,AIGC 还会在许多其他内容行业如编辑出版、新闻、设计等的生产端、分发端、产业端重构生产模式。

AIGC 可帮助教育行业突破传统教育模式及人工生产效率的限制,实施个性化教学、智能辅导、自动化评估,构建在线学习平台以及提供全面的管理。它的介入会提升教学效率和质量,实现个性化教育和精准教育,助力教育行业的数字化转型和教学模式的变革。

AIGC 与金融业的结合也格外引人注目。目前,摩根士丹利、彭博、德意志银行等都已有初具雏形的应用落地。有学者指出,AIGC 可以在金融行业中的客户服务、产品创新、智慧办公、研发管理、监管合规知识库建设和代码开发等方面发挥作用。有了AIGC 的加持,金融行业将发生质的蜕变。

对网络视听行业而言,置身以内容分发平台为核心的内容消费赛道,连接供应端的创作者和需求端的大量用户,线上内容资源是最核心的生产力,创作者需要将内容质量保持在可持续吸引用户注意力的水平。AIGC 主要影响的是内容创作与人机交互,线上化程度越高、内容占比越大的行业,变革越深刻和广泛。由此,它的入局对业态而言势必是一场深刻的颠覆与变革。

语音合成技术进入有声书行业

近年来,国内各大互联网巨头的发展轨迹都有一个“共性”:利用AI 技术赋能传统行业。AI语音技术作为AIGC 的重要分支之一,被应用于传统有声书出版业,为有声书行业重塑生产流程、提高生产力提供了可能性。

AI 语音技术包括语音识别(Automatic Speech Recognition,ASR)、自然语言处理和语音合成(Text to Speech,TTS)等三大技术。其中,语音合成技术在有声书行业的生产端已显现出强大的生产力。

语音合成是将计算机自己产生的或外部输入的文字信息转变为口语输出的技术。它涉及声学、语言学、数字信号处理、计算机科学等多个学科,主攻如何将文字信息转化为可听的声音信息,让机器像人一样开口说话。不同于录音机式的声音回放设备,语音合成是将任意文本转换成具有高自然度的语音。

语音合成流水线包含文本前端(text frontend)、声学模型(acoustic model)和声码器(vocoder)等3 个主要模块。语音合成的流程是:通过文本前端模块将原始文本转换为字符/音素;通过声学模型将字符/ 音素转换为声学特征,如线性频谱图、mel 频谱图、LPC特征等;通过声码器将声学特征转换为波形,最终合成语音。

随着AI 的进步,神经网络、深度学习等技术出现,“TTS+AI”的组合使得电子合成语音愈发自然和准确。针对情感起伏大、音色个性化、声线多元、贴合人声等更精细化的需求,目前已有AI 语音厂商提供“情感TTS”定制,旨在通过调整音色的语调、音高、语速,甚至模拟人类的生气、伤心、高兴等语气,让电子合成语音符合语境或场景,具有“情感”。

得益于互联网技术发展与移动终端的普及,近年来,人们更青睐于“内化”的居家生活方式,有声读物市场呈爆发式增长。智研咨询认为,2023 年中国有声读物市场规模有望突破100亿元(见图1)。

图1 2015—2023 年中国有声读物行业市场规模

有声书行业的传统制作流程由人工手动操作。审听音频、拼接多名主播的人声、制作后期垫乐等依靠纯人工完成,仅20 万字的读物需要耗费近1 个月的时间才能完成制作。此外,有声书行业存在大量重复劳动的工作,准入门槛低,从业人员多由利用闲散时间发展副业的兼职人员组成,内容裂变虽然增长迅速,优质精品却是凤毛麟角,目前尚未形成行之有效、监管有力的行业规范。现存有声书普遍存在制作流程周期长、成本高、质量不稳定、水平良莠不齐的问题,传统低效的制作方式很难满足井喷式增长的有声书市场需求。AI 入局,其内容创作方式与人机交互模式会充分发挥技术优势,为有声书行业的转型提供参考路径。

首先,AI 音色具有高拟人度、高流畅度的特色。语音合成平台能提供多样化、个性化的音色,可模拟人在不同场景下的语气、状态与情感,在一定程度上媲美真人,其提供的大量音色素材,为有声书创作奠定了技术基础。

其次,有声读物的制作周期缩短。TTS 技术在短时间内将海量文本生成语音,极大地缩短了录制时间。例如,在Reflect Audio 推出的有声读物制作平台上,AI 主播的制作速度超过500 万字/天。

最后,制作成本降低。用AI 代替真人,音色可从语音合成平台提供的丰富音色中选择,实实在在地省去了高昂的录制费用,低廉的成本即可获得一级主播的优质声音,实现高品质的创作。

“AI+有声”新模式

在大量AI 生产工具的应用陆续落地的背景下,各类企业数字化语音厂商都在围绕大模型寻找自身的优势空间与定位。在有声书行业这一垂直领域内,涌现一大批在AI 语音发力的企业,或能实现AI 语音生产的实际落地。

国内一家首创“AI+真人”混合录制形式的企业——上海家瑶网络科技有限公司的业务模式与成长路径,或能为“AI+有声”的应用层落地提供注脚。除利用“情感TTS”音色批量录制有声读物之外,针对有声书行业存在的核心痛点问题,公司独立研发的AI 自动对轨、AI 辅助审听的应用级产品“爱对轨”,借助行业领先的语音识别模型,实现了AI 全流程参与制作,由AI 自动完成繁复低效的操作,并辅助对音频内容进行审校,“以看代听”,极大地缩短了制作周期,提高了内容准确率。

AIGC 在内容消费领域引起了生产力变革,从技术到商业模式的路径已全线打通,各类企业借助技术背景发挥自身优势,带来的海量下游应用优化将进一步释放行业创作活力与创新力。“AI+有声”模式作为其中一个缩影,也将拓展有声书行业市场规模,助力形成更加蓬勃发展的有声书市场。

猜你喜欢
音色语音内容
内容回顾温故知新
精雕细琢的外形与音色 Bowers & Wilkins(宝华韦健)805 D4
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
擅长营造美好的音色 Marantz SA-10 S1/PM-10 S1
论长笛演奏的音色变化
从辉煌到柔美——七彩音色之西方管乐篇
主要内容